数据清洗与精炼过程:

  1. 初始数据导入: 共导入超过 150 万条句子记录。
  2. 去除冗余信息: 清除每行句子前的序号。
  3. 内容审核: 剔除包含敏感词汇的句子。
  4. 长度筛选: 保留长度在 10 到 155 字之间的句子,确保句子完整性与阅读体验。
  5. 质量评估: 人工筛选,去除表达不佳、语义不通顺的句子。
  6. 去重: 消除重复句子,最终得到 33 万多条精选优美句子。

句子分类与整理

  • 对句子进行主题分类,利用数据库 GROUP BY 功能,最终整理出 9 千多个类别。