• 基于 Eclipse 和 Maven 创建 Hadoop 工程。
  • 提供训练集 training.txt 和测试集 test.txt

训练集 training.txt

- 75.8MB 文本数据集,包含 20,000 条数据记录。

- 每行记录包含“评价结论t评价内容”。

- 评价内容由中文、英文和其他特殊符号组成的词语组合,空格隔开。

测试集 test.txt

- 包含 2000 条记录。

- 每行记录包含“评价内容”。

- 评价内容格式与训练集相同。