- 基于 Eclipse 和 Maven 创建 Hadoop 工程。
- 提供训练集
training.txt
和测试集test.txt
。
训练集 training.txt
- 75.8MB 文本数据集,包含 20,000 条数据记录。
- 每行记录包含“评价结论t评价内容”。
- 评价内容由中文、英文和其他特殊符号组成的词语组合,空格隔开。
测试集 test.txt
- 包含 2000 条记录。
- 每行记录包含“评价内容”。
- 评价内容格式与训练集相同。
training.txt
和测试集 test.txt
。训练集 training.txt
- 75.8MB 文本数据集,包含 20,000 条数据记录。
- 每行记录包含“评价结论t评价内容”。
- 评价内容由中文、英文和其他特殊符号组成的词语组合,空格隔开。
测试集 test.txt
- 包含 2000 条记录。
- 每行记录包含“评价内容”。
- 评价内容格式与训练集相同。