中文文本分类语料库测试集下载包含了复旦大学李荣陆提供的测试语料。其中,test_corpus.rar包含9833篇文档,用于测试;train_corpus.rar则是包含9804篇文档的训练语料。两个语料库各分为20个相同类别,并按照1:1的比例划分。
中文文本分类语料库测试集下载
相关推荐
中文情感文本标注语料库
精选2万多条标注好的中文情感分类语料,可用于模型训练和情感分析练习。
spark
4
2024-05-13
Python实现中文文本分句的示例
定义管理选项不安装EM组件,如果有需要可以以后建立美河学习在线www.eimhe.com
Oracle
0
2024-08-22
基于小规模标注语料的增量式Bayes文本分类算法
文本自动分类是数据挖掘和机器学习中重要的研究领域。针对难以获取大量带类标签的训练集的问题,提出了基于小规模标注语料的增量式Bayes文本分类算法。该算法分两种情况处理:一是对于新增有类标签的样本,直接重新计算其属于某类别的条件概率;二是对于新增无类标签的样本,利用现有分类器为其指定类标签,然后利用新样本来修正分类器。实验证明,该算法有效且可行,相较于Naive Bayes文本分类算法,精度更高。增量式Bayes分类算法的提出为分类器更新开辟了新的途径。
数据挖掘
1
2024-07-13
中文语料库分析利器:灵玖LJCorpus
语料库语言学借助海量语料库,深入分析语言特征,指导自然语言处理系统开发。而灵玖LJCorpus软件,为中文语料库分析提供自动化、高效的解决方案。
统计分析
4
2024-05-16
系统配置-Python实现中文文本分句的实例
2.2 系统配置
2.2.1 创建组 --- 创建组,节点2执行相同命令:
mkgroup -'A' id='500' adms='root' oinstallmkgroup -'A' id='501' adms='root' asmadmin
美河学习在线 www.eimhe.com
Oracle
0
2024-11-06
酒店评论情感极性语料库
该语料库包含大量酒店评论文本,并根据情感倾向标注为正面 (pos) 或负面 (neg) 两类,以 CSV 格式提供训练集和测试集,适用于情感分析模型的训练与评估。
统计分析
2
2024-05-16
结巴分词版搜狗语料库
以搜狗语料库为基础,运用结巴分词工具进行处理,所得的已分词版本。
算法与数据结构
3
2024-04-29
数据挖掘文本分类题目及附件
数据挖掘竞赛题目:文本分类
附件资源:* 训练数据集* 测试数据集* 评分标准
数据挖掘
2
2024-05-15
中文文本挖掘及其模型研究
探讨文本挖掘的应用领域,专注于中文语境下的研究,使用R语言进行数据分析,结合语料库和统计模型进行深入探讨。
SQLServer
1
2024-07-28