基于小规模标注语料的增量式Bayes文本分类算法

文本自动分类是数据挖掘和机器学习中重要的研究领域。针对难以获取大量带类标签的训练集的问题，提出了基于小规模标注语料的增量式Bayes文本分类算法。该算法分两种情况处理：一是对于新增有类标签的样本，直接重新计算其属于某类别的条件概率；二是对于新增无类标签的样本，利用现有分类器为其指定类标签，然后利用新样本来修正分类器。实验证明，该算法有效且可行，相较于Naive Bayes文本分类算法，精度更高。增量式Bayes分类算法的提出为分类器更新开辟了新的途径。