Guangtongxin yanjiu (Jan 2005)

中文文本分类中的特征选择算法研究

  • 胡佳妮,
  • 徐蔚然,
  • 郭军,
  • 邓伟洪

Abstract

Read online

比较了文档频率、信息增益、互信息、X2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家"八六三计划"中文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估,测评结果表明,几率比法的性能优于其它特征选择算法。

Keywords