期刊检索

  • 2024年第56卷
  • 2023年第55卷
  • 2022年第54卷
  • 2021年第53卷
  • 2020年第52卷
  • 2019年第51卷
  • 2018年第50卷
  • 2017年第49卷
  • 2016年第48卷
  • 2015年第47卷
  • 2014年第46卷
  • 2013年第45卷
  • 2012年第44卷
  • 2011年第43卷
  • 2010年第42卷
  • 第1期
  • 第2期

主管单位 中华人民共和国
工业和信息化部
主办单位 哈尔滨工业大学 主编 李隆球 国际刊号ISSN 0367-6234 国内刊号CN 23-1235/T

期刊网站二维码
微信公众号二维码
引用本文:程圣军,黄庆成,刘家锋,唐降龙.一种改进的ML-kNN多标记文档分类方法[J].哈尔滨工业大学学报,2013,45(11):45.DOI:10.11918/j.issn.0367-6234.2013.11.008
CHENG Shengjun,HUANG Qingcheng,LIU Jiafeng,TANG Xianglong .An improved ML-kNN approach for multi-label text categorization[J].Journal of Harbin Institute of Technology,2013,45(11):45.DOI:10.11918/j.issn.0367-6234.2013.11.008
【打印本页】   【HTML】   【下载PDF全文】   查看/发表评论  下载PDF阅读器  关闭
过刊浏览    高级检索
本文已被:浏览 2549次   下载 1695 本文二维码信息
码上扫一扫!
分享到: 微信 更多
一种改进的ML-kNN多标记文档分类方法
程圣军, 黄庆成, 刘家锋, 唐降龙
(哈尔滨工业大学 计算机科学与技术学院, 150001 哈尔滨) 
摘要:
针对应用传统k近邻算法进行多标记文档分类时忽略了标记之间相关性的问题,提出了一种改进的ML-kNN多标记文档分类方法.针对文本特征的特点,采用一种基于KL散度的距离尺度来更好地描述文档相似度.根据近邻样本所属类别的统计信息,通过一种模糊最大化后验概率法则来推理未标记文档的标记集合.与ML-kNN不同的是,该方法可以有效地利用标记相关性来提升分类性能.在3个标准数据集上,5个多标记学习常用评测指标下的实验结果表明:所提方法在多标记文档分类问题上要明显优于ML-kNN、Rank-SVM和BoosTexter等主流多标记学习算法.
关键词:  文档分类  多标记学习  标记相关性  k近邻  KL散度
DOI:10.11918/j.issn.0367-6234.2013.11.008
分类号:
基金项目:国家自然科学基金资助项目(7,8); 黑龙江省自然科学基金资助项目(F201021).
An improved ML-kNN approach for multi-label text categorization
CHENG Shengjun, HUANG Qingcheng, LIU Jiafeng, TANG Xianglong 
(School of Computer Science and Technology, Harbin Institute of Technology, 150001 Harbin, China)
Abstract:
Conventional kNN algorithms ignore label correlations when being applied to multi-label text categorization. To cover this shortage, an improved Multi-label kNN approach for text categorization is proposed. A specific distance metric based on KL divergence is derived to measure the similarity between individual documents. Based on statistical information gained from the label sets of neighboring documents, a fuzzy maximum a posteriori principle is utilized to conjecture the label sets of the unlabeled documents. Different from ML-kNN, the proposed approach can exploit label correlations to improve classification performance effectively. Experiments on three benchmark datasets using 5 popular multi-label evaluation metrics suggest that the proposed approach achieves superior performance to some well-established multi-label learning algorithms, such as ML-kNN、Rank-SVM and BoosTexter.
Key words:  text categorization  multi-label learning  label correlations  k nearest neighbor  KL divergence 

友情链接LINKS