基于关键词提取的搜索结果聚类研究

热度1886票  浏览938次 【共1条评论】【我要评论 时间:2011年4月17日 19:54

fx&u$ho4O0秦鹏,张华平,基于关键词提取的检索结果聚类研究,第五届全国信息检索学术会议(CCIR2009), 上海,2009-11

5Z wd e A0

0]LU$Td W"g0摘 要:信息检索的结果往往庞杂,缺乏有效地加工整理,对搜索结果进行聚类是一种普遍的需求,而传自然语言处理与信息检索共享平台j)Y0b9h E&HD2h
统的文本聚类方法不能提供有效的类别标签,且速度较慢,不适用于在线搜索结果的聚类。本文针对性地
2~`'Q-J S,u m0提出了基于关键词提取的搜索结果聚类算法,基本思想为:结合信息检索的特点,将词频(TF)、词性和互
#o/P%z'\;{0信息等特征进行融合计算,综合实现关键词的提取;最终以筛选出的关键词作为基础特征,实现层次聚类。自然语言处理与信息检索共享平台0I3[~-EC U!qd ~nO
经实验验证,该方法P@10 达到80%,用户满意度达到85%。实验结果表明,基于关键词提取的搜索结果聚
-T D0{7g2Y0]~0类算法优于目前已知的所有系统。自然语言处理与信息检索共享平台Za#Z!L#boQ
关键词:关键词提取;搜索结果聚类;信息检索;

,lh ~j)g,Q B0

x0znj3[8Vw:{,A0Abstract: Web Search results clustering is userd to organize search results which is complicated and poorly organizted ,自然语言处理与信息检索共享平台^ {\)\u1s'p
and make it easy for user to browse the results. Web search results is required widly. Traditional clustering techniques
r#X+B:_.QN3[0are inadequate since they can not generate clusters with highly readable names and they process so slowly that can not
2e [P!r ~(f0meet the requirement. A multi-feature integrated model is developed to evaluate of the keyword , which combines the自然语言处理与信息检索共享平台&a;rVf&N(^}cr
term frequence, POS, mutual information features together. The improved keyword extraction method takes into
0Ub8dB y Lcvsz0account of the feature of search result. According to the experiments, it can be concluded that the method, which自然语言处理与信息检索共享平台:xVj3qr6x |0l%Z Yh
P@10 reached 80% and customer satisfaction reached 85%, is better than known system.
A%]w4j h.ij0Keywords: keyword extraction; search result clustering; information retrieval自然语言处理与信息检索共享平台B?YrM-v:["R

自然语言处理与信息检索共享平台 X z)Y [8A!q6fZ*{%w;\

SearchClustering.pdf(190 KB)自然语言处理与信息检索共享平台x.t8] Q P

TAG: 搜索结果 关键词
顶:129 踩:122
对本文中的事件或人物打分:
当前平均分:-0.42 (570次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.48 (512次打分)
【已经有553人表态】
127票
感动
50票
路过
64票
高兴
53票
难过
60票
搞笑
64票
愤怒
57票
无聊
78票
同情
上一篇 下一篇
自然语言处理与信息检索共享平台北京市网友 [samllbear] ip: 218.241.*.*
2011-05-09 19:28:00
很好的资源
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有1位网友发表了看法】