基于关键词提取的搜索结果聚类研究

热度1818票  浏览904次 【共1条评论】【我要评论 时间:2011年4月17日 19:54
自然语言处理与信息检索共享平台5`E m y u4uK+fE

秦鹏,张华平,基于关键词提取的检索结果聚类研究,第五届全国信息检索学术会议(CCIR2009), 上海,2009-11

Xt8sT'@U0

qjV _.X;v]] J t0摘 要:信息检索的结果往往庞杂,缺乏有效地加工整理,对搜索结果进行聚类是一种普遍的需求,而传
h,h~A[-_0统的文本聚类方法不能提供有效的类别标签,且速度较慢,不适用于在线搜索结果的聚类。本文针对性地自然语言处理与信息检索共享平台0[(N;}(P p y E;qB
提出了基于关键词提取的搜索结果聚类算法,基本思想为:结合信息检索的特点,将词频(TF)、词性和互
,S-o3B2jX0信息等特征进行融合计算,综合实现关键词的提取;最终以筛选出的关键词作为基础特征,实现层次聚类。
R#LJBVt V8I0经实验验证,该方法P@10 达到80%,用户满意度达到85%。实验结果表明,基于关键词提取的搜索结果聚
}b%~l+\'}QF0类算法优于目前已知的所有系统。
Va?/Nu:Z3wZyt0关键词:关键词提取;搜索结果聚类;信息检索;

9B*yQhAa7R |,K0

3}&Z&q"Z} Vhz0Abstract: Web Search results clustering is userd to organize search results which is complicated and poorly organizted ,
nv;@ E,[cY p0and make it easy for user to browse the results. Web search results is required widly. Traditional clustering techniques自然语言处理与信息检索共享平台7c.oabNR#n!x
are inadequate since they can not generate clusters with highly readable names and they process so slowly that can not自然语言处理与信息检索共享平台_Fmb.N&P r&I3w
meet the requirement. A multi-feature integrated model is developed to evaluate of the keyword , which combines the自然语言处理与信息检索共享平台&C ZV6A i"[
term frequence, POS, mutual information features together. The improved keyword extraction method takes into
d/~"zR }Tq'w0account of the feature of search result. According to the experiments, it can be concluded that the method, which
?}e+kh4`5Gk0P@10 reached 80% and customer satisfaction reached 85%, is better than known system.
K `*Jky"LS.{;q9O0Keywords: keyword extraction; search result clustering; information retrieval

Lx8O3k+k,r)gGB0 自然语言处理与信息检索共享平台4\p.t)G!o9Q)q8N

SearchClustering.pdf(190 KB)自然语言处理与信息检索共享平台 e6K2Wu!ffBt

TAG: 搜索结果 关键词
顶:124 踩:120
对本文中的事件或人物打分:
当前平均分:-0.44 (551次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.48 (492次打分)
【已经有531人表态】
116票
感动
49票
路过
63票
高兴
52票
难过
57票
搞笑
63票
愤怒
55票
无聊
76票
同情
上一篇 下一篇
自然语言处理与信息检索共享平台北京市网友 [samllbear] ip: 218.241.*.*
2011-05-09 19:28:00
很好的资源
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有1位网友发表了看法】