基于主题词的网络热点话题发现

热度1710票  浏览682次 【共3条评论】【我要评论 时间:2011年4月17日 19:48
自然语言处理与信息检索共享平台&x0F*C3X{.[

李恒训,张华平,,基于主题词的网络热点话题发现,第五届全国信息检索学术会议(CCIR2009), 上海,2009-11 自然语言处理与信息检索共享平台`.I I CI9D4[)C)P'\

[K `pl(a0摘 要:网络话题层出不穷,往往会引发重大舆情危机,如何快速高效的从海量信息中发现热点是一重大自然语言处理与信息检索共享平台%j7}q/@EH}e8{
挑战。本文提出了一种基于主题词的网络热点话题发现算法。其基本思想为:首先综合主题词表和有意义自然语言处理与信息检索共享平台$REw xNW S
串识别结果生成主题词候选集;然后对候选集进行多重过滤并采用启发式规则对主题词进行权重计算;最
} o~)DHq t(U0后,以主题词为线索进行热点话题提取,采用多特征的话题模型,融合新闻、论坛、博客的相应特征实现
x(I&w5KF;\zr TKI0了网络热点话题的发现。通过在TDT4 评测语料和中科院计算所天玑舆情监测系统平台上的实验分别取得
3o:lBiZ:mi(?}b0了0.282 的最小识别代价和93.3%的用户满意度,算法运行效率高于传统方法。实验表明,该算法对网络自然语言处理与信息检索共享平台v_`-A yE
热点话题发现行之有效。
(M]'o!hd%y j7Fz0关键词:主题词提取;热点话题发现;聚类;舆情;天玑自然语言处理与信息检索共享平台}IAGx5?:t9R
Internet Hot Topic Detection Based on Topic Words
+]2ST5Zc0Abstract: There are mass of information produced by the Internet everyday, in order to get the hotspot from the自然语言处理与信息检索共享平台w4uGJG/_
mass, this paper showed a quick and effective strategy of the Internet hotspot topic detection based on topic
@oq9ypT tF0words extraction. Its basic content can be summed up as follows: Firstly, we pretreatment the corpus for Chinese
5?*F&XA"@'t `0word segmentation with ICTCLAS and use the scan algorithm based on the topic word dictionary and meaningful自然语言处理与信息检索共享平台$O)ntl4pN-K5Y
string recognition algorithm to get the candidate topic-word set, then filter the topic words in accordance with
&\e.S vNWkXi3]s0certain heuristic rules and calculate the weight, Lastly, considerable and selective use is made of the Meta自然语言处理与信息检索共享平台9iDu z E,l"W)E!x
information of the web pages to hotspot event cluster quickly, because of the different characteristics of the BBS,
4QP.{MW:g*U:DP!b0News and Blog respectively, which obtains a relatively better results in the experiment.自然语言处理与信息检索共享平台+MBN)S }%J'A0rXVI
Keywords: topic words extraction; hot topic detection; clustering; public opinions; golaxy
自然语言处理与信息检索共享平台oU1z d#zqG

Jkt CI T:r0 Hottopic.pdf(188 KB)

yZ(v NM)Px]0 自然语言处理与信息检索共享平台"O/@#h@Wc5b

 

p'KsT-_`ogUN.x0
TAG: 博客 上海 新闻 中科院 主题词
顶:112 踩:140
对本文中的事件或人物打分:
当前平均分:-0.11 (475次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.24 (468次打分)
【已经有515人表态】
85票
感动
65票
路过
57票
高兴
48票
难过
55票
搞笑
65票
愤怒
67票
无聊
73票
同情
上一篇 下一篇
自然语言处理与信息检索共享平台北京市网友 [samllbear] ip: 218.241.*.*
2011-05-09 19:32:46
总是积分不够
自然语言处理与信息检索共享平台湖北省武汉市华中科技大学网友 [martin3000] ip: 218.199.*.*
2011-09-21 16:04:03
积分不够了
自然语言处理与信息检索共享平台河南省郑州市网通网友 [bingmo35] ip: 219.155.*.*
2012-04-12 22:23:53
多谢分享
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有3位网友发表了看法】