基于主题词的网络热点话题发现

热度1726票  浏览692次 【共3条评论】【我要评论 时间:2011年4月17日 19:48
自然语言处理与信息检索共享平台D$Q:AHr/Y

李恒训,张华平,,基于主题词的网络热点话题发现,第五届全国信息检索学术会议(CCIR2009), 上海,2009-11 自然语言处理与信息检索共享平台vD;Q}}n!C5A

自然语言处理与信息检索共享平台*h3kDxA,I o0R

摘 要:网络话题层出不穷,往往会引发重大舆情危机,如何快速高效的从海量信息中发现热点是一重大
?&g `3?;]0挑战。本文提出了一种基于主题词的网络热点话题发现算法。其基本思想为:首先综合主题词表和有意义自然语言处理与信息检索共享平台U H/T/by k(i+_d
串识别结果生成主题词候选集;然后对候选集进行多重过滤并采用启发式规则对主题词进行权重计算;最自然语言处理与信息检索共享平台wz N$Cn
后,以主题词为线索进行热点话题提取,采用多特征的话题模型,融合新闻、论坛、博客的相应特征实现自然语言处理与信息检索共享平台-Q5r.AT}l
了网络热点话题的发现。通过在TDT4 评测语料和中科院计算所天玑舆情监测系统平台上的实验分别取得自然语言处理与信息检索共享平台MyUO|h}
了0.282 的最小识别代价和93.3%的用户满意度,算法运行效率高于传统方法。实验表明,该算法对网络自然语言处理与信息检索共享平台,C wp:bo,PH
热点话题发现行之有效。
zF(dP{V/w0关键词:主题词提取;热点话题发现;聚类;舆情;天玑自然语言处理与信息检索共享平台6QV&t:u$v_
Internet Hot Topic Detection Based on Topic Words自然语言处理与信息检索共享平台mw#vO8|b4oX
Abstract: There are mass of information produced by the Internet everyday, in order to get the hotspot from the
}^ C1UY X6u"r&~a b0mass, this paper showed a quick and effective strategy of the Internet hotspot topic detection based on topic
&nd3J V1d&y EN0words extraction. Its basic content can be summed up as follows: Firstly, we pretreatment the corpus for Chinese自然语言处理与信息检索共享平台*zR+X XmO8@
word segmentation with ICTCLAS and use the scan algorithm based on the topic word dictionary and meaningful
1V L!H D:I2@,|&`0string recognition algorithm to get the candidate topic-word set, then filter the topic words in accordance with自然语言处理与信息检索共享平台 j~ V jxl4x
certain heuristic rules and calculate the weight, Lastly, considerable and selective use is made of the Meta
8X)\;^Wy/F ~I `w0information of the web pages to hotspot event cluster quickly, because of the different characteristics of the BBS,
+C@w?7R.l(}m/B)_*b0News and Blog respectively, which obtains a relatively better results in the experiment.
"b6n1vNrF)v-@;dp0Keywords: topic words extraction; hot topic detection; clustering; public opinions; golaxy
自然语言处理与信息检索共享平台N_E^Ee

b c#VG0up(]mT0 Hottopic.pdf(188 KB)自然语言处理与信息检索共享平台Y{,B*n-Uv){q tK

自然语言处理与信息检索共享平台 C6A,A/adm }O9`$QG

 

Pqi l:k+~x%^Pp,{0
TAG: 博客 上海 新闻 中科院 主题词
顶:115 踩:140
对本文中的事件或人物打分:
当前平均分:-0.09 (482次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.27 (471次打分)
【已经有518人表态】
85票
感动
65票
路过
58票
高兴
48票
难过
56票
搞笑
67票
愤怒
66票
无聊
73票
同情
上一篇 下一篇
自然语言处理与信息检索共享平台北京市网友 [samllbear] ip: 218.241.*.*
2011-05-09 19:32:46
总是积分不够
自然语言处理与信息检索共享平台湖北省武汉市华中科技大学网友 [martin3000] ip: 218.199.*.*
2011-09-21 16:04:03
积分不够了
自然语言处理与信息检索共享平台河南省郑州市网通网友 [bingmo35] ip: 219.155.*.*
2012-04-12 22:23:53
多谢分享
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有3位网友发表了看法】