基于主题词的网络热点话题发现

热度1767票  浏览701次 【共3条评论】【我要评论 时间:2011年4月17日 19:48

-R\dAD.J V$mU0李恒训,张华平,,基于主题词的网络热点话题发现,第五届全国信息检索学术会议(CCIR2009), 上海,2009-11

"f9A{-w\E5qW0 自然语言处理与信息检索共享平台 SA.B}TZRe

摘 要:网络话题层出不穷,往往会引发重大舆情危机,如何快速高效的从海量信息中发现热点是一重大自然语言处理与信息检索共享平台T-o'B;{ W^6^J s ZH#l/V
挑战。本文提出了一种基于主题词的网络热点话题发现算法。其基本思想为:首先综合主题词表和有意义
p'ZTS$N:P8F%a2V0串识别结果生成主题词候选集;然后对候选集进行多重过滤并采用启发式规则对主题词进行权重计算;最
xt~)x!W.Qsy0后,以主题词为线索进行热点话题提取,采用多特征的话题模型,融合新闻、论坛、博客的相应特征实现
AxSr6V0了网络热点话题的发现。通过在TDT4 评测语料和中科院计算所天玑舆情监测系统平台上的实验分别取得
3i!C8Px?n0了0.282 的最小识别代价和93.3%的用户满意度,算法运行效率高于传统方法。实验表明,该算法对网络自然语言处理与信息检索共享平台L~[B tD }:n0n
热点话题发现行之有效。自然语言处理与信息检索共享平台h} T$g6| o*OT+J
关键词:主题词提取;热点话题发现;聚类;舆情;天玑
DD0`5{g0Internet Hot Topic Detection Based on Topic Words自然语言处理与信息检索共享平台\ei$h WPxY
Abstract: There are mass of information produced by the Internet everyday, in order to get the hotspot from the自然语言处理与信息检索共享平台4Y!L%B(R4a9B W
mass, this paper showed a quick and effective strategy of the Internet hotspot topic detection based on topic自然语言处理与信息检索共享平台']1F.s$k:~A3f4{
words extraction. Its basic content can be summed up as follows: Firstly, we pretreatment the corpus for Chinese
Cw ?t#X#jd"u0word segmentation with ICTCLAS and use the scan algorithm based on the topic word dictionary and meaningful
|zm[jMa0string recognition algorithm to get the candidate topic-word set, then filter the topic words in accordance with
u1b#A,P2\JzA"w*|0certain heuristic rules and calculate the weight, Lastly, considerable and selective use is made of the Meta自然语言处理与信息检索共享平台M`'~@+y@
information of the web pages to hotspot event cluster quickly, because of the different characteristics of the BBS,自然语言处理与信息检索共享平台.mXtir9Ht#_$uox
News and Blog respectively, which obtains a relatively better results in the experiment.
u'M*Z.w1If0Keywords: topic words extraction; hot topic detection; clustering; public opinions; golaxy
自然语言处理与信息检索共享平台0w5}Cq%NN

Dr {#HK0 Hottopic.pdf(188 KB)自然语言处理与信息检索共享平台9l5Km y4c#V,y+T8fR n

自然语言处理与信息检索共享平台 t J%^In R @ t1S

 

#v/PM#nA-u"i:g4y0
TAG: 博客 上海 新闻 中科院 主题词
顶:118 踩:143
对本文中的事件或人物打分:
当前平均分:-0.16 (493次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.24 (483次打分)
【已经有530人表态】
88票
感动
65票
路过
58票
高兴
49票
难过
59票
搞笑
67票
愤怒
69票
无聊
75票
同情
上一篇 下一篇
自然语言处理与信息检索共享平台北京市网友 [samllbear] ip: 218.241.*.*
2011-05-09 19:32:46
总是积分不够
自然语言处理与信息检索共享平台湖北省武汉市华中科技大学网友 [martin3000] ip: 218.199.*.*
2011-09-21 16:04:03
积分不够了
自然语言处理与信息检索共享平台河南省郑州市网通网友 [bingmo35] ip: 219.155.*.*
2012-04-12 22:23:53
多谢分享
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有3位网友发表了看法】