基于主题词的网络热点话题发现

热度1738票  浏览694次 【共3条评论】【我要评论 时间:2011年4月17日 19:48

d(z6b(\N @0李恒训,张华平,,基于主题词的网络热点话题发现,第五届全国信息检索学术会议(CCIR2009), 上海,2009-11

&wN$Ex,apkV6?W.p0 自然语言处理与信息检索共享平台$^(M;z?.xq1SG[u

摘 要:网络话题层出不穷,往往会引发重大舆情危机,如何快速高效的从海量信息中发现热点是一重大自然语言处理与信息检索共享平台4},`UV;H {2X By
挑战。本文提出了一种基于主题词的网络热点话题发现算法。其基本思想为:首先综合主题词表和有意义
dY,gj%Sw \0串识别结果生成主题词候选集;然后对候选集进行多重过滤并采用启发式规则对主题词进行权重计算;最
yp6?i/ALhX0后,以主题词为线索进行热点话题提取,采用多特征的话题模型,融合新闻、论坛、博客的相应特征实现自然语言处理与信息检索共享平台 p?9EM#RW
了网络热点话题的发现。通过在TDT4 评测语料和中科院计算所天玑舆情监测系统平台上的实验分别取得
4g'~%H u6AD0了0.282 的最小识别代价和93.3%的用户满意度,算法运行效率高于传统方法。实验表明,该算法对网络
|~ Iq B6n0热点话题发现行之有效。
}2@@*Zm*V)K7b0关键词:主题词提取;热点话题发现;聚类;舆情;天玑自然语言处理与信息检索共享平台&Y h"j&N'Pzf
Internet Hot Topic Detection Based on Topic Words
n;\+q~%qE7A0Abstract: There are mass of information produced by the Internet everyday, in order to get the hotspot from the
ftwfSy4I0mass, this paper showed a quick and effective strategy of the Internet hotspot topic detection based on topic自然语言处理与信息检索共享平台'v+Z'[D3dX
words extraction. Its basic content can be summed up as follows: Firstly, we pretreatment the corpus for Chinese自然语言处理与信息检索共享平台:`Jt7mUP+Kk.SuA1\
word segmentation with ICTCLAS and use the scan algorithm based on the topic word dictionary and meaningful
F"V1o+Nx0string recognition algorithm to get the candidate topic-word set, then filter the topic words in accordance with
4^ Y`9t8iV8P h Q0certain heuristic rules and calculate the weight, Lastly, considerable and selective use is made of the Meta自然语言处理与信息检索共享平台)I5v A9?Xa
information of the web pages to hotspot event cluster quickly, because of the different characteristics of the BBS,
o(jZ!yQ:p0d)f/l-G0News and Blog respectively, which obtains a relatively better results in the experiment.自然语言处理与信息检索共享平台-d+_ F ?}Jif!v J)u
Keywords: topic words extraction; hot topic detection; clustering; public opinions; golaxy
自然语言处理与信息检索共享平台:L7`6T/o` |(d:]A

自然语言处理与信息检索共享平台 R V7a_x;D

Hottopic.pdf(188 KB)

T+G$u*A{P&KPve0

9H0rVI:ci0 自然语言处理与信息检索共享平台 J.B:xi4bk

TAG: 博客 上海 新闻 中科院 主题词
顶:116 踩:142
对本文中的事件或人物打分:
当前平均分:-0.14 (486次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.23 (475次打分)
【已经有519人表态】
86票
感动
65票
路过
57票
高兴
48票
难过
56票
搞笑
66票
愤怒
67票
无聊
74票
同情
上一篇 下一篇
自然语言处理与信息检索共享平台北京市网友 [samllbear] ip: 218.241.*.*
2011-05-09 19:32:46
总是积分不够
自然语言处理与信息检索共享平台湖北省武汉市华中科技大学网友 [martin3000] ip: 218.199.*.*
2011-09-21 16:04:03
积分不够了
自然语言处理与信息检索共享平台河南省郑州市网通网友 [bingmo35] ip: 219.155.*.*
2012-04-12 22:23:53
多谢分享
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有3位网友发表了看法】