基于聚团词的大规模文本转载识别算法

热度2131票  浏览1860次 【共2条评论】【我要评论 时间:2011年5月03日 12:11
摘要:文本转载识别是指从大规模文本库中检测出内容相同或接近的文档集合,在热门文章检测、搜索结果凝练、抄袭识别等诸多应用上,存在普遍的需求。随着网络文本的变异,文本转载的形式日趋多样化,传统算法很难有效解决当下的识别要求。该篇文章提出了基于聚团词的大规模文本转载识别算法,其基本思路为:依据词语的分布属性,识别并提取聚团词,并作为关键特征以表征文本,随后对文本集进行扩展线性比较与多维比较,最终计算出转载识别结果。实验表明聚团词算法在准确率、召回率与效率上有较高的综合性能。
J e"\f)Y)Eu0
M;\7_yA K7O[x0自然语言处理与信息检索共享平台9t-PJ+U_,SGHpL6Sb
基于聚团词的大规模文本转载识别算法.doc(161 KB)
"W^h)G~l3nEH0
TAG: 大规模 转载识别
顶:138 踩:151
对本文中的事件或人物打分:
当前平均分:-0.42 (637次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.3 (598次打分)
【已经有607人表态】
109票
感动
52票
路过
71票
高兴
69票
难过
61票
搞笑
81票
愤怒
81票
无聊
83票
同情
上一篇 下一篇
自然语言处理与信息检索共享平台北京市网通(朝阳区)网友 [张华平] ip: 221.219.*.*
2011-05-03 15:40:05
京阳现在在网易搜索工作,这篇文章是当时自己的想法,执着要做,而且做了很扎实的实验,效果也很好,需要顶一个。
自然语言处理与信息检索共享平台Unknown网友 [caixun2002] ip: 183.46.*.*
2011-12-03 03:03:29
或许引入近义词库会得到更好的效果。
现在很多转载都会替换近义词,这个算法会被这样的处理打一定折扣。
不过对文本去重还是有很大的作用,是一种新颖的想法。
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有2位网友发表了看法】