基于文字密度的网页正文信息提取方法

排行榜 收藏 打印 发给朋友 举报 来源: 河北科技大学,信息工程学院   发布者:王伟,杨华,高凯
热度1959票  浏览1272次 【共3条评论】【我要评论 时间:2011年6月27日 16:48
本文提取了一种通过识别网页源码正文行中文字符密度的来自动提取中文网页正文信息的方法·,实验证明这种方法具有一定的实用价值。

基于文字密度的网页正文信息提取方法.pdf(429 KB)

顶:136 踩:143
对本文中的事件或人物打分:
当前平均分:-0.54 (587次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.18 (521次打分)
【已经有572人表态】
124票
感动
64票
路过
65票
高兴
63票
难过
62票
搞笑
63票
愤怒
62票
无聊
69票
同情
上一篇 下一篇
自然语言处理与信息检索共享平台北京市网通网友 [张华平] ip: 123.116.*.*
2011-06-28 16:23:41
1.感谢河北科大王伟、高凯老师的论文分享;已将你们提升为高级会员,可以随时发布内容,不需要审核;
2.正文提取是一个很有意思也很有挑战的工作,本文的方法很有意思,之前,我们有过类似的研究,是基于链接密度的,有异曲同工之妙。该方法比纯粹的模板以及过于依赖DOM树的方式要好,要健壮;还有一些工作值得借鉴,比如今年SIGIR北理工发表的一篇文章就是专门解决这个问题的。
3.对专题或者主题类的新闻网页提取已经不是很难的工作了,建议能够在论坛的帖子,博客博文以及微博的正文提取上做进一步的工作,这些更能挑战。因为,这些内容的文字密度极低。
欢迎加入一起探讨。
自然语言处理与信息检索共享平台Unknown网友 [caixun2002] ip: 183.46.*.*
2011-12-03 03:01:02
是的,或许论坛、微博这类正文文字松散的情况,这个算法会有一定的偏差。
但是在舆情系统众,这套方案的作用很大。
自然语言处理与信息检索共享平台IANA网友 [freemouse] ip: 36.5.*.*
2012-03-30 22:36:56
07年看的一片文章和这个差不多想法.http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/
成功率80%以上,不过,在实践中会发现中文的广告文本常常密度也会很高.在此基础上再加一个分析相关度的算法效果会更好.
如果还过滤不掉广告,消息来源,作者等字段,可以做一个类似垃圾邮件处理的算法.再次过滤,获得真正完全有用的信息
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有3位网友发表了看法】