中文新闻分类语料库

热度2383票  浏览7531次 【共1条评论】【我要评论 时间:2011年5月11日 13:49

e4|J8TN}o0语料库下载地址: http://download.cnblogs.com/finallyliuyu/corpus.rar

O)Cf PH7}6R(J|c-i0

?4U.^)R_9p}[0首先说明一下,(1)本语料库是可用的。本语料库 最初公布在我的个人博客里,我本人以及一些网友都下载并使用过这份语料库进行文本分类聚类的实验。更多信息可以参考我的博客主页 http://www.cnblogs.com/finallyliuyu/

`idBX/}jpgh0

.Jpz _DV9X02)本语料库由完整的新闻内容组成,由我个人利用业余时间搜集和整理。新闻网页的解析算法主要依据于我本科毕业设计中实现的算法,又适当予以改进(算法相关的内容可参考《新闻网页正文提取》)。

Z s)r$U.]5R1^0 自然语言处理与信息检索共享平台A[;hC T\;jc

免责声明:此语料库仅供自然语言处理的业余爱好者研究和交流,禁止用于任何商业用途(包括在资源内部链接广告等行为)。

Iz%j hi0 自然语言处理与信息检索共享平台b L8iB ^n,hLcP

感谢网易新闻中心、腾讯新闻中心、凤凰新闻中心以及新浪新闻中心等新闻门户网站提供新闻素材。新闻著作权归以上网站所有,任何人未经上述公司允许不得抄袭。自然语言处理与信息检索共享平台"T"w4R-O:}k%tEg

自然语言处理与信息检索共享平台(m:U9Yw:^

说明:

IM,gY-w,f0 自然语言处理与信息检索共享平台8]s3Js*w

1、此语料库非职务作品,由本人在业余时间搜集整理,免费提供给对NLP狂热的业余爱好者学习研究使用;本人是自然语言处理的业余爱好者,可能在新闻类别定义等方面都可能存在一些欠缺,欢迎大家提出宝贵意见和建议;自然语言处理与信息检索共享平台 jM!a0pXW S

W s%Iv5]:X#`02、下载地址提供的是MS SQL2000数据库文件(MSSQL2005也可以使用)。使用此数据库,您需要安装 MS SQL2000 server(或MSSQL2005Server),然后将CNewsCorpusliuyu解压并直接附加到数据库即可。压缩包大小为113M,共包含39247篇新闻,分为历史、军事、文化、读书、教育、IT、娱乐、社会与法制等八个类别。历史类、文化类、读书类新闻来自于凤凰网,IT类的新闻全部来自tech.qq,教育类的新闻来自edu.qq,娱乐类的新闻来自网易。社会与法制类的新闻来自于新浪和腾讯的几个版面;

ptl4v"dC-B0

A J.@)Y2L Uh5F03、需要特别注意的是,有的新闻在开头处有大量空白,因此在查询数据库ArticleText字段中有大片空白的,不是空新闻,是整个新闻体截断显示的缘故。另外,本语料库中有少量的空新闻,大家可以自行整理一下。自然语言处理与信息检索共享平台7p9`^b V/^WdA

O nC)r4b$XPk04、如果您使用这份语料库进行实验,或者二次传播此份资料,请您标明作者和出处。也算是对我个人劳动成果的一点尊重,尽管这份劳动成果尚存在很多不足之处。自然语言处理与信息检索共享平台G3G3r.K Vo(~W!w

"Ou9RJ(T a0语料库作者: 刘禹 中国科学院自动化研究所综合信息中心 电子邮件y.liu@ia.ac.cn

V6j o,\#Iav^ v*{0

 下载地址:http://download.cnblogs.com/finallyliuyu/corpus.rar

%rR;aUN5i0

u"k NV&H @i0信息来源: http://www.cnblogs.com/finallyliuyu/archive/2010/09/11/1824091.html自然语言处理与信息检索共享平台0vUI5RN;Ms9`*r Y

TAG: 新闻 语料库 中文
顶:181 踩:156
对本文中的事件或人物打分:
当前平均分:-0.54 (669次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.21 (668次打分)
【已经有709人表态】
150票
感动
76票
路过
67票
高兴
78票
难过
85票
搞笑
80票
愤怒
100票
无聊
73票
同情
上一篇 下一篇
自然语言处理与信息检索共享平台北京市网通网友 [张华平] ip: 123.116.*.*
2011-05-13 11:04:18
感谢刘禹的分享,已经将你的会员级别提升为高级会员,可以直接发帖不用审核。
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有1位网友发表了看法】