中文新闻分类语料库

语料库下载地址: http://download.cnblogs.com/finallyliuyu/corpus.rar


首先说明一下,(1)本语料库是可用的。本语料库 最初公布在我的个人博客里,我本人以及一些网友都下载并使用过这份语料库进行文本分类聚类的实验。更多信息可以参考我的博客主页 http://www.cnblogs.com/finallyliuyu/


2)本语料库由完整的新闻内容组成,由我个人利用业余时间搜集和整理。新闻网页的解析算法主要依据于我本科毕业设计中实现的算法,又适当予以改进(算法相关的内容可参考《新闻网页正文提取》)。


免责声明:此语料库仅供自然语言处理的业余爱好者研究和交流,禁止用于任何商业用途(包括在资源内部链接广告等行为)。


感谢网易新闻中心、腾讯新闻中心、凤凰新闻中心以及新浪新闻中心等新闻门户网站提供新闻素材。新闻著作权归以上网站所有,任何人未经上述公司允许不得抄袭。


说明:


1、此语料库非职务作品,由本人在业余时间搜集整理,免费提供给对NLP狂热的业余爱好者学习研究使用;本人是自然语言处理的业余爱好者,可能在新闻类别定义等方面都可能存在一些欠缺,欢迎大家提出宝贵意见和建议;


2、下载地址提供的是MS SQL2000数据库文件(MSSQL2005也可以使用)。使用此数据库,您需要安装 MS SQL2000 server(或MSSQL2005Server),然后将CNewsCorpusliuyu解压并直接附加到数据库即可。压缩包大小为113M,共包含39247篇新闻,分为历史、军事、文化、读书、教育、IT、娱乐、社会与法制等八个类别。历史类、文化类、读书类新闻来自于凤凰网,IT类的新闻全部来自tech.qq,教育类的新闻来自edu.qq,娱乐类的新闻来自网易。社会与法制类的新闻来自于新浪和腾讯的几个版面;


3、需要特别注意的是,有的新闻在开头处有大量空白,因此在查询数据库ArticleText字段中有大片空白的,不是空新闻,是整个新闻体截断显示的缘故。另外,本语料库中有少量的空新闻,大家可以自行整理一下。


4、如果您使用这份语料库进行实验,或者二次传播此份资料,请您标明作者和出处。也算是对我个人劳动成果的一点尊重,尽管这份劳动成果尚存在很多不足之处。


语料库作者: 刘禹 中国科学院自动化研究所综合信息中心 电子邮件y.liu@ia.ac.cn


 下载地址:http://download.cnblogs.com/finallyliuyu/corpus.rar


信息来源: http://www.cnblogs.com/finallyliuyu/archive/2010/09/11/1824091.html

You May Also Like

About the Author: nlpir

发表评论