聚类英文文本数据集

热度2011票  浏览905次 【共1条评论】【我要评论 时间:2011年9月06日 15:09
自然语言处理与信息检索共享平台&Zo*hP"{8|DWG

包含四个数据集,分别从english20newsgroup、reuters 中提取,分别为500条记录,各含五类,每类文档数目不同!从两个母数据库中提取,存储为sqlserver2008格式,可以直接附加,表结构如下!全部进行了标注,可以用来分类或者聚类!自然语言处理与信息检索共享平台V1k{|0|G+W*{

b.~tdo8L7r0L6Z0S0CREATE TABLE [dbo].[reutersdataset5lau](
!|/Za%?qR]w0 [ID] [int] NULL,
\yt0s\;\8xt0 [Title] [nvarchar](50) NULL,自然语言处理与信息检索共享平台 k3B$JE#c
 [ActualClass] [nvarchar](20) NULL,
~yA8P'}0 [TextContent] [nvarchar](max) NULL,自然语言处理与信息检索共享平台 kS WU&g
 [ShowClass] [nvarchar](20) NULL,自然语言处理与信息检索共享平台3i y:n5C@}'N"l5WP*M
 [Note] [nvarchar](50) NULL,
:H5QX}5tIoj&]0 [HtmlCode] [nvarchar](4000) NULL,
WBp*k ~[0 [SegResult] [nvarchar](max) NULL,自然语言处理与信息检索共享平台`*G[/nT)fu e.Sx PP
 [SegResultMark] [nvarchar](max) NULL,
z9e,??WZ-c0 [Author] [nvarchar](50) NULL,
.jQ5E`9G Tc3D0 [CreateTime] [nvarchar](20) NULL,自然语言处理与信息检索共享平台LKP&|2OvB\c
 [TrainSetID] [int] NULL,
$zs4[1K$rf h}0 [SubClass] [nvarchar](50) NULL,自然语言处理与信息检索共享平台;[.q%?DzJ8H4IW,P
 [SegResultSentence] [nvarchar](max) NULL自然语言处理与信息检索共享平台j*zG0K!sg:c{
) ON [PRIMARY]

F QC JcO5i:H0 自然语言处理与信息检索共享平台*o)f4o"f[bx

语料库下载地址:http://www.nlpir.org/download/English-Cluster-Corpus.rar自然语言处理与信息检索共享平台q2{1YI3B'Ggj4m!l

TAG: 聚类 数据集 文本 英文
顶:130 踩:154
对本文中的事件或人物打分:
当前平均分:-0.33 (598次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.38 (587次打分)
【已经有542人表态】
96票
感动
57票
路过
59票
高兴
66票
难过
65票
搞笑
55票
愤怒
76票
无聊
68票
同情
上一篇 下一篇
自然语言处理与信息检索共享平台IANA网友 [张华平] ip: 115.170.*.*
2011-09-10 20:37:07
您现在已经是高级会员了,可以直接发布内容,无需审核。
另外,您的语料库还没有上载,如果超过2MB,可以联系我pipy_zhang@msn.com,我给你FTP上载账号。谢谢!
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有1位网友发表了看法】