聚类英文文本数据集

热度2057票  浏览1016次 【共1条评论】【我要评论 时间:2011年9月06日 15:09
自然语言处理与信息检索共享平台4Pa(D"V dd'H4U'i

包含四个数据集,分别从english20newsgroup、reuters 中提取,分别为500条记录,各含五类,每类文档数目不同!从两个母数据库中提取,存储为sqlserver2008格式,可以直接附加,表结构如下!全部进行了标注,可以用来分类或者聚类!

4H,_h&sE+] R0

QT }N \ ?Z6[%X0CREATE TABLE [dbo].[reutersdataset5lau](自然语言处理与信息检索共享平台.pm-k!d!K{zS'`"U
 [ID] [int] NULL,
#q6Av E6h tt0 [Title] [nvarchar](50) NULL,
$H }:xD;F5B@ g:R0 [ActualClass] [nvarchar](20) NULL,自然语言处理与信息检索共享平台8_q'J#g#SN\uF
 [TextContent] [nvarchar](max) NULL,
H:N Q\.b/g'@0 [ShowClass] [nvarchar](20) NULL,
PI"RR:J tcDZ7g5R0 [Note] [nvarchar](50) NULL,自然语言处理与信息检索共享平台#r"G4no"UV3r
 [HtmlCode] [nvarchar](4000) NULL,自然语言处理与信息检索共享平台N]x3e(A
 [SegResult] [nvarchar](max) NULL,
WeK8v @l\O0 [SegResultMark] [nvarchar](max) NULL,自然语言处理与信息检索共享平台 [C+c0fD9xH
 [Author] [nvarchar](50) NULL,自然语言处理与信息检索共享平台(hj0@h|x:S
 [CreateTime] [nvarchar](20) NULL,
w\ h!O w[&Y0 [TrainSetID] [int] NULL,
4_Jgj/Pl0 [SubClass] [nvarchar](50) NULL,
1hY/V y1}6`QL0 [SegResultSentence] [nvarchar](max) NULL自然语言处理与信息检索共享平台 X ]~~NF#}!a
) ON [PRIMARY]自然语言处理与信息检索共享平台2[2~,G2m#a-|8Uj S S2siG \

自然语言处理与信息检索共享平台X ZY Wgf*C

语料库下载地址:http://www.nlpir.org/download/English-Cluster-Corpus.rar自然语言处理与信息检索共享平台D3x/k.rp)PX

TAG: 聚类 数据集 文本 英文
顶:133 踩:160
对本文中的事件或人物打分:
当前平均分:-0.34 (611次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.41 (599次打分)
【已经有554人表态】
98票
感动
59票
路过
59票
高兴
67票
难过
67票
搞笑
55票
愤怒
79票
无聊
70票
同情
上一篇 下一篇
自然语言处理与信息检索共享平台IANA网友 [张华平] ip: 115.170.*.*
2011-09-10 20:37:07
您现在已经是高级会员了,可以直接发布内容,无需审核。
另外,您的语料库还没有上载,如果超过2MB,可以联系我pipy_zhang@msn.com,我给你FTP上载账号。谢谢!
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有1位网友发表了看法】