聚类英文文本数据集

热度2033票  浏览976次 【共1条评论】【我要评论 时间:2011年9月06日 15:09
自然语言处理与信息检索共享平台e+C1PFL/U0]TYI*W1D

包含四个数据集,分别从english20newsgroup、reuters 中提取,分别为500条记录,各含五类,每类文档数目不同!从两个母数据库中提取,存储为sqlserver2008格式,可以直接附加,表结构如下!全部进行了标注,可以用来分类或者聚类!自然语言处理与信息检索共享平台'C;F%S#M2]]

3a%Lkcf/W'WS:YK0CREATE TABLE [dbo].[reutersdataset5lau](
Y4c*v M"P#IVZ3s1s0 [ID] [int] NULL,自然语言处理与信息检索共享平台$L({)h`2h}I5k!?v
 [Title] [nvarchar](50) NULL,
F,g8d+w6h0 [ActualClass] [nvarchar](20) NULL,
rYpXr-E\0 [TextContent] [nvarchar](max) NULL,自然语言处理与信息检索共享平台 T7HE4c5DP J%@!mc
 [ShowClass] [nvarchar](20) NULL,
n1p;S+_Q2W/Usj0 [Note] [nvarchar](50) NULL,
@s9d(REl0 [HtmlCode] [nvarchar](4000) NULL,
5f GIT0f0 [SegResult] [nvarchar](max) NULL,自然语言处理与信息检索共享平台 d)\2vyy0q`'yn
 [SegResultMark] [nvarchar](max) NULL,自然语言处理与信息检索共享平台9]3GR}0zt&jU
 [Author] [nvarchar](50) NULL,
[y&{:{&g0N.q0 [CreateTime] [nvarchar](20) NULL,
3FiQ R;gD3}$E"f0 [TrainSetID] [int] NULL,自然语言处理与信息检索共享平台"N7f d1[eO
 [SubClass] [nvarchar](50) NULL,
y$m$a;` N0 [SegResultSentence] [nvarchar](max) NULL自然语言处理与信息检索共享平台(Q9Qvg]3M7[
) ON [PRIMARY]自然语言处理与信息检索共享平台,bQ7@C2L E

'kgSb I)F[K0语料库下载地址:http://www.nlpir.org/download/English-Cluster-Corpus.rar

@7d`\2@M v0
TAG: 聚类 数据集 文本 英文
顶:131 踩:158
对本文中的事件或人物打分:
当前平均分:-0.32 (604次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.39 (592次打分)
【已经有548人表态】
97票
感动
58票
路过
59票
高兴
66票
难过
65票
搞笑
55票
愤怒
78票
无聊
70票
同情
上一篇 下一篇
自然语言处理与信息检索共享平台IANA网友 [张华平] ip: 115.170.*.*
2011-09-10 20:37:07
您现在已经是高级会员了,可以直接发布内容,无需审核。
另外,您的语料库还没有上载,如果超过2MB,可以联系我pipy_zhang@msn.com,我给你FTP上载账号。谢谢!
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有1位网友发表了看法】