聚类英文文本数据集

热度2030票  浏览951次 【共1条评论】【我要评论 时间:2011年9月06日 15:09
自然语言处理与信息检索共享平台wj!S3mN7Uz6|}4H6e

包含四个数据集,分别从english20newsgroup、reuters 中提取,分别为500条记录,各含五类,每类文档数目不同!从两个母数据库中提取,存储为sqlserver2008格式,可以直接附加,表结构如下!全部进行了标注,可以用来分类或者聚类!自然语言处理与信息检索共享平台i { meafeH

自然语言处理与信息检索共享平台N%a"ps0|

CREATE TABLE [dbo].[reutersdataset5lau](
:VrX e w.oOA0 [ID] [int] NULL,
'k/i2v'a/W-w6v5va9u0 [Title] [nvarchar](50) NULL,
Uk4sQ7B9K7rZ L4G.^W0 [ActualClass] [nvarchar](20) NULL,
` qRH/sl4V0 [TextContent] [nvarchar](max) NULL,自然语言处理与信息检索共享平台r"_2~g};g|@!d
 [ShowClass] [nvarchar](20) NULL,
1~"X8}({.C_0 [Note] [nvarchar](50) NULL,自然语言处理与信息检索共享平台rf)Rs a(c2d7RR
 [HtmlCode] [nvarchar](4000) NULL,
k}3dq lY&F"}X+g+o0 [SegResult] [nvarchar](max) NULL,自然语言处理与信息检索共享平台n*K!s6o?
 [SegResultMark] [nvarchar](max) NULL,
w8q JDD A.Q,jV0 [Author] [nvarchar](50) NULL,
6]6@*Q(D.L~0 [CreateTime] [nvarchar](20) NULL,自然语言处理与信息检索共享平台b EpH2VV(_
 [TrainSetID] [int] NULL,
U0y'zd:f5iT0 [SubClass] [nvarchar](50) NULL,自然语言处理与信息检索共享平台-S(f!T#Ec%j&g)C
 [SegResultSentence] [nvarchar](max) NULL自然语言处理与信息检索共享平台})`2Q yq
) ON [PRIMARY]自然语言处理与信息检索共享平台'E-@$Dh,y

自然语言处理与信息检索共享平台Hd}U&E?JG/`"xd

语料库下载地址:http://www.nlpir.org/download/English-Cluster-Corpus.rar

P/T#x+}J ^T0
TAG: 聚类 数据集 文本 英文
顶:130 踩:158
对本文中的事件或人物打分:
当前平均分:-0.32 (603次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.39 (591次打分)
【已经有548人表态】
98票
感动
57票
路过
59票
高兴
66票
难过
66票
搞笑
55票
愤怒
78票
无聊
69票
同情
上一篇 下一篇
自然语言处理与信息检索共享平台IANA网友 [张华平] ip: 115.170.*.*
2011-09-10 20:37:07
您现在已经是高级会员了,可以直接发布内容,无需审核。
另外,您的语料库还没有上载,如果超过2MB,可以联系我pipy_zhang@msn.com,我给你FTP上载账号。谢谢!
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有1位网友发表了看法】