NLPIR微博博主语料库100万条

 NLPIR微博博主语料库说明
1.NLPIR微博博主语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的100万条数据(目前已有数据接近1亿,已经剔除了大量的冗余与机器粉丝)
2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士kevinzhang@bit.edu.cn予以删除,对给您造成的困扰表示抱歉,并希望谅解;
3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。
4.字段说明:
id  内部id
sex  性别
address  家庭住址
fansNum  粉丝数目
summary  个人摘要
wbNum  微博数量
gzNum   关注数量
blog  博客地址
edu  教育情况
work  工作情况
renZh  是否认证
brithday 生日;


下载地址:http://www.nlpir.org/wordpress/download/weibo_users_corpus.rar

You May Also Like

About the Author: nlpir

发表评论