NLPIR微博关注关系语料库100万条

   NLPIR微博关注关系语料库说明
1.NLPIR微博关注关系语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(127.0.0.1/wordpress)予以公开共享其中的1000万条数据(目前已有数据接近10亿,已经剔除了大量的冗余数据);
2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士kevinzhang@bit.edu.cn予以删除,对给您造成的困扰表示抱歉,并希望谅解;
3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(http://www.nlpir.org/)。
4.字段说明:
person_id  人物的id
guanzhu_id 所关注人的id


下载地址:http://www.nlpir.org/wordpress/download/weibo_relation_corpus.rar


 

You May Also Like

About the Author: nlpir

发表评论