NLPIR_UGWS: 维吾尔语分词语料库

项目介绍

NLPIR_UGWS(Natural Language Processing & Information Retrieval Sharing Platform Uyghur Word Segmentation Corpus )是由NLPIR实验室构建的维吾尔语分词语料。原始语料为从CWMT往届语料中选取的共5000条句子。语料库构建的步骤为:语料搜集、聚类、随机抽取、自动分词、人工分词、反复校对。

标准规范

“/”代表切分

数据格式

原文本

分词后的文本

下载

需要购买更大规模语料联系邮箱liwang@nlpir.org或电话13681251543

开源协议

  1. NLPIR_UGWS面向国内外大学、研究所、企业以及个人研究者免费开放源。
  2. 如有机构或个人拟将NLPIR_UGWS用于商业目的,请发邮件至邮箱洽谈技术许可协议。
  3. 欢迎对该语料的任何宝贵意见和建议,请发邮件至邮箱。
  4. 如果您在NLPIR_UGWS基础上发表论文或取得科研成果,请您在发表论文和申报成果时声明“使用了NLPIR_UGWS”,并引用相关论文。

相关论文

作者

张华平,严若豪

You May Also Like

About the Author: nlpir

发表评论