大规模现代汉语标注语料库的加工规范[1] 俞士汶 朱学锋 … 继续阅读 →
最近看了中文分词的测试语料库,发现人名往往切分为“姓”和“名字”;如” … 继续阅读 →
计算所汉语词性标记集(共计99个,22个一类,66个二类,11个三类)主要用于中 … 继续阅读 →
LJCl … 继续阅读 →
一般计算语言学方法:前提:一般只能拿到文本集合,而且往往是没有分词的;技术路线: … 继续阅读 →
GBK字符集合: GBK编码表.TXT(93.2 KB) GBK字符集合(去除繁 … 继续阅读 →
汉字编码问题 一、GB2312-80介绍 二、GB2312-80的扩展 三、Un … 继续阅读 →