计算所汉语词性标记集

热度2131票  浏览2572次 【共0条评论】【我要评论 时间:2011年6月28日 14:52

计算所汉语词性标记集(共计99个,22个一类,66个二类,11个三类)主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。本标记集主要参考了以下词性标记集:自然语言处理与信息检索共享平台9ElUv%}

0. 北大《人民日报》语料库词性标记集;自然语言处理与信息检索共享平台;@Bv)}(uBT

1. 北大2002新版词性标记集(草稿);

'v2p%xIF:[SI K0

2. 清华大学汉语树库词性标记集;

-_\%pGZ6rN0

3. 教育部语用所词性标记集(国家推荐标准草案2002版);自然语言处理与信息检索共享平台!mE9gOgN

4. 美国宾州大学中文树库(ChinesePennTreeBank)词性标记集;自然语言处理与信息检索共享平台u\ X o P

由于计算所的汉语词法分析器主要采用北大《人民日报》语料库进行参数训练,因此本自然语言处理与信息检索共享平台 d[ UA!a;z C

词性标记集主要以北大《人民日报》语料库的词性标记集为蓝本,并参考了北大《汉语语法信息词典》中给出的汉语词的语法信息。

7? vT#qpHZ\0

本标记集在制定过程中主要考虑了以下几方面的因素:

CEY2gf%E1E`2_0

1. 有助于提高汉语词法分析器的切分和标注正确率;

}d.L/{,Z/V0

2. 有助于提高汉语句法分析器的正确率;自然语言处理与信息检索共享平台)f_,}/`4Pqzk NL

3. 有助于汉英机器翻译系统进行翻译;自然语言处理与信息检索共享平台 K$|4VZ[kY!L,j

4. 易于从北大《人民日报》语料库词性标记集进行转换;自然语言处理与信息检索共享平台KxE8T_!D@

5. 对于语法功能不同的词,在不造成词法分析和句法分析歧义区分困难的情况下,尽可能细分子类。

Ux6s4iI@f0

基于以上考虑,我们在标注过程中尽量避免那些容易出错的词性标记,而采用那些不容易出错、而对提高汉语词法句法分析正确率有明显作用的标记。例如,在动词的子类中,我们参考了宾州大学中文树库的做法,把汉语动词“是”和“有”分别做成单独的标记,而没有采用“系动词”的标记。因为同样是“是”这个动词,其句法功能很多,作“系动词”只是其中一种功能,而要区分这些功能是非常困难的,会导致词法分析的正确率下降。自然语言处理与信息检索共享平台vt4@"@0m x1EWjboSQ

在名词子类中,我们区分了“汉语人名”、“日语人名”和“翻译人名”,这不仅仅是因为这三种人名要采用不同的参数进行训练与识别,而且在汉英机器翻译中也要采用不同的分析算法进行翻译。又如,我们把表示时间的“数词+‘年’”(如“1995年”)合并成一个时间词,而表示年头的“数词+‘年’”分别标注为“数词”和“量词”,这是因为我们通过实验发现这种区分在词法分析阶段通过统计方法可以达到较高的正确率,而且这种区分对于后续的句法分析和机器翻译有非常重要的作用。

^3zf.e e9AF0

对于某些词类(助词和标点符号),基本上是一个封闭集,而这些词类中各个词的语法功能相差很大,在这种情况下,我们尽可能地细分其子类。自然语言处理与信息检索共享平台#nlT dSe

另外,与其他词性标记集类似,在我们的标记体系中,小类只是大类中一些有必要区分的一些特例,但小类的划分不满足完备性。自然语言处理与信息检索共享平台({ Mm8W,n-e9gi

ICTPOS3.0.doc(61 KB)

L+~;tr"CB0gB&d0
TAG: 汉语 研究所 词性 标准
顶:141 踩:137
对本文中的事件或人物打分:
当前平均分:-0.42 (646次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.32 (577次打分)
【已经有630人表态】
129票
感动
67票
路过
71票
高兴
72票
难过
71票
搞笑
83票
愤怒
60票
无聊
77票
同情
上一篇 下一篇
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有0位网友发表了看法】