大规模现代汉语标注语料库的加工规范

热度1877票  浏览1017次 【共0条评论】【我要评论 时间:2011年6月28日 14:50

大规模现代汉语标注语料库的加工规范[1]自然语言处理与信息检索共享平台Fh/q ^+KdRfV

 自然语言处理与信息检索共享平台P$\5`s'X8\$Sg

俞士汶 朱学锋 段慧明

kA3E.R%Y U:~,M[0

 

'EU)s9v.^DRw*PN0Q0

摘要:北京大学计算语言学研究所在开发了《现代汉语语法信息词典》等语言资源的基础上,又在实施另一项大型语言工程,即对大规模的现代汉语原始语料进行多级加工,目前的加工项目包括词语切分、词性标注(包括动词和形容词的特殊用法),并标出专有名词以及短语型的地名、机构名称等等。自然语言处理与信息检索共享平台Jh twA

   规划中的语料库规模约为2700万字。现在已经完成了1400万字的任务,而且质量很高。

z-FvSVf%Z,s0

   要建成高质量的标注语料库,必须制订出完备的加工规范。本文介绍制订加工规范的原则和执行加工规范的经验。自然语言处理与信息检索共享平台HB{l2{ H5^sZD2`Yy

关键词现代汉语标注语料库 词语切分 词性标注 现代汉语语法信息词典 加工规范

I5_5B4R3L!H*Z \w8\'U0

 自然语言处理与信息检索共享平台p6j5|WU0u o7OY w1OF

The Guideline for Segmentation and Part-Of-Speech Tagging自然语言处理与信息检索共享平台S7~ AU;Ur1L7z6s

on Very Large Scale Corpus of Contemporary Chinese

`2i+G,X B0

 

#](M6`},Z i0j0

Yu Shiwen  Zhu Xuefeng  Duan Huiming

Bv*g l)],~2LN0

 自然语言处理与信息检索共享平台 e]H;D4e:G(W

Abstract:The Institute of Computational Linguistics of Peking University is developing a very large-scale contemporary Chinese corpus segmented and with many tags based on the owned resources, e.g. the Grammatical Knowledge-base of Contemporary Chinese. There are about 40 tags in the tag set. It contains common Part-Of-Speech tags, special usage tags of verbs and adjectives, proper noun, place name of phrase type, organization name of phrase type and so on.自然语言处理与信息检索共享平台4f%D8h&y1u&F?

The scale of the corpus is about 27 millions Chinese characters. The Institute of Computational Linguistics of PKU has completed the task of 14 millions characters and the processing quality is very high.自然语言处理与信息检索共享平台rX\7b1wk4t5Y Bz5q\

It is necessary to work out a complete guideline of corpus processing to obtain high quality tagged corpus. This paper introduces the principles of making out the guideline and the experiences of carrying out the guideline.    自然语言处理与信息检索共享平台W,Ujye/i2XT

Keywords:Contemporary Chinese Tagged Corpus, Segmentation, Part-Of-Speech Tagging,自然语言处理与信息检索共享平台%`I8is5k j\

      The Grammatical Knowledge-base of Contemporary Chinese, processing guidline自然语言处理与信息检索共享平台+rV|k%@8XfS

自然语言处理与信息检索共享平台 T x%V8Jx(?

大规模现代汉语标注语料库的加工规范.doc(50.5 KB)自然语言处理与信息检索共享平台wph4k7qo+u.s

TAG: 词语切分 词性标注 加工规范
顶:120 踩:130
对本文中的事件或人物打分:
当前平均分:-0.38 (564次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.26 (510次打分)
【已经有553人表态】
96票
感动
70票
路过
63票
高兴
57票
难过
58票
搞笑
66票
愤怒
69票
无聊
74票
同情
上一篇 下一篇
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有0位网友发表了看法】