基于角色标注的中国人名自动识别研究

张华平,刘群. 基于角色标注的中国人名自动识别研究. 计算机学报, vol.27, No.1, 2004, pp.85-91

摘要: 中国人名自动识别是中文未登录词识别的重点和难点，目前的解决方案自身存在一些本质的缺陷，实际效果还难以满足需求。本文提出了一种基于角色标注的中国人名自动识别方法，其基本思想是：根据在人名识别中的作用，采取Viterbi算法对切词结果进行角色标注，在角色序列的基础上，进行模式最大匹配，最终实现中国人名的识别。识别过程中我们只需要某个词作为特定角色的概率以及角色之间的转移概率。该方法的实用性还在于：这些角色信息完全可以从真实语料库中自动抽取得到。通过对16M字节真实语料库的封闭与开放测试，该方法取得了接近98%的召回率。计算所汉语词法分析系统ICTCLAS集成人名识别算法之后，词法分析的准确率提高了1.41%，同时人名识别的综合指标F-1值达到了95.40%。不同实验从各个角度表明：基于角色标注的人名识别算法行之有效。