中文分词测试标准?

热度2317票  浏览2939次 【共2条评论】【我要评论 时间:2011年6月22日 10:24
最近看了中文分词的测试语料库,发现人名往往切分为“姓”和“名字”;如"黄昌元"被分为了黄/昌元;
但是在ICTCLAS中黄昌元是作为一个整体的。
问题:前者的标准需要修改?还是认为后者切分错误?
自然语言处理与信息检索共享平台Rvt:^1} F6o@*z o

&Q/c.kZ i8A Y,X ~k0
顶:157 踩:164
对本文中的事件或人物打分:
当前平均分:-0.49 (671次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.31 (618次打分)
【已经有707人表态】
129票
感动
70票
路过
62票
高兴
72票
难过
93票
搞笑
86票
愤怒
105票
无聊
90票
同情
上一篇 下一篇
自然语言处理与信息检索共享平台北京市网通网友 [张华平] ip: 123.116.*.*
2011-06-28 15:19:28
1.分词规范可以访问:http://www.nlpir.org/?action-viewnews-itemid-166
2,.你说的这个情况是属于北大分词规范在中国人名的规范不太合适,和台湾、香港以及新加坡等地的规范不一致,最重要的是实际应用过程中,人为区分姓和名在后续处理的时候,还需要专门去做合并,很不方便,这个是在很多用户的强烈要求下,我们归并到一起的,要是把它分开,我们也是可以做的。
3.采用这种修正的分词规范,我们对北大原有标准的语料库进行了升级。因此,不影响训练。
自然语言处理与信息检索共享平台IANA网友 [giantuser] ip: 113.108.*.*
2012-02-14 18:00:22
没有绝对的对和错吧,按不同需要来划分姓和名才是理想的吧
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有2位网友发表了看法】