商业搜索引擎新词发现基本原理

一般计算语言学方法:
前提:一般只能拿到文本集合,而且往往是没有分词的;
技术路线:从文档集合的内容本身,利用自然语言理解的技术,自动挖掘出隐含的新词语新现象。
不予以详述
商用搜索引擎方法:
前提:用户查询绝大部分都是采用词或者短语的形式表达的,极少采用整句查询;
技术路线:1)查询基本上是天然分词,或者进行简单的规则切割即可得到分词串。2)分析查询,词库中没有的查询都可以视为新词,统计频率,高频的查询一律可以作为新词、热词;


 


商业搜索引擎-新词发现基本原理.ppt(686 KB)

You May Also Like

About the Author: nlpir

发表评论