商业搜索引擎新词发现基本原理

热度1969票  浏览1808次 【共7条评论】【我要评论 时间:2011年4月19日 14:43
自然语言处理与信息检索共享平台a}D)pg'c9pt0rq

一般计算语言学方法:
@g^p A@/x$x0前提:一般只能拿到文本集合,而且往往是没有分词的;
iZ&nD\5z+`0技术路线:从文档集合的内容本身,利用自然语言理解的技术,自动挖掘出隐含的新词语新现象。自然语言处理与信息检索共享平台7h8Q+}| m*[7}
不予以详述
,W)m f CJ`0商用搜索引擎方法:自然语言处理与信息检索共享平台'Q;}'K%z#Mjd;ryy
前提:用户查询绝大部分都是采用词或者短语的形式表达的,极少采用整句查询;
zRFO7w g0技术路线:1)查询基本上是天然分词,或者进行简单的规则切割即可得到分词串。2)分析查询,词库中没有的查询都可以视为新词,统计频率,高频的查询一律可以作为新词、热词;自然语言处理与信息检索共享平台$zW i|f:t

自然语言处理与信息检索共享平台hJt|&~6JS

 自然语言处理与信息检索共享平台]!HfSl6?A

4P9g3AJm"j7r&F0 商业搜索引擎-新词发现基本原理.ppt(686 KB)

M&O3Y,aK$kBE0
TAG: 搜索引擎 新词发现
顶:150 踩:131
对本文中的事件或人物打分:
当前平均分:-0.41 (568次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.24 (520次打分)
【已经有600人表态】
120票
感动
60票
路过
52票
高兴
76票
难过
70票
搞笑
63票
愤怒
82票
无聊
77票
同情
上一篇 下一篇
自然语言处理与信息检索共享平台北京市网友 [samllbear] ip: 218.241.*.*
2011-05-09 19:25:35
支持
自然语言处理与信息检索共享平台北京市网友 [samllbear] ip: 218.241.*.*
2011-05-09 19:28:40
不错的资源,支持张老师
自然语言处理与信息检索共享平台北京市网通(海淀区)网友 [liyuntao] ip: 221.216.*.*
2011-05-11 22:45:23
hao
自然语言处理与信息检索共享平台北京市网通(海淀区)网友 [liyuntao] ip: 221.216.*.*
2011-05-11 22:47:00
自然语言处理与信息检索共享平台吉林省长春市吉林大学前卫南区网友 [zxtgg] ip: 202.198.*.*
2011-06-16 21:17:46
更多语义知识的支持是难点。
自然语言处理与信息检索共享平台重庆市网通网友 [crycalblue] ip: 123.147.*.*
2011-10-24 02:45:18
新词的发现是难点
自然语言处理与信息检索共享平台江苏省南京市电信网友 [tianjiexiaoyu] ip: 218.94.*.*
2012-09-29 16:18:20
需要发现新词啊
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有7位网友发表了看法】