商业搜索引擎新词发现基本原理

热度2008票  浏览1844次 【共7条评论】【我要评论 时间:2011年4月19日 14:43
自然语言处理与信息检索共享平台E.e1z;`&?Ck

一般计算语言学方法:自然语言处理与信息检索共享平台2bK:gk ki,JdyI
前提:一般只能拿到文本集合,而且往往是没有分词的;自然语言处理与信息检索共享平台3v4k] S;j"N4Py-mc
技术路线:从文档集合的内容本身,利用自然语言理解的技术,自动挖掘出隐含的新词语新现象。自然语言处理与信息检索共享平台8f1_\\JS U[@
不予以详述自然语言处理与信息检索共享平台M+O ? {,~"d e b"P,\
商用搜索引擎方法:自然语言处理与信息检索共享平台9zMU7mG mQ{|
前提:用户查询绝大部分都是采用词或者短语的形式表达的,极少采用整句查询;
WK{/RG(LS-wR x0技术路线:1)查询基本上是天然分词,或者进行简单的规则切割即可得到分词串。2)分析查询,词库中没有的查询都可以视为新词,统计频率,高频的查询一律可以作为新词、热词;自然语言处理与信息检索共享平台0}+ZC ^1H9QL

V%?f ^%}G8^Z:G0 

J3OuvaW0rd)aL0

~ ej#Y5f;rL0 商业搜索引擎-新词发现基本原理.ppt(686 KB)自然语言处理与信息检索共享平台8F z(O-o ws4W/d

TAG: 搜索引擎 新词发现
顶:154 踩:132
对本文中的事件或人物打分:
当前平均分:-0.41 (579次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.19 (534次打分)
【已经有609人表态】
121票
感动
60票
路过
52票
高兴
77票
难过
73票
搞笑
64票
愤怒
83票
无聊
79票
同情
上一篇 下一篇
自然语言处理与信息检索共享平台北京市网友 [samllbear] ip: 218.241.*.*
2011-05-09 19:25:35
支持
自然语言处理与信息检索共享平台北京市网友 [samllbear] ip: 218.241.*.*
2011-05-09 19:28:40
不错的资源,支持张老师
自然语言处理与信息检索共享平台北京市网通(海淀区)网友 [liyuntao] ip: 221.216.*.*
2011-05-11 22:45:23
hao
自然语言处理与信息检索共享平台北京市网通(海淀区)网友 [liyuntao] ip: 221.216.*.*
2011-05-11 22:47:00
自然语言处理与信息检索共享平台吉林省长春市吉林大学前卫南区网友 [zxtgg] ip: 202.198.*.*
2011-06-16 21:17:46
更多语义知识的支持是难点。
自然语言处理与信息检索共享平台重庆市网通网友 [crycalblue] ip: 123.147.*.*
2011-10-24 02:45:18
新词的发现是难点
自然语言处理与信息检索共享平台江苏省南京市电信网友 [tianjiexiaoyu] ip: 218.94.*.*
2012-09-29 16:18:20
需要发现新词啊
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有7位网友发表了看法】