CIO时代APP微讲座:北京理工大学张华平谈大数据 语义分析与应用实践

热度110票  浏览295次 【共0条评论】【我要评论 时间:2017年4月20日 11:53

日,北京理工大学大数据搜索与挖掘实验室主任、副教授张华平在CIO时代APP微讲座栏目作了题为《大数据语义分析与应用实践》的主题分享,具体从以下四个方面展开:

Y9F0Bx9m Smr"XFY0

一、语义:比阿尔法狗更难的事

eJg?)O4wWO0

大数据的语义分析对人类语言的理解远远难于AlphaGo,如就同样的文字而言,谁都打不过,事实上是完全相反的。从中可以看出,语义理解的困难所在。比如“WE DO CHICKEN RIGHT”,真正按照文字的字面理解,这里涉及到很多语言歧义。

)G,\ }r.f d\x0

$g%V L Ei:N#@E0

上图中构建了自然语言、思维与客观世界的三角关系,我们可以看到,自然语言是人类理解客观世界的必要通道,几乎也是一个唯一通道。自然语言处理与信息检索共享平台/i_Uo_;i

二、文本大数据挖掘关键技术

i@$y N0p [$P0

自然语言处理与信息检索共享平台[7z/A$pA`

从上图中可以看到,大数据更大意义上是非结构化内容理解。具体而言,结构化的大数据分析是利用传统的数据库,包括SPSS、IBM的DB2等这些工具可以很好地解决。但非结构化的内容理解还远远无法做到。

5g"u$y9W7b!`0

我们实验室的主要研究内容包括:NLPIR大数据语义挖掘、JZSearch精准搜索引擎、知识本体构建与知识管理。自然语言处理与信息检索共享平台*Yn\h6g6k6Q|

实验室历时十五年开发了一个NLPIR的大数据语义分析平台。其核心功能包括以下几个方面:

6R;A$X({)W!w\;E8N0

搜索类:全文精准检索;

k*xz5x*e0

语言类:新词发现,分词标注,统计分析与术语翻译;关键词提取;自然语言处理与信息检索共享平台e-gzN@/D~

文档类:文本聚类及热点分析;分类过滤;自动摘要;文档去重;情感分析。自然语言处理与信息检索共享平台%L$L$INup Z

除此之外,我们还有一个在线演示的平台,以下对平台演示的几个关键功能进行介绍。

NtV.OU;U'LQ{0

自然语言处理与信息检索共享平台^|0tm NV&s5g$C8N

上图展示了一个技术,背后都是基于在线演示平台的做的,称之为新词发现的技术,可以看到对一批语料自动计算数据中出现的新的词汇,如认沽权证、金融衍生产品等等。其中有几个参数:词语、词性(一般是名词)、权重(通过信息熵来计算该词对一批语料的重要性)、词频,这里的词频排第一的并不是最高的,因此不适用所谓的高频分析。另外,通过这种方法可以大量识别网络中出现的新的语言及专业词汇,这种方法分别在电力、医院做过实验,可以非常精准地识别各种专业的说法,如药物名称、医学典籍等等。这项技术其实有非常广的用途。自然语言处理与信息检索共享平台Ln&op.ZIT8G

自然语言处理与信息检索共享平台3QW-^$s#b~3g

这里展示的技术是汉语分词技术,汉语分词是语义理解中最基础性的工作,到目前为止,这项工作已有十七年的历史,这里可以看到的例子,如识别一个人的名字和单位,还可以看到分词系统自动识别人的名字,包括英文原型等。这项工作已经在全球四十万机构使用,如人们用的华为手机,其中涉及到的语义分析便是使用这项技术,比如短信自动分析时间地点,以及餐饮酒店等。

&ii'f1~}2o4U8l0

自然语言处理与信息检索共享平台m-r;] X P#{0X1M

这里展示的是信息过滤技术,可以看到,这项科技可以在文章中发现色情及偏色情的内容。自然语言处理与信息检索共享平台aZaTFg#C Tc(g

自然语言处理与信息检索共享平台!T)A(ZwW \T$VoV6T Ro

这里展示的是文本分类有基于机器学习分类的一项技术。可以看到,我们可将类别编成目录文件夹,里面可以放一百个甚至更多的序列类本,图中展示的是机器自动学习类别特征的过程,自然语言处理与信息检索共享平台 B5Vx^m

自然语言处理与信息检索共享平台m$]x;zx0S

这里展示的是经过机器学习后大数据的方法,用深度学习的方法对常规文本进行自动分类,其中交通类的分类还是比较准确的。

l];nO4LFM0

自然语言处理与信息检索共享平台)F`ebz#Q

这里是敏感内容自动实时智能扫描的技术,其中变形的识别都是音变,并没有直接提关键词,只利用发音扫描到敏感的内容,这里是语音的智能识别理解技术。其实只要配一个词便可识别各种干扰因素,这样有利于精确打击犯罪,如自动发现赌博,寻找需要的信息,挖掘敏感信息,用户可以通过这种方法得到想要的内容。这项技术的一个特点是智能、速度快,配100万关键词可以做到每秒扫描20兆的文本。自然语言处理与信息检索共享平台{,@y|-T:Bv

NLPIR大数据语义分析技术的在线演示几乎支持所有的开发语言,也支持各种各样的平台。自然语言处理与信息检索共享平台S*y+S+Kv%jd1Q)`$dC6q6b

    三、大数据精准语义搜索关键技术

KIN*F^\0

自然语言处理与信息检索共享平台 C t pK8\`

该搜索引擎可以采用自然语言的聊天方式,根据语义的知识图谱将某个人的信息展现出来,如上图所示,最左边会将某个人相关的十年来所有信息做聚合运算。

h"L*F"j%y&_4DB0

自然语言处理与信息检索共享平台(qf{p]z i

这是一个时光机技术,我们可以实时计算出每一年的活动、主题,刚才的聚合及每一年的主题,很多词汇都是词典中的内容。值得注意的是,大数据挖掘技术可自动发现某个人的数据关联性。具体原因可以在数据中得到答案。自然语言处理与信息检索共享平台4X(Ro c NYNcD

四、大数据语义应用实践自然语言处理与信息检索共享平台;m2n;x8t%mFIV

主要介绍以下四个案例:

/i jtw_*P0

1.某大厦电力数据挖掘自然语言处理与信息检索共享平台'te~TD

得到的数据情况为:238个房间每一天的用电数据,总共是三百多天,期间工作日是256天,计算其单日用电量。基于这个数据传统的数据聚合、数据基本分类、数据统计曲线等简单工作便略去了。

-u\'| N/_0

这里涉及到的一项工作便是计算空置率,空置率的计算对经济预测,尤其是微观经济的洞察和宏观经济的研判具有很强的现实意义。可以看到,这里空置房间的标准是经过大量数据计算出来的。其实在二三线城市不错的写字楼,其空置率也达到了32%。除此之外,还可以精确预测每个房间的总体用电情况,由此来推导房间中办公的人数。自然语言处理与信息检索共享平台 fT:~3s&\h0s4u.cUt

    2.95598客服挖掘自然语言处理与信息检索共享平台Ey'?0T Ox5J%S P

自然语言处理与信息检索共享平台3o Zr9]1v'm0]

上图为一年来电网95598投诉分析,其中可以看到全国的分布、南北方的对比及时段的对比,进而挖掘有价值的信息。自然语言处理与信息检索共享平台q)V.`.L%Tz3@+vo!q

3.国家电网头条自然语言处理与信息检索共享平台7M0N1l I"?

&`&Q'q;hvV;i2o }0

为国家电网打造了一个全媒体个性化智能推荐平台,其中包括全媒体(多位一体、富媒体,如图像、文字、音频、视频、直播等等)、云应用(构建了一个开源平台,所有用户、编辑、审核、管理员及技术间的衔接均采用SaaS服务)、值得一说的是,个性化有所尝试和探索(因时因地因人而变),具体而言,指的是不同的人在不同的地方看到的内容是不同的,这里应用了个性化建模、个性化推荐与群体推荐的方法。

o4Ji.m@0NF0

4.公安某局的案件自然语言处理与信息检索共享平台(q4}#?1U1S I V

自然语言处理与信息检索共享平台"k!y8wWW%l!t'sa6\;o

这里展示的一年来盗窃案的总体刻画,其中包括很大的数据。具体以串并案的处理为例,如盗窃三轮车的案件,根据案件描述自动从过去的几百万案件中推荐出前十个案件。其中进行了脱敏处理,但这种处理并不影响数据挖掘。这项工作对于安全的公安部门很有价值。

htp a8wp0

介绍的一项工作便是诈骗案的语义聚合,诈骗案很多,众所熟知的便是电信诈骗、网络诈骗等,但随着打击的增加已呈现下降的态势。真正有危害的是还不为公众所认知的诈骗案件,值得注意的是利用目的进行诈骗的手法。这种技术适合于对海量数据进行聚合,辅助我们进行综合的研判。自然语言处理与信息检索共享平台c Cj@.l3f8O

自然语言处理与信息检索共享平台[W w{5Wh\

对同一类案件的人物、地点做聚合,构建一个如上图所示的犯罪地图。犯罪地图分为两种,一种是指犯罪发生地点的地图,一种是犯罪嫌疑人籍贯地图,帮助我们发现重大线索。

;K&u!q\"P(e0
顶:8 踩:7
对本文中的事件或人物打分:
当前平均分:-0.23 (31次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.94 (33次打分)
【已经有31人表态】
8票
感动
4票
路过
3票
高兴
3票
难过
4票
搞笑
6票
愤怒
2票
无聊
1票
同情
上一篇 下一篇
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有0位网友发表了看法】