张华平:大数据语义分析与实践

热度298票  浏览780次 【共0条评论】【我要评论 时间:2016年7月22日 14:29

2016年7月17日,以“大数据与人工智能”为主题的“第五届中国大数据应用论坛”在北京大学英杰交流中心成功举办。本次论坛由北京大学信息化与信息管理研究中心和中国新一代IT产业推进联盟主办。来自业界的相关专家学者、CIO、媒体朋友等近200人参与了此次的大数据盛会。全国高校大数据教育联盟理事、北京理工大学大数据搜索与挖掘实验室主任、中国互联网协会大数据工作委员会执行主任张华平发表了重要演讲。

6y F%A9R6T8D0

9]blfk6{ w [0

张华平主任表示,现在大数据很火,中国有一个很不好的现象,技术概念的炒作比时尚界的炒作还要厉害。所以我接触到形形色色的大数据,做数据库的说大数据就是最好的数据库,做芯片的就说大数据就是做一个好的芯片,当然也有说大数据主要是做报表、可视化为主,各种各样的。做学问的和做企业的,原来很多做系统集成的也全都变成做大数据了。为什么?原来那个估值20倍到头了,现在换个壳可以到50倍、100倍。自然语言处理与信息检索共享平台Ro,C'U&n:n?N

接下来会火的两个概念,一个是机器人,还有一个是人工智能。以前除了大数据就是人工智能,现在我们知道机器人很火,只是自动化换了一个壳而已,机器人现在还没有到完全的说多人工智能。看一下这个例子就知道的,就这句“WE DO CHICKEN RIGHT”,如何理解这句话。我们认识客观世界其实是通过语言,客观世界是在你脑子里,但是脑子里的东西必须具体形式化,可以通过口头表达也可以通过图片表达。其实大数据的时代、大数据的方法给我们提供了一种可能,也就是说有可能一个人会犯错误,但是所有人犯错误的概率不高。自然语言处理与信息检索共享平台%A~/AsX2f&NN b)j:r

百度是不是搜索引擎的本质?其实不是。他要解决的是一万人搜索请求,至于说你是石油客户还是医药客户,我不管你,关注的是我有一个通用的需求。因此结果就是所有的搜索是千篇一律的,也不可能做的很深入。这里给大家看看我们做的,这是给国家电网提供的搜索引擎。比如说刘振亚是谁啊,就类似于和机器人聊天,这个时候就可以把语义的结果告诉你刘振亚的简历。你还可以继续问,他的老家在哪,这个也可以识别出来。

2Z,VS2tT+o0

我们会把刘振亚十年以来的活动总结为十个词:高压、教育实践活动、智能电网等等。这里面会有很多专业词汇,是通过我们的技术直接给出来。还有最底下是一个时光机,我们会跟着他的维度走,大家可以看到2008年他在忙什么呢?奥运社会责任、应急指挥中心。随着时间变化主题也会发生变化。自然语言处理与信息检索共享平台8v-I0r)Y0{,|T'L%x-i

接下来讲四个我们实际做的东西。我们研究一个问题,用电和当地的气温的变化图,同步上升比较明显。我们会对所有房间做一个聚合分析,最后就发现,蓝色的大部分都是用电在5度以内的,我们可以把它认为是小微企业。还有其他的一些变化,1000瓦时的。目前统计局自己不能回答的问题,就是空置率的问题。我晚上在小区数一下灯有多少灭的有多少亮的,我们做了一个分析,最后提炼出一个基本的参数出来,每天用电低于1度,而且天数是分散的。还有一个是低于一度的天数占总工作日的1/3。所以最终的结果,这个空置率是31.9%。而且目前的数据表明,空置率还在下降。所以从微观上可以看到中国经济的实际状况是什么。我们对某一个房间进行分析,通过这个房间的数据来看这家公司的情况怎么样。这个办公室只有台电脑,根据这个数据可以猜出来用工情况,这个工作做完之后,有很多业务场景,比如在金融领域,他跟我借一百万,我发现他的用工量慢慢越来越少,到最后快没了,那你赶快去催债吧。

7g6h0?a9b$t:J0

第二个工作是做了95598,客服电话。我们用了几十万个客户投诉信息,分类了一个类型。还有根据年份和月份的变化,可以看到每天投诉高峰期为10点和16点。我们没有必要一天都在那值守,高峰期时全力投入就可以。大家知道投诉最多的地方是哪么?河南。当把人口因素考虑进来投诉最多的是上海也就是说我一万人里头投诉的人比你们要多多了,是比第二名高出三倍。自然语言处理与信息检索共享平台/l7_*O e\Q*t!H

第三个工作给国内电网做了“电网头条”。其实现在中国的国有企业、传统媒体,他们受到的转型压力非常大,做出来的报纸没人看,所以我们就做了“电网头条”。我们是一个全媒体个性化智能推荐平台,全媒体、多维一体、富媒体等各种平台都可以用,任何一个消息只要发布,微博微信全媒体都能看,所以它的信息覆盖非常多。第二是云应用,用户、编辑、审核、管理原等,都可以在云上解决。第三是个性化,因时因地因人而变,不同时间不同地点不同人看到的东西不一样。我们平台的编辑不需要自己花心思做很多素材,大量素材来自于微信公众号、投稿等等,我们可以推荐给主管编辑审核这个就可以发布了,所以效率非常高,我们根据人类上网情况可以分析出每个用户的个性。2016年全球能源互联网大会发布我们这套系统,后台采编方式基本全自动的来完成。自然语言处理与信息检索共享平台;C}kz7k"]odv { ]

第四个工作是我们跟公安局合作,公安局给了我们一百万个案子,我们给他做了几个工作,首先是分类,比如捉黄赌毒、诈骗、少数民族做了分类;第二是诈骗进行刻画,以后大家遇到这里面的关键词,十有八九都是诈骗的。我们还玩了一个比较好玩的东西,串并案。很少有犯罪嫌疑人只做一个案子,尤其是一些刑满释放人员再犯罪的概率要比其他的高很多。而且玩的东西也很接近,比如说我是专门偷三轮车的,突然偷汽车对我难度有点大。包括诈骗也是有分工的,诈骗的那波人地域色彩特别强,比如说有电信诈骗村。这是内部的一些结果,可以看到他们作案都有哪些特点。一说诈骗大家想到很多的就是电信诈骗、网络诈骗。其实还有很多新形式的诈骗手法,数量不太多,但是也挺火的。比如说第四类诈骗说法,一百万美元通过分析出来,其实不算太多。一两百,用了什么手法?卖公墓。所以这其实是为我们的案件侦破提供了很好的语义技术。自然语言处理与信息检索共享平台)U xL0CNpS

 自然语言处理与信息检索共享平台5V2S;fr6yTsu2@

顶:23 踩:22
对本文中的事件或人物打分:
当前平均分:0.53 (92次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.66 (83次打分)
【已经有78人表态】
14票
感动
6票
路过
10票
高兴
10票
难过
10票
搞笑
11票
愤怒
6票
无聊
11票
同情
上一篇 下一篇
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有0位网友发表了看法】