嘉宾精彩回顾——张华平 北京理工大学大数据搜索与挖掘实验室主任

热度1125票  浏览969次 【共0条评论】【我要评论 时间:2014年12月01日 15:18

北京理工大学大数据搜索与挖掘实验室主任、中国互联网协会大数据工作委员会执行主任张华平教授结合其在数据挖掘方面的多个成功案例,从知著、见微、晓意等层面深入介绍了大数据搜索与挖掘方面的技术,并就大数据在智慧旅游发展中的应用分享了他的独到见解。自然语言处理与信息检索共享平台?J9s$@b$r rV/S#F*Jy

自然语言处理与信息检索共享平台{?X!Siz@

T,JR-_'I!RU"C0

沈阳精彩发言:非常荣幸有这个机会能跟做旅游的同行做一些交流。沈阳教授是大微,我是中微,用他的语言来说我们俩老死不相往来,实际上我们股东的特别多,我刚才发了一条微信,我说在沈阳教授后面做演讲挑战太大,因为他的口才太好。做理工科的人在文科后面发言是要吃点亏的,不过咱们得有自己的打法。分享一下我们在大数据搜索挖掘机其在智慧旅游中的应用思考。我本人纯粹做计算机的,对旅游了解不多,所以,只能谈思考,还谈不上我们的实践。

Loa gI Z*e d'T0

自然语言处理与信息检索共享平台N.JQ8AbA[U&|3W+l

j7p3xD3_tE'm0H0

讲大数据的时候,到底什么是大数据?我听完之后,所有感觉就是数据大,数据大和大数据其实不是一回事儿,到底什么是大数据?我们看看我们做过的一些案例,棱镜,我相信很多人对斯诺登又爱又恨,讲到一个项目,叫手机监控,大家通过手机发E-Mail等等,他们收集了几乎每一个人各种各样的行为,很恐怖,典型的数据大,没问题。如果说美国中央情报局说你什么时候打了什么电话,告诉我这个信息,我觉得没什么惊奇的,因为你的数据已经记录了。去年12月份,中央电视台做了一期节目,谈棱镜计划手机监控问题,当时我谈了一下,手机监控怎么回事儿?其实非常简单,拿着手机的时候,有不同的基站为我们提供服务,如果在平面上,我们知道有三个基站距离的话,其实很容易定位这个手机什么时间出现在什么地点,时间、地点、人三者的信息是能拿到的。如果这个数据量很大,没问题。但是,拿到这个信息能干什么?这里面的问题就有讲究了,从原始数据里可以做一些文章,比如我想知道你个人的活动规律,什么时间出差?包括旅游频度,当飞机一到香港的时候,中国移动马上就来了,欢迎来到香港,背后的数据会记,这个家伙VIP值挺高的,估计经济状况比较高,你成为VIP的概率会很高,会重点针对你进行营销。我们知道,地点信息带有很强的个人属性,其中有一个属性跟职业相关,比如说我们的手机信号就在咱们附近,十有八九跟二外相关的人员,不是学生,就是老师,要么是访问人员,加上其它数据的分析,很容易分析到底是干什么的。性别的识别也没有问题,男性和女性活跃地方有很大差别,女性经常购物,男士不愿意购物。还有更恐怖的地方,来自于对于个人社交关系的挖掘,具体怎么理解呢?如果白天跟你拼盘叠加的,极大可能的是你的同事,国家安全有一套系统,叫同心者计算机系统,这套系统利用了这个关系,包括今天的反恐和维稳,上黑名单的恐怖名字并不可怕,一定是在7×24小时被监控当中,最怕的是什么呢?突然有一个人,你从来没见过,无论在公安,还是在国安没有不良记录,突然有一天带着四桶汽油直接冲向金水桥,这是最恐怖的,同心者计算机系统用了这个原理,比如这是嫌疑人,在一段时间内跟他们进行频繁互动的话,他会像支柱慢爬一样,我可以推理出这个人尽管以前没有劣迹,也是潜在的恐怖威胁。真正的大数据,不是仅仅说我收集大量数据,然后告诉你一些潜在数据,通过信息叠加,挖掘出原来信息里边所没有明显包含的内容。

([ aX.]p nE0

自然语言处理与信息检索共享平台!dKj^*L Ck
自然语言处理与信息检索共享平台^?\'f%vp,QE7s

刚才说的太高大上,我相信大家对这个图片不陌生,杨达才表格,一直在微笑的过程当中,哪怕最终被判14年的时候还在微笑当中,微笑的接受14年的审判,比较悲剧的是最终审判过程中一块表没戴。每一张照片都是很普通的,来自于普通的、正常的新闻报导,单独看的话,每一张照片都没有特别大的信息价值,但是,当网友把11张片有机的整合到一块的时候,这时候发生一个喜剧性变化,以一点格式和聚焦点串在一起的时候,这个时候产生了1+1远远大于2的效果,这才是真正的大数据,在数据叠加过程中,最终产生新的知识。关于这件事,我们对数据的认识分这么几个层面:数据的第一个层面,我们就叫做数据,原始数据,比如我要给得到发一张照片,这时候大家不知道格式,保存下来,只要在你的硬盘空间里,这就是数据,如果我告诉你它的解压密码和格式,你可以看这张图片,这时候上升到第二个层次,叫信息。但是,传统的信息处理都在信息层,当11个信息叠加的时候,产生了一个新的东西,我们可以把这个东西理解为知识。大数据真正的内涵是1+1信息最终产生了远远大于2的效果,中间的增值部分就是知识。如果再上升一个层面,可能就是智慧。

G @[1Bw&Yf0


b k kIHX,[0自然语言处理与信息检索共享平台AXq[(K%G;c

回到今天的主题,科学的大数据观,介绍一下搜索和挖掘技术,最后,介绍一下对智慧旅游有一些思考。自然语言处理与信息检索共享平台4H;\Y3@W8pD'N

自然语言处理与信息检索共享平台 XI a8wa9i s}:]
自然语言处理与信息检索共享平台$Fi W6V X@ G

我们看一下什么是大数据,广为认可的分析方法或者定义方法实际上是有问题的,问题在于它定义的是一个必要而不充分的条件,我们要的是充分而必要条件,我们试着给它重新定义,正好今年出版了一本书,叫《大数据搜索和挖掘》,在这本书里提到了我对大数据的理解,什么是大数据呢?大数据是指从客观存在的全量超大规模、多源异构、实时变化的微观数据终,比如旅游大数据,我们讲旅游大数据,是离不开微观的数据、微观的个人、微观的观点、微观的内容以及微观的链接关系。在这个过程当中,实际上来源是多样的,利用自然源处理、信息检索和机器学习等技术手段抽取知识,我特别强调知识,最终转化为决策的智慧,比如我们的旅游到底应该怎么做?包括今天这个会议上要发布的旅游指数,我觉得就是非常好的提炼。并不是数据非得大到几个或者更高才是大数据,哪怕就几百兆数据,利用技术经过加工提炼,最终能够辅助大家做决策,其实就是非常好的大数据的思维。是一场新的科技革命,也是思想方法的革命。自然语言处理与信息检索共享平台 s3zgt0h.g qe a


f1sJc7R1ii0

$i3u@ K,fb0

大数据时代的特征,很多人都可以跟大家讲四V,我只讲三个V,价值环节不好说。理解成中国式的语言是什么呢?第一,多,体量很大;第二,快,速度快;第三,大数据要好,大数据的特征是多快好省,具体来讲,在大量数据里,在快速流动的数据里,我们用最高效的手段最终获取到有价值的知识,这我是对大数据的理解。自然语言处理与信息检索共享平台_*qj3O4Ig"O Z

自然语言处理与信息检索共享平台l#v8q-^ cm,o6f
自然语言处理与信息检索共享平台 }[5l0E)q,{ vB7Y

美国2012年3月15号把大数据作为国家战略,作为一个国家战略,今天做旅游大数据研究院的战略高度对旅游来说是非常好的事情。自然语言处理与信息检索共享平台q7]9p/c*bGIA


b-c]Y5K'B0自然语言处理与信息检索共享平台7{St/r*A[

大数据搜索和挖掘,我们知道,大数据很庞杂,刚才说了有多快好省的特点,而且很难分析,我们到底应该用什么方法来解决呢?我这里边提到我们的方法,这个图是用来模拟的,诠释了我对大数据的观念,刚一看是大字,仔细看的时候,这个大字是由很多小字组成的,我们对大数据的认识、对旅游大数据的认识其实都是这么一个特点,首先,大数据是由无数的微观数据组成,但是,如果我们所有的研究都聚焦在某一个微观的事件当中的时候,最终会迷失方向,不知道在做什么,包括我们做舆论分析的时候,比如战争的问题,如果聚焦在每一个人怎么说的时候,如果聚焦不对,其实某一个人怎么看、怎么想已经不重要了,到底有多少比例支持战争,到底多少比例反对战争,这是最重要的,其次才是做典型分析。比如做旅游印象指数分析时候,我们只需要知道十一期间北京某个景点的人数大概是多少,至于是张三还是李四已经不重要了,我们强调知著,我们用最快速度,要总体上把握旅游人群,包括所有受众主要的观点、主要趋势是什么。接着才是微观分析,微观的个例分析,微观分析在宏观基础之上做的。最后一点,晓意,解释起来很简单,真正要知道人在家想什么,我们要知道我们的受众到底是什么观点、什么态度。知著、见微强调的比较多,“晓意”没有那么简单,我们看看我们找到的案例,这是真实存在的匾额,每一届杭州市长对这个及其不满,但是它一直存在。英文也有这个问题,出口转内销的小段子,口语里,2012年谁是中国主席?WHO,外语学院很容易理解,后边的对话更搞笑,技术问WHO IS HU?回答还是HU IS WHO,问题还没完,新领导人上台了,又造成问题了,外语里很重要的是翻译问题,肯德基有这样一句话,WE DO CHICKEN RIGHT,有各种各样的翻译,我们做鸡对了,我们就是做鸡的,我们行使了鸡的权利,右边的鸡才是最好的,我们只做鸡的右边,我们公正的做鸡,我们的材料是正宗的鸡肉,右边的鸡才是最好的,后面还有中国式翻译,我们一定要把鸡打成右派,我们只做右撇子鸡。这就是“晓意”所面临的问题,当然,今天在大数据时代,像这种问题的翻译已经非常简单了,为什么?谷歌翻译方法是用统计方法、众筹方法,只要有人曾经翻译对过,我们就会拿过来做比对,这时候我们就知道正确答案是什么,我们是做鸡专家。自然语言处理与信息检索共享平台ki^4}!z7B}


Tk h,mi9l0自然语言处理与信息检索共享平台;u6vbB|qWq"}/g

大数据更大意义上是非结构化内容理解,今天的大数据,如果我们还把精力放在结构化数据的时候,在定位上就有问题,为什么呢?结构化数据,像IBM、思科公司,实际上已经准备了大量工具,已经非常成熟了。我们最重要的是做非结构化内容理解。

}Q/{ A3Fs}/U0

自然语言处理与信息检索共享平台$G(]f%q JKo&p

Q3x8A.R2i0

我们自己做了大数据精准搜索,这是我们给证监会做的,我们能把骂尚福林的话全部找出来,骂他的话和这个人的名字在12个词以内,通过这种方法,能够快速找到我们要的东西,比如谁在骂旅游景点?到底骂旅游景点什么东西?大数据的规模很大,会导致一个问题,价值的密度特别低,原来,可能一句话里面就有很重要的信息内涵;现在,可能要傻里淘金,大数据搜索的方法对我们信息进一步的获取及其关键。比如我们搜索土豆,能把马铃薯找出来,而且自动告诉你跟土豆相关的有哪些内容,包括对维吾尔语的搜索,接下来我们要上一款新的技术,能够覆盖东盟十国所有语言,包括越南语、泰语等等。我们实验室专门开发了大数据搜索挖掘平台,几乎每次演讲都会推荐这个,针对学术界、针对大量全部永久的免费共享用这种方法,所谓高大上的技术,大家用拿来主义,拿来就用,嵌入到你们的应用当中,其中有一项功能是你给我一篇文章,我们会分析到底在讲什么、关键问题是什么。比如十八大报告,我们发现中国特色社会主义、改革开放、科学发展观是这篇文章最重要的主题,人工不干预,用大数据技术解决。包括做聚类,可以把所有旅游数据拿过来,把讨论同一个问题的聚焦在一块,全自动完成,我们做的案例特别多,我们只挑一两个:第一个案例,有一家公司用我们的技术做一个什么工作呢?把所有用户上网行为记下来,什么时间上网看过什么东西,用我们的技术重新看一遍,完了之后做标签,说这是什么样的人,我们用大数据技术重新构建一个大数据人。上海这个人用PC机上网,一般习惯10点、12点和下午5点上网及根据他看的内容,我们发现他是科技迷,而且特别喜欢高尔夫,而且喜欢研究星座,这种人比较喜欢旅游,推荐景点时,这个人是优选对象,对于这个人,别卖旅游产品了,卖奔驰车,上面这个人有点感冒,可以问候一下。我们把所有技术整合成一个大平台,大数据搜索挖掘平台,基于Web的,在这个过程中,我们会收集网上的,无论来自新闻的,还是微信、微博的数据,我们内置了差不多1.5亿微博人的数据,包括他的关系网,我们对信息做各种各样细分,比如分析房地产,我们会自动分析,把所有信息映射到世界地图,对旅游也是一样的,大家来自世界哪个地方,旅游目的地也可以映射到世界地图里,颜色越深表示信息量越多,中国地图也可以做映射。我们还可以做大数据主题的对比,比如新华社和人民日报,我们的对比发现在中间部分是他们共同报导的,比如他们都报导胡锦涛和温家宝,新华社大量报导回良玉,人民日报基本不报导,人民网是我们的合作伙伴,我们跟人民日报主编讲的时候,他不太相信,后来一查,果真是这样,后来他给了我一个解释,回良玉属于国务院领导,不属于党的领导,新华社属于国家,人民日报属于我们党,这种解释也是对的。用同样技术,我们可以做旅游景点的对比,旅游景点的共同点、不同点是什么。

'a!H#s%T'J7@ L*o_(B0

大数据时代的智慧旅游思考。讲我自己旅游的一个感受,今年暑假期间,我带着我的家人去旅游,今年旅游的感受尤其不一样,感觉非常好,原来出去旅游,要么找朋友安排车,感觉还可以,但是其实挺难受的,没有那么自由。今年的旅游方式换掉了,用Solomo,用社会化方法,用本地化方法,用移动的计算,带一个手机,我们说回江西老家看看,去几个地方旅游,只有这么个模糊认识,全部通过移动互联解决,通过社会化手段,我们看看各大旅游网站包括点评网,订完之后,通过App下单,当火车一到的时候,我们的车就在外面等着我们,我们直接开车去旅游景点,玩完之后,我们马上找一个地的地方,通过别的网站做比价,最后有些非常不一样的旅游体验。请大家看看我不一样的旅游体验,首先,在座的年纪大的可能有体会,90年代时候,这种饭店敢吃吗,没有人吃,强制拉着你吃特别难吃的饭,巨贵无比,发现社交网络,发现这个地方口碑特别好,老板非常好,北京来的,他会骑摩托车把我接过去,进去之后,对话也很有意思,我说不用给我看菜谱了,要猪蹄和野生鱼,我说猪蹄炖烂一点,东西太咸,他说你怎么知道,我说别人都说过了,他说我不多收钱,我的服务绝对好,但是在社交网络上尤其大众点评上给我点赞,给我点五星,我还送你饮料,感觉完全不一样,原来,在偏僻的小山村,宰就宰了,在大数据时代,只要你做过一些不合适的事情,会一直存在。包括酒店问题,我现在住酒店,首先,价格很便宜,五星级的基本三百到四百之间,尤其是暑假,基本两百多元,同样五星级酒店,差别很大,关于有没有特别微笑的事情,我事先就知道,我们住的酒店绝大部分永远是对你微笑的,这是我的一个旅游体验。自然语言处理与信息检索共享平台%f&\s}IX9}_*D


$L!{5W*~.r)|&ebp-{0自然语言处理与信息检索共享平台*G)yF9J4k i8{-k

我们今天智慧旅游的研究也要符合这种趋势,在小数据时代,我们用调查的方法,所以我们拿到的数据是主观的,而且是断点的,大数据时代,监测记录,客观的,过程的,非结构化的,连续的,来自于无数上亿万人的旅游体验对我们帮助很大,我们做了一些思考,比如新媒体调研平台,我们的调研还需要填调查问卷吗?已经OUT了,新媒体的调研平台,利用微信帐号、微博帐号等等,在这个过程当中可以搜集大量样本,跟大家说一个体验,我们成立了中国互联网协会大数据工作委员会,我能告诉大家的是,我们所有的会员的招募、参谋人员的招募,一个半小时之内招聘了一千人,都是非常高端的,我们的调研方式也发生变化了,包括动态监测系统,我们帮助一些机构做这方面的构建,比如采集大量数据,包括采集经济数据,一个地方旅游的经济到底景气不景气,比如最近在58里招导游的频率怎么样,比如招导游数明显下降,还有飞机预订、住宿预订在下降,我们可以倒推一个月之后旅游的人数,我们可以做非常精准的预测。

4t'MZ i"]o{X0


k X\ i _V0y0

*j9Inr ]/EF0

我们设计过的图,根据某一个景点信息变化能够看出景点所谓口碑的变化情况,包括我们对所有景点进行口碑排名,我们做指数研究,因为我们是纯粹不懂旅游,我们干脆放开,把所有指数放开,这个时候,大家自己写公式,写完公式之后,我们可以编辑,编辑完之后,可以根据酒店、机票预订情况以及旅游招聘情况自己做一个旅游指数的变化,可以跟搞旅游研究的人员合作,包括端午节人员流动情况。我们把股票的概念引进来,疼痛看出量变、质量的过程。自然语言处理与信息检索共享平台1Rdz"UL6@?9W

自然语言处理与信息检索共享平台@N&N!V Rm
自然语言处理与信息检索共享平台%J4BtxB

时间关系,就讲到这儿。

hM}4a'T%nC0

自然语言处理与信息检索共享平台1L)B'sOFt \
自然语言处理与信息检索共享平台 \ T S+Z4A0P

谢谢大家!自然语言处理与信息检索共享平台&K*~%YrW4?6x L5lC(s mot


1u4k2SK`0

F6{ [;`uObc0


5u[!y|W JS0`"eMx0自然语言处理与信息检索共享平台+a2\Y-E{d

顶:69 踩:88
对本文中的事件或人物打分:
当前平均分:-0.34 (340次打分)
对本篇资讯内容的质量打分:
当前平均分:-0.26 (319次打分)
【已经有309人表态】
58票
感动
29票
路过
37票
高兴
28票
难过
33票
搞笑
38票
愤怒
46票
无聊
40票
同情
上一篇 下一篇
发表评论
换一张

网友评论仅供网友表达个人看法,并不表明本网同意其观点或证实其描述。

查看全部回复【已有0位网友发表了看法】