【计世网】“四问大数据”北理工计算机学院副教授张华平接受采访 – NLPIR自然语言处理与信息检索共享平台

自然语言处理与信息检索共享平台 自然语言处理与信息检索共享平台

【计世网】“四问大数据”北理工计算机学院副教授张华平接受采访


2013年10月04日 10:04

原文链接:http://www.ccw.com.cn/article/view/34925

大数据是不是大忽悠?上马大数据需要准备啥?大数据平台怎样选择?大数据安全如何保证?

大数据火了起来,甚至在前不久召开的2013夏季达沃斯论坛上还专门举办了一场关于“大数据概念是否被过度炒作”的辩论会,其火热程度可见一斑。

根据计世资讯2013年3月发布的中国大数据市场调查报告显示,相较2011年,2012年中国大数据市场规模增长52.4%,达到3.2亿元。预计到2017年,中国大数据市场的年增长率都将超过60%,到2017年,达到37.9亿元的市场规模,在经济、整体IT市场低迷的情况下,实现大幅逆势增长。

在日前由《计算机世界》报主办的“大数据时代的商业智能高峰论坛”上,来自IT厂商的代表、业内专家、资深分析师及用户代表就大数据热门话题展开了激烈的讨论。

焦点一:大数据是不是大忽悠?

IT技术的每一次更新迭代都面临同样的问题,前两年的云计算、如今的大数据无不如此。实际上我们回过头来看,所有的技术和产业的发展都有泡沫化的过程,包括互联网、金融危机、云计算、大数据,都会有一个泡沫化的过程,而泡沫破灭的过程也正是这项技术落地的过程。

大数据热起因是其可以产生更多的价值,而在当前这个时间点热,一方面是越来越多的人意识到了其中的价值,另一方面则与技术的发展成熟密不可分。戴尔云计算及大数据高级解决方案架构师郝继玖和EMC资深技术顾问杨永波在这个问题上所持的观点基本相同,他们认为并不是之前没有大数据,而是没有能力处理。当下这个时间点一方面是数据规模确实越来越大,而另一方面计算能力也达到了一定的水平,当这两者都具备的时候,才催生了大数据时代的到来。

作为用户代表,IDG集团中国区副总裁、计世传媒集团董事许伟明表示认同,他认为主要是当前IT系统的计算能力和成本都已经降低到了可以负担的水平,由此推动了大数据的快速发展。

作为大数据领域的专家,北京理工大学计算机学院院长助理、大数据搜索与挖掘实验室主任张华平副教授表达了他的看法。他表示,虽然当前大数据还停留在泡沫阶段,不过大数据的泡沫不会比云计算大,因为云计算更多涉及的是架构问题,业内分歧比较多,而大数据关注的只是业务,更加专注,因此也会更快地实现落地。

焦点二:上马大数据要做哪些准备?

根据计世资讯发布的大数据市场调研报告显示,未来半数以上的企业会采用大数据解决方案。用户如果真的要部署大数据解决方案,要做哪些准备?

了解需求、获得老板的认可,是首先要考虑的。许伟明认为,从公司角度来看,最大的问题是如何获得老板的支持;而从业务层面出发,则需要考虑实际的需求。比如你所处的企业如果数据量很大,则需要在IT架构上做准备,考虑包括数据是怎么收集的、从哪里收集、如何与其他数据进行匹配等问题。而在操作过程中,则可以首先尝试一些开源的工具进行小范围测试,做一些基本了解,然后再找相关的专家仔细进行评估。

这仅仅是最基础的部分,在此之上,企业还要将项目与整体业务紧密地联系在一起。因为如果只是单独考虑某一部分的业务,失败的概率非常大。杨永波表示,从IT架构层面来讲,很多数据的获取并不容易,打通所有层级、部门的数据是比较难的,但是只有把信息打通了,才拥有了真正的大数据。

郝继玖则进一步做了补充:“大数据相应的IT架构搭建完成后,还需要考虑服务的标准化,因为随着数据量、设备及人员的增加,如何分工、保证高质量的运维效果是需要迫切考虑的问题,这个过程就需要建立统一的服务标准和流程。”

除了技术层面的问题外,还有一个很大的问题就是隐私问题。张华平讲到,现在有很多大数据隐私被滥用的问题,无论从国家还是公司层面来讲,要想把大数据做好,都面临数据公开的问题,需要各个部门数据的融合。因此,利用大数据的时候,要考虑隐私的问题。另外,还需要考虑数据本身的生命周期问题,有一些老的或者过时的数据,可能对你最后的分析结果产生特别糟糕的影响。因此,专业的人才不可或缺,应该有一些数据分析师,或者跟业务相关的数据科学家对数据进行分析。

焦点三:用开源平台还是商业软件?

 一提到大数据很多人会想到Hadoop。作为开源平台的忠实支持者,张华平认为做开源和共享平台,从最终的情况来看,获取的价值更大。因为开源软件参与的用户多,反馈多,更容易改进和完善。

不过,杨永波并不这么看,他认为Hadoop不等于大数据,针对非结构化数据的分析,Hadoop是比较好的平台,也是现在被广泛接受的平台。但也正因为其是开源平台,也存在一些弊端,比如服务质量无法保证。另外,Hadoop有很多版本,要真正实现商用,需要用户具备足够高的技术水平。因此,用户在选择时并不能一味追求开源,需要综合考虑自己的情况。

对此,许伟明表示认同杨永波的观点,他认为无论是开源还是商业软件,最重要的还是服务质量、服务速度,不能一味考虑成本问题。

郝继玖表示:“大数据发展速度越来越快,给IT市场带来的空间也越来越大。因此,在开源平台方面,我们一直在积极参与,推动行业的发展。戴尔并不提供大数据运行平台,提供的只是其中的计算能力。”

焦点四:大数据时代,安全如何保证?

大数据并没有人排斥,但在记者采访过程中,经常有用户问这样的问题:如何保证我的信息安全,如果无法保证安全,大数据还上不上?对此,张华平一语中的,“我们不会因为高铁出事不坐高铁,不会因为飞机出事不坐飞机,大数据是科技发展的趋势,但要把握好方向,这需要法律的完善。”

张华平的观点得到了与会嘉宾的赞同。郝继玖认为,数据是把双刃剑。消费者网购时需要提供家庭地址,才能给你运过来,这是经过同意获取你的信息,因为有良好的法律环境进行统一管理,所以买家不用那么担心;而生活中很多时候是滥用信息的收集,是在用户不知情的情况下搜集你的信息,这就需要相应立法进行保护。大数据也是类似的,只让适合的人利用我的数据。另外,关于大数据的报道,未来也要有严格的法律保护体系,保证我的数据不被泄露出去。

许伟明还在此基础上提到了平衡,他讲到,一个信息点传播出去,对某个人而言,可能是隐私受到了侵犯,但从另一个角度来看,你把互联网当成是一个系统,你不断地训练这个系统,让其更好地为你服务,其实也不是坏事。“我们做媒体的,研究的大数据就包括精准的广告投放。比如在你阅读的时候,获得了你想要的广告信息,对用户而言也不是坏事。再比如你在研究旅行的时候,给你一些旅行社的信息,或者给你一些比较便宜的飞机票等,相信客户还是愿意看的。实际上你可以有意识地泄露一些你的信息,这样系统会分析你的数据,真正地帮助你,所以我觉得没必要恐惧。而恶意的信息收集、未经用户允许收集的信息,都是违法的。这其中就需要平衡,不能因为有可能被泄露隐私就不用大数据。”

(审核:王征) 

You May Also Like

About the Author: nlpir

发表评论