计算机世界记者 邹大斌
大数据是当前最时髦的技术词汇,是各个IT大佬关注的重点,也是投资界关注的焦点。“大数据”这股发端于互联网企业的数据分析热潮很快超出了互联网领域,越来越多的敢于为先的传统企业已经开始部署大数据相关技术。从中嗅出商机的厂商则因势利导推出众多相关产品,而媒体、分析机构纷纷摇旗呐喊。IDC最新发布的全球大数据市场预测称,包含结构化和非结构化的大数据正在以每年60% 的增长率持续增长,相应地,大数据市场也将从2010年的32亿美元增长至2015年的169亿美元,年复合增长率达到40%。
中国是数据生产的大国,也是可能从大数据中受益最多的国家之一。还是IDC提供的数据,截止到2012年6月,中国有近3.9亿的移动客户、5.3亿的互联网客户。在一个中等规模的智能城市中,每个季度就可能产生出200PB的视频数据(如果以一个笔记本电脑存储200GB,那就是100万台笔记本电脑所能够存储的数据)。不过,其中究竟蕴藏着多少宝藏,还有待人们利用大数据相关技术来挖掘。这也正是大数据的魅力所在。
大数据的魅力
引发大数据热的是它能为我们开启一个新的可能是从未认知过的世界,简单地说,就是让我们认识所不认识的、了解到我们从未了解的,从而让我们从此前模糊的决策,变成有理有据的科学决策。多少年来,由于技术手段的限制,我们对世界的认识都是采用抽样方法,然而大数据却为我们提供了一种新的方法,让我们可以进行全样本研究。
现实中,越来越多的用户正在从大数据技术中受益。比如,北京百分点信息科技有限公司(以下称百分点)推出了一种名为个性化搜索引擎的工具,库巴等电子商务公司利用它来分析访客的点击行为,找出访客的偏好、进行产品推荐。还有,可口可乐正在通过大数据技术分析其销售数据,来分析世界各地对各种口味的饮料的偏好,从而对各种饮料进行生产资料规划,以及新产品研发。更为人们熟知的可能是奥巴马在新一任美国总统大选中利用大数据技术随时了解选民的倾向,从而开展针对性的工作帮助他胜选。
未来,还有更多的大数据案例会不断涌现。与此同时,“大数据是大忽悠、大谎言”的说法也不绝于耳,甚至也引来科学界的质疑,在互联网广为流传的大数据的诅咒(The curse of big data)引起了业界关于“大数据好还是小数据好”的讨论。
这些疑问显然挡不住厂商们的热情。传统的IT大佬们纷纷在大数据领域投入巨资:大数据已经成为IBM今年最主要的市场战略。IBM推出拥有4大核心能力的大数据平台,即Hadoop系统、流计算(StreamComputing)、数据仓库和信息整合与治理;甲骨文推出了软硬一体的大数据库机,其中内置了Cloudera版的Hadoop;SAP以其HANA为切入点,也试图在大数据市场分一杯羹;微软等推出自己的Hadoop发行版本。另外,Intel、EMC等很多厂商也都在大数据有不小的投入。今年年初,EMC把其从事Greenplum等大数据业务独立,与VMware的从事应用开发的部分合并成立了Pivotal公司专门做大数据。
除了传统IT大佬之外,市场还有很多难以计数的初创公司,尽管这些公司不大,也许持续时间不长,但对于大数据市场而言,它们同样也是不可或缺的一部分。
从BI到大数据
在大数据概念出现之前,在市场也有一个类似的概念红极一时,至今长盛不衰,这就是商业智能,而眼下显然大数据的风头要胜过商业智能。不过,我们并不应该把这两者对立起来。因为大数据是以海量数据的处理和分析,发现数据背后的本质,增加企业洞察力为目的而诞生的,而这与商业智能的目的基本一致,从这个意义上说,两者之间就存在着必然的联系。毕竟,获得洞察才是我们的目标。
业内专家的建议,把大数据看成是传统数据库、数据仓库以及商业智能这些概念的外延和扩展可能更合适,特别是把大数据应用到传统企业中,这一点可能更为明显。因为大数据的长处在于处理非结构化数据,而商业智能则擅长结构化数据。目前,绝大部分传统企业的商业分析已经投资于商业智能,对于机构化数据的分析和建模都有相对熟悉,而对非结构化数据的分析则陌生一些,因此非结构化的数据想要被充分认知和分析,转化为结构化数据之后处理不失为一种有效方法。比如,将大数据以及聚合数据输入传统商业智能系统中去做分析与展现,最终形成报告,出分析结果。这也是传统IT厂商最推荐的一个应用场景。
当然,也并非都必须如此,比如,那些率先引入大数据技术的互联网企业却很少使用这些方法,这些缺乏传统商业智能基础的企业从一开始就将自己的解决方案完全架构在Hadoop等大数据技术上,直接从Hadoop中提出数据,利用自己定制的MapReduce,完成数据的分析和展现。
大数据落地不容易
尽管大数据市场目前看起来很美,但从整体上说这个大数据市场才刚刚起步,整个市场的腾飞还有待时日,还存在诸多因素困扰大数据落地,人才瓶颈就是之一,特别是既懂得Hadoop相关技术同时还了解企业业务的人才,尤其是后者。比如,对金融企业上,在对数据进行分析和处理就非常需要那些有统计学背景的人才,了解银行业务的专业人才,尤其需要懂得将统计学的知识应用到业务上并与之相结合。
在国外已经出现了“数据科学家”(有的称其为“数据分析师”或者“数据工程师”)的新职位。他们知道企业的所有数据在哪里、如何拿到它们,以及什么数据是关键、它们如何生成,并懂得构建相应的业务流程。其理想的候选人是对复杂的算法、分析和市场营销都非常熟悉,此外,最好还能懂超高速计算、数据挖掘、统计甚至人工智能。。
用户可能面临的另一个挑战来自于Hadoop本身的技术和生态系统还有待完善。Hadoop是开源软件,本身还处于不断完善之中。同时,虽然有很多厂商围绕Hadoop提供了一些服务和技术支持,而真正能提供全面技术支持的厂商却很少,用户所需要的技术支持大部分还来自于社区。这一点对于像金融、银行这样的客户是非常重要的。
值得庆幸的是,这一点随着Hadoop的普及正在慢慢改观,市场上涌现出更多专业的工具和专业的服务,未来大数据也必将为我们了解和认识我们所在的这个世界提供更多的帮助。
阅读和此文章类似的: 全球云计算