“除了上帝,每个人都必须用数据说话。”不仅是人,整个世界都越来越数据化。信息革命深入发展,如潮的数据澎湃而至,数量之巨,种类之杂,来势之快,前所未有。大数据不单单是“数据的工业革命”,而是一场更深刻的科技和产业大变革的组成部分,是对未来大趋势、时代新特征的一种描述。
“大数据现在已经成为天大的事”。近日,美国政府公布新版大数据研究计划,白宫科技政策办公室主任霍尔德伦致辞说,他2012年曾预测大数据将是件“大事”,现在来看保守了。
时间倒回到6月,斯诺登的41张幻灯片,让美国大数据监控项目“棱镜”浮出水面,令人不寒而栗。
2013年被一些专家称为“大数据元年”。对大数据时代的乐观和忧虑,在这一年充分展示。
大变革
IDC(国际数据公司)估计,全球2012年产生数据总量约2.8泽字节。有人计算,这相当于3000多亿部时长2小时的高清电影,连着看7000多万年也看不完。
而这还只是序曲。更大的浪潮在后头。
IDC预测,未来几年,全球数据量每隔两年翻一番,2020年达到40泽字节。
大数据是推动这场大变革的重要动力,将成为促进经济社会转型新的关键资源。搜集、分析和运用指数级增长的庞大数据,将催生创新,为各行各业提供新的发展机遇,给人们日常生活带来改变。
星巴克有意推出的“大数据咖啡杯”就是个小小的例子。美国媒体报道,这家咖啡连锁巨头打算试验在一些咖啡杯中装上传感器,收集常客喝咖啡速度等数据,从而为喝咖啡较慢顾客提供保温效果好的杯子,提高其满意度和忠诚度。
业内人士认为,大数据的本质还不在于“大”,而是以崭新的思维和技术去分析海量数据,揭示其中隐藏的人类行为等模式,由此创造新产品和服务,或是预测未来趋势。
畅销书《大数据时代》的作者、英国牛津大学数据科学家舍恩伯格认为,大数据是一种新的价值观和方法论,人们面对的不再是随机样本而是全体数据,不是精确性而是混杂性,不是因果关系而是相关关系。“现有的认知和体系是建立在稀缺数据上的成果,人们思维和工作方式必须发生变革以适应大数据时代的到来。”舍恩伯格在其书中写道。
大竞争
大数据被视为创新和生产力提升的下一个前沿,正成为国家竞争力的要素之一,在世界范围内日益受到重视。多国政府加大了对大数据发展的扶持力度,甚至上升到国家战略的高度。2013年,围绕大数据的国际竞争继续加码。
咨询公司益百利集团的研究显示,全球对大数据项目投资总额2012年已达45亿欧元(约60亿美元),预计2013、2014两年均会保持约40%的增长速度。
在美国,大数据已由热点词汇变成重点项目。2012年3月,美国政府已公布2亿美元的《大数据研究发展计划》,2013年11月再度公布涉及各级政府、私企、科研机构的多个大数据研究项目。美国国家卫生研究院、国家科学基金会等都参与其中,有评论称之为美国大数据战略2.0版。
在英国,虽然经济不景气、财政紧缩,但政府依然为大数据一掷千金。2013年初,英国商业、创新和技能部宣布将注资8亿英镑发展8类高新技术,其中1.89亿英镑(约3亿美元)用于大数据项目。
大数据在中国也已启动驶入“快车道”,政府、企业和科研院所正多方位布局。工信部的物联网“十二五”发展规划,将信息处理技术作为四项关键创新技术工程之一,其中包括海量数据存储、数据挖掘等。随着4G牌照在2013年末的发放,更高速的网络将带来更大的数据流,为政府和企业带来战略性资源。
大挑战
“棱镜”2013年曝光,让人看到大数据时代维护国家信息安全、保护个人隐私所面临的严峻挑战。“棱镜门”让各国政府意识到“数据主权”的重要性,以及在网络和电信核心技术上依赖个别国家的恶果。必须加快自主创新以保护“数据主权”,已成为一些国家的共识。
英国《自然》杂志2013年3月刊登的研究发现,只要有4个时间点和位置的数据就能确定一个人身份,准确率高达95%。这表明,大数据足以将一个人“描画”清晰,现有法律手段和核心技术对个人隐私的保护正在逐渐失效。
如何在大数据来袭中保持清醒和理性、有所创新和创造,对国家和个人来说同样是考验。
专家指出,大数据可望为中国经济转型升级发挥重要贡献,巨大的人口基数、经济体量和需求,意味着中国发展大数据拥有得天独厚的优势。但也应该看到,大数据具有价值密度低的特性,挖掘、分析等技术要求高。中国不能仅满足于做“世界数据中心”,应防止概念炒作,加强自主创新,进行前瞻性的制度设计等布局,顺势而为,将“中国创造”由机遇化为现实。
还应该警惕“迷信”大数据等倾向,认识到大数据分析可能存在的缺陷和不足。心理学家认为,大数据创造的模型会将人束缚在算法提供的选项中,过度依赖大数据分析也可能束缚创新。美国互联网活动家帕里泽称之为“互联网滤泡”:互联网个性化虽然带来方便,却将人们局限在自己过往行为模式的“气泡”中,无法触及海量信息带来的无尽可能。
大数据专家喜欢用莎士比亚“凡是过去,皆为序曲”来形容大数据分析的必然,但大数据提供的也只是参考答案而非最终答案。无论在小数据时代还是大数据时代,探索和创新精神都不应放弃,正如林肯所言,“预测未来最好的方法就是去创造未来”。
相关链接
大数据“搭起”《纸牌屋》
“有一种心痛叫下集预告,有一种绝望叫再等一周”,这句话道出了网络追剧迷们的痛苦。2013年2月1日,美国流媒体服务商奈飞将投资上亿美元的政治悬疑剧《纸牌屋》一次直接上线13集,而不是像通常那样每周放一集。
奈飞不担心用户是否追剧,甚至在导演喊“开机”之前就知道该剧一定会火。秘密在于,《纸牌屋》是依据大数据分析而制作的。
截至9月,奈飞全球用户数量达到4040万,其中3120万在美国。2012年,奈飞数据科学家曾在一个有关大数据分析的会议上介绍说,公司分析了用户每天超过3000万条播放记录,包括用户在何时、何地、何种设备上观看什么内容,用户给节目添加的恐怖、必看等个性标签;并在记录暂停、倒退、快进、评分、搜索的同时,进行大量截图,试图分析用户在音量、画面色彩甚至场景选取上的喜好。
奈飞发现,有相当数量的用户喜欢《社交网络》导演大卫·芬奇的作品,而著名影星凯文·斯佩西的电影和英国版《纸牌屋》也都是点击率比较高的节目。2011年初,在没有一家电视台愿意承诺第一季投拍的情况下,奈飞直接以1亿美元买下两季26集版权,剧组为请到斯佩西又等了10个月。
奈飞一直没有公布《纸牌屋》的具体收视数据,只是表示对该剧在传统媒体、社交媒体、用户中的反响都“相当满意”。第三方互联网流量监测的统计显示,约11%的奈飞用户看了至少一集《纸牌屋》,有0.5%的用户在该剧上线24小时之内就看完了全部13集。
2013年8月举行的爱丁堡国际电视节上,《纸牌屋》主演斯佩西在主题演讲中表示,奈飞的策略在改写电视内容消费的历史,传统广播公司在失去一次重大机遇。