俗话说:“没有金刚钻,揽不了瓷器活”。如果将越来越多、越来越复杂的大数据分析研究比作一项“瓷器活”,随着信息时代每天都产生浩如烟海的数据,传统的分析研究工具越来越捉襟见肘,研制能挖掘大数据“金矿”的“金刚钻”,已显得迫在眉睫。
目前,上海正积极推动建设的“大数据试验场”,其目的就是要为研制挖掘大数据的“金刚钻”提供技术创新能力与试验条件的支持,并由此带动大数据产业的可持续发展。
挖掘大数据“金矿”需要一个试验场
12月2日,由复旦大学、上海交通大学共同牵头,29家高等院校、研究所、企事业单位在上海联合成立了全国首个“大数据试验场”联盟,联手推动“上海大数据试验场”的建设,共同打造大数据试验场产业生态圈。
复旦大学校长、中国科学院院士许宁生和上海交通大学校长、中国科学院院士张杰当选为大数据试验场联盟理事长,中国工程院院士、上海市数据科学重点实验室学术委员会主任邬江兴当选为执行理事长。
“如果将大数据比作一座金矿,随着数据量级的非线性增加,需要发明新的探矿理论、采矿技术、挖掘机械和选矿理论、选矿工艺、选矿设备等,才能从海量的数据中采出有用的矿石,选出冶炼级的原料,送到熔炉里冶炼成黄金。因此,需要有一个试验场,以便开展面向大数据的新型计算、存储、传送、资源管理、服务支撑等相关理论、技术和应用方面的试验,包括未来的技术装备、生产方式和商业模式等试验。”邬江兴院士说。
他认为,简单地来看,大数据可以归纳为两个主要问题:首先是,用大数据解决的问题;其次是,要解决数据大的问题。前者是指用数据解决科学研究、社会发展和经济建设中的各种问题,发展新的学科,新的商业模式和新兴产业等。后者是大数据事业可持续发展的基础性问题,需要解决诸如爆炸性增长的数据如何管、如何算、如何传等共性问题。
自2012年以来,国家自然科学基金(NSFC)开始立项支持大数据研究。五年来,共计支持了558项大数据研究项目。其中,总计346项支持了应用基础的研究,即用数据解决问题的项目占到62%。其次是数据挖掘方法研究占到18%以上,而涉及“数据大问题”的研究项目总共不到20%。
综合来看,我国对“数据大问题”的研究投入明显不足。长此以往,将会严重制约我国大数据事业的可持续发展。
海量数据对计算技术带来巨大挑战
数据,是信息化时代最丰富的产品。每天,各行各业都在源源不断地生产各类数据。量变必将会产生质变。PB、EB、ZB级数据量,对于计算机的硬件和软件都已带来巨大挑战。
据邬江兴院士介绍,从硬件方面来看:首先是机械硬盘问题。由于价格和持久性要求,绝大部分存储设备都是用的机械硬盘,这类硬盘一次读写需要至少6毫秒的机械臂运动,对于PB级以上的数据来说,这是一个大问题;其次是体系结构问题。现有的计算机体系结构都是从有利于科学计算的角度来设计的,往往不适应大数据分析角色;此外,什么样的计算框架有利于大数据分析,也有待试验研究。目前的HADOOP/MAP-REDUCE计算框架,只是表明能够处理大数据,其性能远远达不到大数据分析的要求。
大数据的移动也是一个巨大问题。比如从上海到北京,数据很难在期望的时间内实现移动,而且消耗的功率数十倍于处理这些数据的能量,美国亚马逊公司研究认为:在现有技术条件下,用传统运输工具运输PB级数据,要比通过网络移动数据更为实时和经济些。未来数据不移动是否可以?这样的“多地计算”或“异地计算”技术能否发明出来?这都需要不断试验、不断创新。
实际上,PB级以上的数据管理也是个极为棘手的问题。传统的数据管理是由数据库管理系统(DBMS)来完成的,由于技术设计的原因,难以处理数百台以上服务器集群的数据,并且处理的数据类型单一,不能适应大数据处理的需要。目前还没有应对数据量爆炸性增长导致数据管理挑战的方法。
“数据分析是大数据事业的核心。但是,绝大部分数据挖掘算法只是针对内存数据设计的,一旦数据涉及到外存,算法效率就非常低。目前,还没有看到好的算法。当然,这与传统计算机体系架构、计算框架都有关系。”邬江兴院士说,“我们在全球率先提出建立大数据试验场,就是要探索新型的计算技术,来解决大数据面临的挑战性问题。”
那么,现有的超级计算中心和云计算基地能否应对大数据面临的挑战呢?邬江兴认为,答案是否定的。
这是因为超算中心是一类具备超级计算能力的基础设施,面向高速、大运算量的计算密集型应用(如科学计算、气象预测、灾害防治、大气模拟、制作等),并不适用数据密集型应用,比如PB级以上大数据的应用。
云计算是一种基于互联网的资源、平台和软件的服务交付模式。它通过虚拟化和服务化手段,为用户提供一种灵活方便、动态持续可用、可伸缩、按需付费的资源、平台和软件。“云平台”不是也不可能解决大数据的处理、存储、传输和管理等问题,而且还存在数据安全性不能保证、处理效率低下、数据移动困难等其他难题。
以“大数据试验场”带动产业发展
当前,我国各行各业都处在依托大数据进行创新发展的阶段。在国务院发布的《促进大数据发展行动纲要》中,明确提出要在任务布局上,优先规划大数据基础设施建设。上海正积极推进建设的“大数据试验场”,正是开展大数据科学研究、技术创新与应用示范不可或缺的一项重大基础设施。
据悉,上海大数据试验场建立后,一方面,将在当前技术能够处理分析的数据量级上,开发大数据应用技术、发展大数据应用,形成大数据应用创新,形成新产业、新业态等;另一方面,将探索基于更大级别数据量级的计算理论、处理体系和共性技术,开发相关技术产品,支持大数据应用深入发展的需求。如此往复,不断前行,边探索、边试验、边发展。
“重大科学基础设施是科技领先的保证,科技领先是产业领先的保证。大数据试验场是上海大数据产业可持续发展的重要抓手,必将为上海全球科创中心建设提供重要支撑。”上海市经济与信息化委员会副主任邵志清说。
2013年7月,上海曾发布《上海推进大数据研究与发展三年行动计划》(2013-2015年)。2016年9月,又发布了《上海市大数据发展实施意见》,并于10月获批成立国家大数据示范综合试验区。全国首个“大数据试验场”联盟的成立,表明上海在大数据产业上再度发力。
据悉,“大数据试验场”联盟将尽快发展成为一个全国性联盟,并积极推动“国家大数据试验场”的建设。