真正的大数据体现在对大数据的深度挖掘应用。
3月1日,一场围绕数据挖掘的全球赛事——2017中国国际大数据挖掘大赛在贵州宣布启动。数年前就开始布局大数据的贵州,如今是全国第一个大数据综合试验区,政府数据开放是其重要的试验内容。
大赛组委会一位负责人称,相对于采集、储存,数据挖掘是大数据走向应用,创造价值的关键。贵州在拼命开放数据的同时,也在全力进行数据挖掘,就是要尽快“逼出”大数据的价值,让大数据战略释放出大红利。
同时,在此次大赛启动会上,来自贵阳、北京、上海、广州等17个国内政府数据开放先行城市的代表,共同发布了《共同促进数据开放及应用行动宣言》。作为大量数据的拥有者、管理者,政府及相关机构应该成为数据开放的推动者、先行者。宣言倡议,厘清义务和权利,做好标准和对接,保障安全和隐私,谨慎试验,坚定探索,共促政府数据开放,引领数字经济的崭新未来。
数据价值输出新时代
一位曾参与国家大数据行动计划纲要起草的专家表示,如果把大数据比作石油,那么挖掘就是勘探、钻井、提炼、加工。核心是把数据资源变现成商用价值。数据资源已经成为国家战略性资源,当前,我国必须尽快在大数据挖掘这个关键点有所突破。
目前国际主流的做法是把大数据链条分为数据获取、预处理、存储、挖掘或分析、可视化五个关键环节,挖掘被认为是核心。
上述专家分析称,以前对于数据资源的利用更多是信息的获取,例如企业通过经营数据的分析统计,总结过去的经营活动。而现在不再局限于信息获取,同时实施对数据资源的挖掘,可以优化业务模块,可以催生新的业务模块,这是颠覆性的。
咨询公司德勤发布的《2016分析趋势报告》提到,数据挖掘的威力和价值正在凸显出,它帮助人们作出更明智的决策,优化企业和社会运转。“商界正在积极寻找可以让他们赢得优势的科学方法。”
业内认为,在数据价值输出的时代,大数据依靠挖掘而呈现的巨大商业价值,正在成为推动经济变革的新引擎。
挖掘需要更多的数据
丰富的数据源是进行大数据挖掘的前提。德勤最新发布的报告《2017德勤技术趋势》指出,数据资源正在指数级的增长,到2020年,全球的数字预计将达到44泽字节(zetta bytes)。”
尽管如此,但是数据资源的开放和共享程度却亟待提升。中国信息通信研究院互联网法律研究中心主任工程师杨筱敏认为,“从国际上看,政府数据开放还处于初期阶段,主要通过制定战略或政策文件形式指导开放。”
杨筱敏说,2015年,我国密集发布了多个相关文件,其中最主要的是国务院《促进大数据发展行动纲要》。该《纲要》对相关政策进行了梳理,提出在开放前提下加强安全和隐私保护,在数据开放的思路上增量先行,提出在2018年底前建成国家统一的数据开放平台。
2016年5月举行的全国推进简政放权放管结合优化服务改革电视电话会议上,国务院总理李克强要求尽快实现政府数据开放。他提到,“目前我国信息数据资源80%以上掌握在各级政府部门手里,‘深藏闺中’是极大浪费。”
近几年,贵州就开始了大数据行动,第一步就是打造一个数据开放共享的“聚通用”云上贵州平台。2016年下半年,贵州加大了推进力度,启动“数据‘聚通用’攻坚会战”。2017年元旦前夕,贵州省法人单位、人口、空间地理、宏观经济四大基础数据库数据汇入共享平台,贵州率先实现50%以上政府数据“云上”开放共享。
据悉,3年内,贵州省、市、县三级政府应用系统和主要数据将全部迁往“云上贵州”,实现公共系统互联互通、公共数据共享开放。
今年伊始,贵州省印发了《贵州省数字经济发展规划(2017-2020年)》,成为全国首个发布的省级数字经济发展专项规划。《规划》提出,到2020年,数字经济增加值占地区GDP的比重达30%以上。
根据公开报道,北京、上海、浙江、青岛、武汉等已建立了专门的政府数据开放平台。河北省和安徽省均表示要在2018年底前初步建成政府数据开放平台。
大数据出台地方法规
尽管贵州大数据发展势头迅猛,但中国大数据产业却面临法律法规缺位等因素下的“野蛮生长”困境。
去年1月15日,贵州省通过《贵州省大数据发展应用促进条例》,这是中国首部大数据地方法规。中关村大数据产业联盟秘书长、北京大数据研究院副院长赵国栋称,《条例》的出台不仅是贵州作为大数据综合试验区迈出的坚实一步,对大数据产业的健康发展具有很大的促进作用,更为重要的是,《条例》填补了中国大数据立法的空白。
赵国栋说,大数据一直处在“灰色地带”,其使用权属一直以来缺乏明确界定,通过立法确定大数据的使用权属推动数据的开放利用,有利于保证大数据产业的健康发展。
国家信息中心专家委员会主任宁家骏也对媒体表示,相关法律法规和政策环境的不够完善,导致政府和有关部门信息共享和开放程度不够,众多“信息孤岛”造成大数据产业的数据资源不够丰富,企业拥有的大数据技术和计算能力无用武之地。
面对大数据的开放,政府又该如何保障大数据的安全呢?
贵州省大数据局副局长景亚萍接受第一财经采访表示,一方面省政府出台地方法规会采取相应保护举措,另一方面大赛也会对数据进行分级,建立相应标准,判断哪些数据可以共享,哪些需要脱敏,这是今年工作的一项重点。当然还会跟参赛团队签订相应保密协议,从而兼顾到数据的安全性与开放性。
“新矿工”掘金大数据
随着数据资源越来越多,数据形态越来越丰富。贵州省大数据发展管理局副局长康克岩在分享贵州数据开放经验时表示,在进行海量数据汇集过程中,有一个难题就是数据格式不统一、标准不统一。
大数据的显著特征是形态各异。《2017德勤技术趋势》将这种非结构化的数据称之为“暗数据”,比如,海量的图片、声音和视频甚至互联网上的闲言碎语。这些“暗数据”是比以往任何时候都更有价值的数据源,当然,对挖掘技术的要求也越来越高。
不过这并没有阻挡市场挖掘“暗数据”的热情。移动信息化研究中心2月10日发布的《2016中国大数据市场研究报告》(下称《报告》)显示,国内大数据企业此前主要聚焦在技术壁垒较低的应用、可视化等环节,而在存储和挖掘等环节,极少有企业切入。但是到了2016年,看到了利好消息。《报告》显示,从2013年到2016年,数据挖掘在大数据产业链中的分布情况从4.1%上升到9.2%。
《报告》显示,从大数据主要产业链市场份额占上看,数据存储约占12.5%,存储14.7%,应用7.9%,挖掘占比最高,为17.3%。《报告》认为产业链纵向各环节均属蓝海市场,而挖掘高风险与高收益并存。
对于大数据挖掘,麦肯锡全球研究所发布报告称,到2025年,物联网11.1万亿美元的年产值中60%将来自于对数据的整合和挖掘。
事实上,国内资本看好大数据挖掘这片市场,多数大数据创新企业在A轮或Pre-A轮都可以融到数千万的启动资金。在资本的热逐下,人工智能(AI)、深度学习等大数据挖掘技术和工具的概念也备受重视。时代呼唤新的“矿工”,寻找新的挖掘技术和工具,抢占大数据风口的制高点。