编者按:刘家义审计长在去年12月底召开的全国审计工作会议上说,推进以大数据为核心的审计信息化建设是应对未来挑战的重要法宝,也是实现审计全覆盖的必由之路。为了普及大数据审计的知识和技术,提高广大审计人员的业务能力,更好地发挥审计监督作用,从今天开始,我们特别推出“大数据审计——国家审计的未来之路”系列文章,系统介绍大数据审计的基本知识、审计技术和方法,期望可以给广大审计人员以工作上的启迪和帮助。
大数据审计——国家审计的未来之路(一):
大数据——助力推行现代综合审计模式
大数据之找到女朋友
Chris McKinlay是美国加州大学洛杉矶分校在读博士生,在多次相亲后,找到另一半的事情毫无起色,个人资料在婚恋网站上无人问津。作为一名数学博士,他认为自己应该像一名数学家那样从数据中挖掘出女朋友。McKinlay创建了一个机器人程序,用了三周时间从网站上的2万名女性用户中收集到600多个问题的答案,之后利用自己研发的改进型K-Modes算法将这些女网友分成7个集群,并选出年龄较为合适的AB两组。在计算机的帮助下,McKinlay了解了两组姑娘的喜好,精挑细选了500个最让她们关心的问题,如实填写了自己的答案,并针对两组分别附上自己攀岩和演奏吉他的照片。经过配对搜索后,99%匹配度的姑娘大量出现,网站上每天不停的有主动跟他问候、闲聊、要求见面。完成了计算机上的工作,更考验人的事来了。在约会到第88个女网友时,他找到了自己的真爱。
大数据之德国队“第12人”
德国队在2014年的世界杯中夺冠,在几天前的欧洲杯德意大战中取得胜利,帮助他们获胜的“秘密武器”之一,正是悄然影响绿茵场上较量的“大数据”,堪称德国队在足球赛场上的“第12人”。在世界杯中战胜两支南美劲旅,德国队可谓有备而来。四年前,德国队与科隆一所体育大学合作,由该校约50名体育专业学生组成的研究团队对南美球队和球员进行了大量深入研究,包括这些球队的每一篇报道和几乎所有细节,例如球员在压力下的状态、擅长使用的路线、以及犯规后的反应等等,这些数据帮助德国队了解对手、制定比赛计划,并取得最终胜利。
大数据——助力推行现代综合审计模式
数据是国家基础性战略资源,“十三五”期间,国家实施大数据战略。大数据战略国家审计正在进行时。
乘着《国务院关于加强审计工作的意见》的东风,国家审计大数据中心正在快速建设,如何管好、用好数据,建立起基于大数据的审计工作平台,提高审计质量和效率,减少审计人员出差时间和工作量,是各级审计机关共同研究的课题。国家审计经过一年的探索和实践,积累一些经验和做法,组建数据分析团队;统一规范数据的报送、存储、管理;采用数据挖掘技术开展大数据分析等等,初见成效。
利用大数据分析技术,对数据进行多维度扫描和挖掘,把握宏观特征和趋势,锁定微观疑点、疑团,将成为“总体分析、发现疑点、分散核实、系统研究”的数字化审计方式中的重要一环,全面助力国家审计推行现代综合审计模式。
大数据审计——国家审计的未来之路(二):
大数据——数据采集
你采,或者不采,数据就在那里,闪闪发光。
数据资源被誉为21世纪最大的资源。就像当年的淘金者一样,无数探路者涌入大数据分析的滚滚浪潮。俗话说巧妇难为无米之炊,数据采集是开始数据分析的第一步。
数据按其来源可分为公开数据(如互联网数据)、半公开数据(如各类监控数据)、内部数据(如企业业务数据),相应数据采集方式有网络爬虫、传感器采集、从相关数据库中摘取等。
众所周知,互联网上有大量的信息,如何高效的获取这些信息当然地成为了技术研究的热点。爬虫大概是智能搜索的形象化表述,开发者希望自己的程序能够像昆虫一样聪明地嗅到需要的信息。网络爬虫技术在舆情分析等社会学研究中得到不错的应用。
网络爬虫基本原理
传感器网络技术通常用于采集较分散数据,如大城市的交通流量数据。城市公交的刷卡机可以看作是一立的传感器,公交公司从上万台终端机中采集乘客出行数据,用于市政部门分析城市交通流量,或帮助商家分析热门商区。
传感器网络基本原理
数据库摘取指从企业的信息系统的生产数据库中直接提取数据,如阿里巴巴分析网购客户的购物倾向,又如银行的征信系统,通过用户的消费数据定义用户的信用等级,作为判定贷款发放金额的依据。审计人员经常遇到的数据库有微软SQL Server,ORACLE和DB2等,可以根据实际需要选择不同的数据备份方式取得数据,如备份规模较大的ORACLE数据时,可以选择数据泵方式,提高数据采集效率。此外,在采集过程中应注意保留备份脚本等辅助信息,采集之后要及时恢复数据并校验数据质量。
大数据审计——国家审计的未来之路(三):
从“3V”到“6V”——浅谈大数据理念的变迁
2001年麦塔集团分析师莱尼Doug Laney第一次提出了大数据发展的三个要素,数据即时处理的速度(Velocity)、数据格式的多样化(Variety)与数据量的规模(Volume)。之后,随着资讯科技不断地往前推进,数据处理的复杂程度愈来愈高,“3V”已经不足以代表新时代的大数据,陆续出现了“4V”,即加入了准确性(Veracity)要求;乃至“5V”、“6V”,增加了可视化(Visualization)和正当性(Validity)。
这种概念上的扩容不是偶然的,最初的3个V,一个是Volume,意指数据容量越来越大,第二个是Velocity,数据量增长越来越快,需要处理的速度和响应的时间越来越快,对系统的延时要求相当高。第三个是Variety,为了利用各行业数据信息不对称特点挖掘新的知识点,多领域异构数据的使用愈发频繁。前“3V”代表了大数据兴起时对大数据主要功能特征的描述,简单地说就是“更大、更快、更多”,这三个词即表现了大数据的蓬勃,但又同时意味着新事物出现前期粗放式发展的特性。
而后“3V”的出现就是对大数据前期出现问题的修正,首先增加的就是准确性,大数据中在应用之初,强调“只问关联,不问因果”,如著名的啤酒和尿不湿销售关联性的案例。但是一个成功案例的背后,也存在很多啼笑皆非的相关性,如Tyler Vigen在他的“伪相关”网站上展示的案例,每年影星尼古拉斯凯奇拍的多少和美国在游泳池溺水的人数存在正相关性,如果不问因果的话,还是让凯奇尽快退休吧;另一个案例则是每年美国非商业飞船发射数和社科博士学位的授予数高度一致,但的曲线并不能代表任何有意义的事。这些大数据的反面教材,意味着准确性在大数据应用中的迫切性。
可视化是大数据的发展的又一大跨越,目前尽管大数据是一个热门话题,但是对许多企业和数据专业人员来说,它仍然很难理解。运用图表及其他可视化元素的数据,可以更便捷的在不同技术背景的人员间流动,能够更快捷的寻找问题答案、获取关键数据、挖掘隐藏信息、体现知识价值。可视化不仅仅是另一种数据的表达方式,而是对数据的理解和阅读方式的改变。下图为QQ在线用户地理数据的可视化表示,与中国人口密度图中胡焕庸线高度重合。
最后一项是正当性,大数据发展的几年间在人类历史上只是短短一瞬间,但是所爆发出的力量却实前所未有的,所有人的工作、生活、学习都被不经意的记录下来,以数据的形式永远存在,这些数据的应用小到电商网站按照个人购物习惯投放广告,大到“棱镜”计划肆意收集个人信息,大数据似乎变成“饕餮”,吞噬着一切数字信息。因此理智的人们,为大数据这辆狂飙的快车加上了方向盘和刹车器,使大数据的力量用于建设而不是破坏。
大数据发展至今仍然是处于一个大浪淘沙、去芜存菁,不断自我革命的初级阶段,现在谈大数据是什么仍然为时尚早,现在的“6V”也只是阶段性的描述,大数据到底何去何从,还是让我们拭目以待吧。