大数据审计实践应用研究
时间: 2018-12-03 16:08

  摘要:中办、国办《关于完善审计制度若干重大问题的框架意见》及省委办、省政府办联合下发通知要求,构建大数据审计模式推进审计监督全覆盖。目前,大数据审计能够显著提升审计工作成效已成共识,创新技术应用给审计带来积极影响。本文通过大数据关联分析和挖掘分析两大创新技术应用研究,分析当前实践应用中存在的困难问题,提出今后发展与提升方向,强力推进审计监督全覆盖。 

  关键词:审计 大数据  应用  研究 

  中办、国办《关于完善审计制度若干重大问题的框架意见》及省委办、省政府办《关于完善福建省审计制度的实施意见》等文件明确,要积极运用大数据技术,加大业务数据与财务数据、单位数据与行业数据以及跨行业、跨领域数据的综合比对和关联分析力度,提高运用信息化技术查核问题、评价判断、宏观分析的能力。当前,创新大数据审计分析技术,构建大数据审计工作模式,建立健全与审计全覆盖相适应的工作机制已成共识。特别是,在审计实践中加大数据综合关联分析力度,加大对财政、金融、企业等各领域之间数据关联分析,中央、部门、地方间的数据关联分析,财务、业务数据见的关联分析,部门纵向各级间数据的关联分析,被审计单位、行业、地方单个系统与宏观经济运行间的数据关联分析已成为关键技术。 

  一、大数据与审计大数据 

  目前,大数据的研究与应用已经成为国内外的热点,列入全球10大关键技术。不同文献,给出的大数据的定义也有不同。最初的概念,是指需要处理的信息量过大,已经超出一般电脑在处理数据时所能使用的内存,因此必须改进处理数据的工具。这导致新处理技术的产生,如谷歌的MapReduce和Apache的hadoop平台,这些技术使得人们可以处理的数据量极大地增加。最常见的定义,是世界著名咨询机构麦肯锡公司做出的,大小超出常规数据库工具获取、存储、管理和分析能力的数据集。概括起来说,大数据主要具有大量Volume、高速Velocity、多样Variety、真实Veracity四个特点,即“4V”特点。 

  审计领域,审计大数据的内容也是包罗万象,涉及国民经济运行的主要数据。当前,审计大数据主要基于被审计单位信息系统存储的结构化数据,但非结构化的文档、网页和社交数据对审计的价值也是毋庸置疑的。将来,来自物联网的传感器数据也会成为审计大数据的来源。具体来说,审计大数据既包括来自被审计单位信息系统的财务、业务数据和相关支撑资料,也包括其他部门、互联网的交互数据;即包括结构化数据,也包括文档、音频等非结构化数据。实践中,审计大数据在揭露重大违法违纪问题、提高揭示宏观经济社会运行风险的能力和效率方面发挥积极作用,是实现审计全覆盖的技术保障,其最终目标是维护国家经济安全,促进国家审计在国家治理现代化中发挥基石和保障作用。 

  二、大数据审计带来的影响 

  大数据时代的到来赋予了审计技术改革新的动力和内容,对审计机关分析利用大数据、审计模式和审计组织方式等带来正向的积极的影响。 

  1、数据利用上,强化对数据深层次多维度的关联分析。 

  一是提高现有数据的价值。大数据的价值不在单纯源于数据本身的基本用途,而更多源于它的二次利用。随着各地审计机关开展审计数据定期报送制度化,加之历年审计项目中积累的各种数据,审计可用的数据将越来越多,审计数据集中力度将更高。如何将现有多行业、多部门、多类型数据利用好,是当前审计数据分析的要务。二是应更加注重数据关联分析。数据总和比部分更有价值,当多个数据集的总和重组在一起时,重组总和本身的价值也比单个总和更大。只有加大行业内数据以及跨行业、跨领域数据的综合比对和关联分析力度,才能提高运用信息化技术查核问题、评价判断、宏观分析的水平。 

  2、分析模式上,注重大数据常态性的数据分析。 

  一是审计范围由“抽样审计”向“全景审计”转变,审计模式也将会转向大数据审计模式。过去,审计分析由于受到人力、时间和分析条件的限制,无法做到对所有审计数据的收集和分析,所以在审计项目中一般采用依赖于审计重要性水平的审计抽样方法。大数据时代,大数据审计模式可以精确定位问题所在,减少抽样审计带来的片面性和局部性,让风险控制更有针对性。二是审计数据分析呈现常态化。数据分析不只局限于审计项目开始时,可以在整个项目年度持续开展。日常数据分析中,审计人员将采用新技术,从海量数据中挖掘相关审计疑点,通过一个一个审计项目现场进行验证,使得后台数据分析与审计现场作业融合更加紧密。促使单兵审计向兵团联动审计转变,现场审计向现场审计与非现场审计相结合的转变,提高了审计能力、质量和效率,拓展了审计监督的广度和深度。 

  3、组织形式上,强化数据分析管理“中心制”。 

  审计大数据应用必然需要一种能打破行业界限,突破项目限制、有利于审计资源整合的组织管理模式。《“十三五”国家审计工作发展规划》也明确提出创新审计管理模式和组织方式,大力推行现代审计综合模式,全面推广“总体分析、发现疑点、分散核实、系统研究”的数字化审计方式。目前,尽管已经形成以扁平化模式组织实施大数据审计的共识,但多头管理的问题还是客观存在,一定程度上会消解大数据审计所带来的技术优势。实践中,可由审计机关主要负责人指定一位分管领导、处长负责领导具体项目数据分析,其他同级别的负责人在审计现场或业务方面服从统一调度。成立领导小组办公室、政策分析组、数据分析组和现场核查组等,打破多头指挥,有效落实“统一审计计划、统一审计方案、统一审计培训、统一审计实施、统一审计处理”的“五统一”的工作方式。 

  三、大数据审计的技术方法 

  当前,数据大已经是一个毋庸置疑的事实,所以更重要的现实是对大数据进行分析的方法,只有通过分析才能获取更多智能的、深入的、有价值的信息。前审计长刘家义同志提出大数据审计分析的本质是“全维化与智能化”,业内普遍认为大数据分析的特征是“交叉融合+智能挖掘”。二者观点的共同点,说明了在某种程度上,数据关联分析的应用和智能挖掘算法的应用是当前大数据审计分析方法创新的两大重点。 

  1、数据关联分析的应用 

  关联分析是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的关联性、相关性或因果结构,从而发现海量数据中不同项之间的联系。审计数据关联分析是基于审计获取的财政、地税、公积金和社保等财务、业务数据,运用大数据的关联分析技术(SQL语句等),探寻不同数据源、同一数据源不同数据层级之间的联系,进而快速锁定审计疑点。重点做好五个方面的关联:一是从中央财政到省市县乃至每个乡镇的资金使用、从部门到项目具体执行单位的资金使用的纵向关联;二是从市财政、市发改委到一级、二级预算单位的各种专项资金的横向关联;三是财政、金融和企业三方面的数据关联;四是财政与其他多部门、多行业的数据关联;五是财政数据与业务数据、宏观经济数据的关联。近几年,各地审计人员积极践行“五大关联”分析,开展了跨领域、跨层级、跨系统的数据分析工作。从数据应用的角度讲,我们已经进入大数据分析阶段。 

  2、智能挖掘技术的应用 

  大数据分析的另一特征就是各种深度挖掘、智能学习算法、可视化等技术的应用。数据挖掘是信息时代背景下发展起来的新兴技术,是针对日益庞大的电子数据应运而生的一种新型信息处理技术。一般采取排除人为因素而通过自动的方式,从数据库、数据仓库中发现新的、隐藏的或不可预见的知识。数据挖掘是在对数据集全面而深刻认识的基础上,对数据内在和本质的高度抽象与概括,也是对数据从感性认识到理性认识的升华。近年,全国多地审计机关,特别是审计署,审计人员正从简单的汇总、统计数据分析,开始向专业数据挖掘方向推进,开展数值分析,聚类、分类、孤立点分析等数据挖掘算法在审计数据分析中的应用案例也多有涌现。但是,现阶段审计实践中数据挖掘的深度、综合利用的程度还有待提高,从这个角度讲审计大数据分析尚在初级阶段,距离智能化还有较长的路要走。 

  四、大数据审计实践与探索 

  审计分析方法是为了实现审计目标采用的方法和手段,审计大数据量大面广,相应的审计数据分析方法也数量众多,无法一一枚举,实施中应根据审计重点内容编制具体审计方法。下面结合近年来大数据审计方面的一些实践,阐述大数据审计中关联分析和数据挖掘技术的应用。 

  (一)数据关联分析的应用 

  在审计工作中,关联数据分析对于发现线索、查处问题,降低审计风险,有着重要的意义:一是有助于提高取证数据的可靠程度,引入相关数据,互相印证,更具真实性;二是有助于全面地把握事实,将被审计单位提供的数据与相关数据进行比对,多角度反映事实,能够形成完整的证据链;三是有助于有效发现疑点,将各类相关数据进行比对,可以识别出与反映事实之间的差异,能够较快地发现一些有价值的线索。对被审计单位而言,目前的数据主要分内部数据和外部数据两类,实际应用中针对数据来源,分别通过构建行业间横向关联模式、行业内纵向关联模式的方法进行数据关联分析。本文以构建行业间横向关联模式和行业内纵向关联模式为出发点,结合近年的代表性实践,详细阐析关联分析技术在审计中的应用。 

  1、行业内纵向关联分析 

  行业内纵向关联分析是通过对来自同一部门不同层级之间数据的关联比对,实现对数据的多维度审查。可通过下钻,从高层级逐步下移到底层级,查清去向;可通过上卷从低层级上溯至高层级,追踪来源。 

  (1)资金维度数据分析。当前,财政部门使用较多的是龙图、用友和太极华青等财政管理信息系统。其中,指标管理系统里包含FromCtrlID和ToCtrlID两个字段,将指标管理系统里的指标流向串联起来;龙图平台中包含映射表,控制可执行指标、国库集中支付系统和总预算会计数据的对应关系,跟踪资金的最终流向,确定最终收款方。结合起来,可以实现对财政部门内的指标管理系统、国库集中支付系统和总预算会计软件关联操作,将与财政资金分配、支付、记账相关的预算指标表、用款计划表、支付申请表、资金支付表、总预算会计凭证表等关联起来,实现资金流向的逐层分析。如“同级审”中,我们在对农林水功能科目总体执行情况进行分析,通过对功能科目字段设置条件筛选出农林水科目的所有项目,再按项目资金的流向,从指标管理系统数据查询项目资金下达中涉及单位及执行情况,最后通过国库集中支付系统查询该项目对应资金流向的最终收款方(企业)情况,从而对资金的整个流向进行跟踪。大大提高了对同一企业享受多种不同财政补助、相似项目多头申报财政补助、连续多年财政直接支付给相同个人等疑点筛选的审计效率。据筛选的疑点延伸审计发现,农林水事务科目专项转移支付资金沉淀现象仍较为突出,市财政下达某县专项转移资金5.17亿元,实际支出2.95亿元,有2.22亿元资金滞留财政和部门当年未实际支出等问题。 

  (2)业务维度数据分析。税务部门的税收征管系统电子数据,存储的每一条记录都有明确含义,存在紧密的业务对应关系。利用系统内不同税种征收数据之间的业务关系建立审计分析模型,可达到分析问题、发现线索的目的。如房地产土地增值税征管审计,预征土地增值税的计税依据是不动产预售收入,营业税的计税依据也是不动产预售收入。审计人员可以利用申报营业税和土地增值税计税额都是营业额这一关联关系建立审计分析模型,检查有无通过调节土地增值税进而调整税收的现象。按纳税人电子档案号做为关键字,分组汇总缴纳土地增值税的总收入、缴纳营业税的总收入,并以纳税人电子档案号做连接进行关联比对,计算两个税种计税额差额。审计中,将计税额差额绝对值较大的企业作为调节征收税款的疑点,抽查发现某一年有40多家房地产企业未如实申报税费3亿多元,影响了年度税收收入的真实性。 

  (3)时间维度数据分析。在业务性专项预算编制合理性数据分析中,审计人员认为如果某一业务性质专项的预算执行率连续多年都很低间接说明该业务性专项的预算编制不够准确,项目资金需求虚高。据此,根据审计人员符合客观实际经验来建立分析模型,将近三年指标系统中可执行指标数据进行合并汇总,按单位、业务性专项项目名称和年度分别重算预算指标的执行情况,筛选出连续三年执行率都低于60%的项目作为重点延伸对象,进行进一步核实。在政府投资建设项目结算情况专项审计调查中,通过对建设单位连续7年财务账套进行分析,按照近三年往来科目变化情况对项目的进度进行分类,挖掘可能已经完工的工程项目和在建工程项目,从而进一步验证了业务填报数据的真实性,夯实审计证据,发现了工程结算滞后,已完工程700多个项目仅仅审结300多个,审结数量占比不到50%。审计结果得到了市政府、市长的高度重视,要求在全市范围内,对不结算、不清算、不验收、不扫尾的工程项目进行全面摸底,形成清单,明确责任,马上整改。要求各相关部门单位“一把手”要亲自抓整改,效能办要将整改列入绩效考评范围,严肃处理履查履犯问题;市纪委、监察部门严格专项督察,严肃责任,严格落实。同时要求对症下药、建章立制,完善制度,举一反三,防止问题“回潮”。 

  当然,我们还可根据审计人员观察数据的不同角度,选择不同重点、从不同纬度展开对数据的分析,了解和发现数据中隐藏的一些业务活动。 

  2.行业间横向关联分析应用。 

  被审计单位的经济活动并非孤立运行,通过业务系统之间、业务系统和财务系统之间、内部系统和外部系统之间的关联比对,包含内部数据之间的表间关联,还包含内外部之间的跨库关联,是发现审计疑点线索的有效方法。审计实践中,关联模型构建的核心在于找到一个关联数据的关键字段,通过关键字段,实现不同数据库之间的整合展示,比较常用的有身份证号码、工商登记号码等。 

  (1)在城镇土地使用税审计中。税务部门以实际占用的土地面积为计税依据向纳税人征收城镇土地使用税,土地主管部门通过核发土地使用权证准确记录特定人的土地使用面积。审计人员可根据土地使用人使用权证上的土地面积和申报城镇土地使用税的计税土地面积之间的一一对应关系,建立数据分析模型。先向国土部门取得土地证发证表,同时按照企业名称汇总整理土地使用税缴纳企业明细表,将两表按照土地使用人进行关联比对,就此发现已经由国土管理部门发放土地使用证,但未及时缴纳土地使用税的企业,或缴纳土地使用税不足的情况。审计发现,有4000多家应征收城镇土地使用税的单位应补缴某年度城镇土地使用税1亿多元,有150多家新发证的单位应补缴城镇土地使用税1000多万元。基于同样的审计方法,在房产税审计中,审计人员从房屋登记管理部门取得房产登记信息,与房产税征收数据比对建立模型,即可发现未缴纳房产税的疑点,审计发现90家企业少交房产税近900万元,继而落实问题成因。 

  (2)公务人员兼职取酬数据分析。纳税义务人在某一公司缴纳个人所得税的数据与该义务人在该公司取得劳动报酬的数据有着必然对应关系。对此,我们从税务部门采集个人所得税报告表中同一个身份证号相同月份在不同单位缴纳个人所得税的疑点数据,将其与财政工资统发系统的公务员名单信息进行关联分析,可以快速锁定所有公务人员兼职取酬的违规问题,进行达到对数据全覆盖分析。如,我们部门预算执行审计中,延伸了某部门的下属单位,发现该单位副主任在兼任其相关单位法人代表期间领取补贴和年终绩效达13多万元,并将线索移送纪委部门进一步核实查处。 

  (3)违规领取扶贫惠民资金数据分析。扶贫、惠民资金的发放面广、链长、点多、量小,要做到审计监督全覆盖必须创新审计方式方法,强力推进大数据关联分析。其中各类资金发放都有相应的政策法规规定,一些还有比较严格的条件限制,而这些前提条件往往可通过其他部门业务数据中间接佐证。因此,利用多部门数据间的关联关系,从惠民资金网系统和财政工资统发系统、房产持有信息数据、公积金和医保等缴费工资数据中身份证号出发,对五个系统2000多万条记录进行关联比对,分析是否存在违规领取惠民项目资金的情况。筛选公积金计算工资、医疗保险计算工资大于2500元还领取扶贫相关惠民资金的疑点数据1140条,持有房产但同时领取扶贫相关惠民资金的疑点数据140条,公职人员(含退休)领取惠民资金的疑点数据646条。还与建档立卡家庭4425户14042人的领取扶贫涉农资金进行分析,锁定审计重点和延伸对象,发现1142户建档立卡家庭3726条疑点数据。审计组根据疑点数据确定入户调查审计重点,证实有173户收入明显超过建档立卡标准或重复享受农村危房改造和造福工程补助资金家庭,大大提升了精准审计力度和工作效率。 

  (二)数据挖掘技术的应用 

  数据挖掘技术应用于审计工作有着重要的意义,能够帮助审计人员在极短的时间里筛选出有代表性的审计样本,提高审计效率,大大降低了审计风险,是未来大数据审计实践的重点和难点。数据挖掘技术应用的核心是数据挖掘算法,在SQL SERVER和ORACLE数据库中都自带了一些算法,如SQL SERVER数据库里默认集成了9种算法,包含了决策树、聚类分析和逻辑回归等。这些数据挖掘算法本身是被统计学家们公认的,能够深入数据内部,挖掘出公认的价值,做出预测分析。如,利用Benford定律发现海量数据中存在分布异常数据。 

  Benford定律最早是美国天文学家Simon Newcomb和美国通用电气公司科学家Frank Benford研究发现,即在不同种类的统计数据中,首位数字是数字d的概率为log10(1+1/d)。其中,数据的首位数字是指左边的第一位非零数字,出现的标准概率分布曲线如图1所示。同样,Benford定律不但适用于个位数字,连续多位数也适用,概率分布曲线如图2所示。 

   

  (图1) 

   

  (图2) 

  但是,Benford定律并不适用于所有被审计数据,主要有三个条件限制:数据具备一定的规模、没有人工设定最大值和最小值范围、受人为影响较小。 

  实际中,如果要分析的数据不符合Benford定律的标准概率分布曲线,则表明在被分析的数据中可能含有“异常”数据,存在人为舞弊行为。所以,大数据环境下,Benford定律提供了一种大数据审计数据分析方法,有助于审计人员探索、分析和解释复杂的海量数据,快速从大数据中发现问题。一般来说,采用Benford定律进行大数据审计的流程有:  

  (1)对审计大数据集进行分析,初步判断数据集是否符合Benford定律的分析条件,选择分析的目标字段,如国库集中支付数据的支付金额字段; 

  (2)对总体进行分析,进行首位有效数字Benford定律的符合性测试,初步发现测试线索和重点; 

  (3)根据初步线索,进行首二位,首三位数字的详细分析; 

  (4)在需要的情况下,对数据进行细分,进行分组分析,重复以上步骤深入挖掘; 

  (5)将标准分布概率和实际分布概率进行比较,寻找异常偏差点,并分析出现异常的原因,识别可能的错误,从而发现审计线索。以某县国库集中支付数据为例,利用Benford定律对实收费用“支付金额”字段进行分析,其过程如下: 

  (1)利用SQL编辑器,利用“Benford定律”对支付金额字段第一位数字进行分析,结果如下图。基本符合班副定律,除了以7开头的数值差异较大。 

   

  (2)根据初步线索,进行对以数字7为首的二位数字再进行benford法则的详细分析,具体见下图。 

  最后根据,分析情况定位不符合班服定律的数值分布情况,抽查支付数值以77、73和78为开头的记录进行分析,重点延伸。 

  五、大数据审计的融合发展 

  从近年大数据审计实践来看,各地做了许多有益的探索实践,但还存在一些不足的地方。一是审计数据库资源采集还不够全面。如对所有一级预算单位的财务账套的收集还不完整,对数据的管理应用还不够规范,一些业务处室在开展审计项目时,数据先行的观念还需进一步树立,应尽可能收集与审计项目相关的数据资源,并进行统一管理,进一步强化数据安全存储保障。二是数据分析方面还存在业务与计算机技术结合不够密切的问题。需要充分认识到大数据时代,审计数据分析是集业务、统计和技术为一体的复合型工作,要认识加强业务知识对数据分析的指导的重要作用。 

  (一)持续引入外部数据 

  当前,对内部数据的获取已经逐步完善,形成了一整套较为完整的机制,比如采集的方式、内容和字段等。被审计单位在信息的输入阶段就存在信息失真的可能, 某种程度上加大了审计人员从被审计单位的数据中萃取真实审计信息的难度。外部数据关联分析提供了解决审计人员和被审计单位信息不对称的新途径,应积极探索形成外部数据持续引入机制。如借审计署电子审计数据报送的契机,加大多行业数据的报送机制,丰富现有审计数据中心内容;利用全市政务信息系统调查成果,积极向相关部门采集审计项目需要的业务数据,丰富审计项目中获取的有价值外部数据,建立全市自然资源资产审计数据库等。 

  (二)深化业务与技术的融合 

  审计思路和思维方式的提出是开展大数据审计的关键,需要加大业务知识和计算机技术的深入融合,研发关联分析模型。一是政策分析数据关联模型。依据相关法律法规的规定,将法律、法规的定量、定性规定具体化为分析模型中的筛选、分组和统计等条件。二是业务逻辑数据关联模型。寻找、利用业务处理逻辑关系,建立分析模型发现与业务处理逻辑关系不吻合的事项。三是知识经验数据关联模型。摸索、总结出某类问题的表现特征,将问题的表征转化为特定的数据特征,通过编写查询语句或审计软件来检索查询出可疑的数据。 

  (三)探索引进可视化分析方法 

  大数据分析的使用者有大数据分析专家,同时还有普通用户,二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,容易被读者所接受。大数据环境下,要将传统的验证型思维方法转变到可视化分析上来,通过可视化的自动建模技术将大数据以直观的图形形式展示,帮助审计人员一眼洞悉数据背后隐藏的信息,不再受制于枯燥晦涩的分析算法。 

  参考文献: 

  【1】湖北省审计厅财政审计处课题组,部门预算执行审计全覆盖组织与实施研究【J】.审计月刊,2016(3) 

  【2】郑伟 张立民  杨莉,试析大数据环境下的数据式审计模式【J】.审计研究,2016(4) 

  【3】陈伟 吴正  刘海,基于Benford定律的大数据审计方法研究与实现【J】.审计与鉴证,2016(3) 

  【4】裴文华,大数据环境下财政审计数据分析研究【J】.审计研究,2017(3) 

  【5】维克托.迈尔.舍恩伯格,肯尼斯.库克耶,大数据时代生活工作与思维的大变革【M】 

  【6】盖九宇,商务智能【M】 

  【7】陈泉倩,财政大数据审计思路与方法探究【J】,探索思考 

来源:审计局
附件下载

扫一扫在手机上查看当前页面

相关解读