摘要
“这是一个最好的时代,也是最坏的时代”,随着大数据时代的到来,大数据对审计行业的影响已然避无可避。本课题主要研究三个专题:构建大数据环境下数据关联审计思路与模式、探讨符合大数据环境的审计组织方式、研究大数据审计方法并进行综合案例分析。
大数据环境下数据关联审计模式主要是指大规模地利用大数据的相关信息技术与审计思路相辅相成的审计模式,主要特点可归纳为如“剑”、如“链”、如“网”。其构建路径可分为三个步骤:第一步是利用基础支撑技术对结构化数据进行归集整理,然后分别作用于总体分析技术和疑点分析技术。第二步是通过基础支撑技术进行审计数据在线监测,可以利用SAS Base等工具对实时数据进行归集整理,数据将用于构建审计大数据管理系统,同时也作用于审计及时预警和趋势分析。第三步是全过程中有效的数据和信息的可持续作用,包括源数据、加工后数据及利用数据的分析结果,都将继续作用于审计大数据管理系统的构建与完善,而审计大数据管理系统又将持续助力于日后的审计项目,由此形成良性循环,以提高数据的利用效率。
课题组以抽离和整合两种研究方法为基础,探讨符合大数据环境的审计组织方式—低智型组织和高智型组织。并且在高智型组织下,更为细致地划分为数据驱动型和业务驱动型。数据驱动型是一个持续审计的概念,即收集大量的数据,利用技术自动执行控制和风险评估来分析数据,检测关键的交易系统以发现例外,控制缺陷以及那些凸现风险的数据指标,从审计计划的制定和维护到审计的执行和追踪都可以利用持续审计的分析结果。业务驱动型是根据被审计单位业务的特点选择合适的数据审计方法与组织方式。
课题组重点研究了以大数据分析为基础的审计方法,除了明确总体分析法下的回归分析、多维分析,疑点发现技术下的数据相似度检测以及基础支撑技术下的云计算外,在人工智能审计方法的应用上还提出了IA(Intelligence Augmentation,智能增强)、II(Intelligent Infrastructure,智能架构)以及AA(Automatic Algorithm,自动算法)等新思路,同时也明确判断人工智能审计效果的是大数据、算法和训练时间。2017年普华永道机器人已经在央企(中化国际)中试水完成了首秀,代替了许多税务和财务的工作,效率惊人。此外,通过对大数据的处理和应用,审计也开始伸长触角,触及传统审计所不覆盖的方面,扩大了审计范围,让审计变得“面面俱到”。
最后,课题在以上三个部分的基础上,以N市医疗行业政府审计为例,具体地阐述大数据是如何与审计相联系的,并且达到了据环境下弥补现行审计组织的不足,简化审计流程,提高审计效率,利用“先进”审计方法来完成从事后审计转向事中甚至事前预测的转变等目标。。
【关键词】大数据;审计模式;审计技术方法;数据关联审计;人工智能审计
引言
近年来,随着信息技术飞速的发展,社会的信息总量呈现出爆炸性发展的趋势,海量的信息被创造出来,成为了引发社会生产方式变革的巨大动力,"大数据"(Big data)概念应运而生。
大数据是继云计算、物联网、移动互联网之后信息技术融合应用的新焦点,
将引发各领域生产模式、管理模式和商业模式等变革和创新,对人们生产生活方
式产生深远的影响,大数据时代的到来也为电子数据审计提供了机遇和挑战。
中国将大数据视为重要的战略资源,并将大数据的研究和发展作为新的国家战略。同其他国家相比,中国对于大数据的研究则稍微晚了一点,但发展势头良好。在美国提出有关大数据的研究开发计划之后不久,中国紧随其后,批复了“十二五”规划”以加强中国的政务信息化建设,该工程预计耗资几百亿,涵盖人口、文化、空间、法人和宏观经济五大资源库的建设工程。这预示着新一轮的技术革命浪潮已经蔓延到了中国,中国研究、发展、开放、共享大数据的时代已经到来了。
2012年8月,国务院提出要构建大数据产业链,促进信息消费,突破关键技术,构建大数据研究平台,促进资源整合创新,大力推进大数据服务平台应用示范项目,广东省率先启动了大数据发展战略,推动政府转型,北京积极探索政府数据公开,上海也制定了大数据三年的研发行动计划。11月,Hadoop与大数据技术大会成功举行,这场中国 IT 界的盛会的主题为“大数据共享与开放技术”,大会以大数据的应用及数据安全等为讨论焦点,对大数据的采集、展示和研发具有重大推动作用。
2015年5月,中国政府印发了《2015年政府信息公开工作要点》,提出要重点推进信息公开领域,国企信息的公开是其中的一个亮点。中国80%的数据掌握在政府手中,如何开放这些数据,促进大众对政府数据的加工、利用和创新,从而实现更大的数据价值,是中国政府面临的一个重要课题。
除了政府外,国内学者也正在积极进行大数据技术的研究,并已经涉足科学、金融、电子商务、互联网、制造业等多个领域。中国要加速提升将大数据资源转化为信息知识的速度和能力,提升国家的核心竞争力,争夺大数据技术革命的制高点。
国务院颁布的《促进大数据发展行动纲要》提出全面推进我国大数据发展,实施国家大数据战略。《国务院关于加强审计工作的意见》指出“探索在审计实践中运用大数据技术的途径,加大数据综合利用力度,提高运用信息化技术查核问题、评价判断、宏观分析的能力。”2015年12月8日,中共中央办公厅、国务院办公厅印发了《关于实行审计全覆盖的实施意见》等文件,该文件指出,对公共资金、国有资产、国有资源和领导干部履行经济责任情况实行审计全覆盖,是党中央、国务院对审计工作提出的明确要求。其中,创新审计技术方法是实现审计全覆盖的一个重要手段,要求构建大数据审计工作模式,提高审计能力、质量和效率,扩大审计监督的广度和深度。2015年12月,刘家义审计长进一步在全国审计工作会议上深刻指出:“推进以大数据为核心的审计信息化建设是应对未来挑战的重要法宝,也是实现审计全覆盖的必由之路。”面对这样背景形势,审计大数据如何取、如何存、怎么用是现阶段各级审计机关面临的重要难题。2016 年7 月19 日,“审计数据采集”国际标准部际工作协调小组在北京成立;2016 年7 月22 日,审计署召开了专题研讨会,讨论有关大数据环境下的审计方法。
2017年4月18日世界审计组织大数据工作组第一次会议在南京召开。国内外学术界也高度关注大数据在审计中的应用,会议期间世界主要国家最高审计机关围绕大数据分析和审计成果分享和讨论了世界各国在大数据环境下的审计状况。中国审计署将大数据审计工作总结为“三个集成、五个关联”;美国审计署认为,大量数据和增强数据分析可以为审计界带来许多机会;英国国家审计署则关注于如何在大数据环境下增加数据分析的价值,同时降低分析成本;而来自印度最高审计机关主计审计长公署的代表介绍了其他国家的电子治理(E-governmence),并在此基础上引入数字审计(E-Auditing/Digital Auditing)的概念。
大数据环境下,各国审计模式已然发生改变。正如我国副审计长孙宝厚于会议中所指出的:大数据战略与诸多国家提高国家治理水平、实现社会可持续发展的实践密不可分,各国最高审计机关的目标是促进国家良治、全球良治和全球可持续发展。大数据审计不仅是技术方法层面的创新,更是审计理念、审计制度、人才培养方面的变革,应进一步解放思想,充分树立责任观、系统观、数据观、创新观、人才观,不断推进和完善大数据审计工作。
一、文献回顾
1.1大数据的兴起
大数据,是由数量繁多、结构复杂、类型较多的数据构成的集合体(姜巍,马建光,2013)。大数据之大,不仅仅是指数量多,而更重要的,其蕴含的价值较大。因此大数据在一定的时间内,可以为被审计单位所撷取、分析、整理,并为被审计单位、投资者或其他使用者所用。
不同的文献给出了不同的大数据的定义,最常见的定义有世界著名咨询机构麦肯锡公司发布的《大数据:创新、竞争和生产力的下一个前沿领域》,把大数据定义为:大数据指的是大小超出常规数据库工具获取、存储、管理和分析能力的数据集(Manyika,2011)。Gartner把大数据定义为:大数据是具有大容量、快速、和(或)多样性等特点的信息资产,为了能提高决策、洞察发现和流程优化,这种信息资产需要新形式的处理方法(Gartner,2012)。2015年国务院印发的《促进大数据发展行动纲要》文件中指出:大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。概括来说,大数据主要具有大量(Volume)、多样性(Variety)、快速(Velocity)、真实性(Veracity ) 4 个特点(Gartner , 2012; Science , 2011 ; Chen , 2014)。大数据分析需要一些能在有限的时间内对大量数据进行有效分析的技术,为了充分从大数据中挖掘有用的信息,不同种类的大数据技术被研究出来,这些技术覆盖了计算机科学、统计学、经济学等学科。同时,一些用于分析大数据的工具也被开发出来(Chen,2014 ;Melnik,2010; Gulisano,2012)。
大数据与审计在实施过程的步骤上有着一定的相同点。大数据的数据处理需要经过数据的收集,处理、统计、分析、挖掘的过程;而审计同样需要经过数据
的收集,处理、统计、分析、挖掘的过程从而得出结论。从某种程度上来说,大数据给审计带来了变革和机遇。
1.2大数据环境下审计模式的变革
大数据是 IT 产业新一次的具有颠覆性意义的技术革命,有学者认为未来审计的第一环境要素是科技,科技手段的改进能够带来审计模式的变革,并据此研究了互联网大数据新技术在审计工作中的应用。
Kogan(2014)尝试通过更加频繁的数据采集来建立一个连续性的审计评价系统,这套系统并未在使用的数据范围上进行扩充,采集的仍然是传统审计中审计人员做出审计评价所依据的基础信息,但通过频次的增加达到了连续性数据分析的需求,并未推动审计数据向非财务数据领域扩张。
安永(2015),未来的审计与CFO们所熟悉的传统审计具有很大的差异。审计组织方式将随着科技与分析手段的革新在5到10年内发生较大变化。数据分析、新技术和更为详细的行业信息将结合起来,帮助审计人员更好地理解组织业务流程,识别风险和问题,并提供额外的鉴证意见。大数据带来的全面审查和分析能力避免了抽样风险,将有助于增强审计人员及审计信息使用者的信心。
德勤董事长兼CEO Joe Ucuzoglu称德勤已投入数亿美元在数据分析和人工智能的一些前沿应用上,他坚信这些工具极大地提升了审计能力,扩大了审计范围,更快地识别审计风险,帮助审计人员更高质高效地完成审计任务,为客户提供更高层次的洞察力。
而我国学者严晓健(2012)、吴多魏(2013)、严巍、周岚(2015)、魏详健(2015)等结合大数据、云计算等互联网新技术的数据分析优势分析了其在审计工作中各方面的应用途径,并认为将云计算、大数据等新技术应用到审计工作中的新模式将会促成审计技术的重大变革,对被审计单位的信息化建设水平也会提出更高的要求。
有人会疑惑,会计、审计领域的专家们,花费大量人力物力,研究大数据、引入大数据、应用大数据,那么大数据到底有什么好处?
Christine E. Earley(2015)认为,在会计师审计中利用大数据开展数据分析具有四个优点:扩大了审计人员的审查范围;通过更深入的洞察客户业务流程,提升了审计质量;更容易发现欺诈舞弊行为;通过引入外部数据,审计人员有能力为客户提供更多的服务,解决更多的问题。而大数据应用在会计师审计领域面临的挑战,Christine将其归结为三个方面:审计人员相关知识技能的培训;获取数据的可用性、相关性、完整性风险;监管方和财务信息用户的过高期望。
不过“金无足赤”,尤其是对于大数据这样的新兴事物,在引入的初期阶段,必然有不少的干扰因素。
Michael Alles、Glen L. Gray(2016)进一步深入分析了大数据应用于会计师审计领域的制约因素,并提出了改善意见。他们认为制约因素主要包括:审计人员需要直接接触客户的数据,可能存在误操作影响客户数据以及接触不当数据的风险;可能遗漏确切证据的风险;提出特定的数据需求可能暴露审计人员的意图;数据及数据分析的结果都可能是海量的,需要审计人员掌握专业技能及更敏锐的经营思维。而具体的改善意见包括采取渐进式引入数据分析、利用现有软件和廉价计算资源提升分析能力、利用内部审计的机会锻炼应对海量非财务数据的能力、协调大数据供应商开展相关技能培训等。
大数据的出现,是具有颠覆时代的意义,将它应用于审计领域,传统审计思路与模式将会有突破性的变化
张侠、刘军(2010)指出在大数据时代背景下,审计将逐渐向以分析、预测等为主的审计转变,逐渐完成从事后审计、现场审计、分期审计分别向事中和事后审计相结合、远程审计、实时审计的转型。
隋学深(2013)指出大数据的多元异构、跨领域关联等特征,将给未来审计带来变革性的影响。在认可了大数据将是审计的重要战略资源的基础之上,还提出大数据将提升审计对经济社会风险预警能力,大数据将带来基于全数据模式的审计思维变革以及审计大数据分析将是审计重要战略技能的观点。
王海燕(2013)指出大数据时代背景下,审计范围正在逐渐扩大,由最初被审计单位账本上的结构性数据,发展到业务数据、电子数据等非结构性数据。当前,我国审计机关已经将大数据技术应用于社保、住房公积金、税收等多个行业的审计中并初见成效。
从互联网到金融机构,从被审计单位到政府,大数据时代的冲击带来了新一轮的技术变革和思维风暴。随着云计算、数据挖掘等技术手段的推广应用,大数据时代对审计的影响不仅局限于表层,更是在组织管理等多个方面带来深远的影响。
陈小龙(2015)指出大数据环境下,单兵作战、单系统分析、单审计项目应用已经不能适应审计发展的新需要。要着力树立大局意识,有效整合资源、形成合力,建立多部门、多系统、跨行业的大数据审计资源,从而实现在组织架构、现场管理、数据资源、信息传递等多方面的审计大协同作业。
朱瑜亮(2016)认为由于大数据的影响,审计组织方式已经开始从项目主导向数据主导转变。与传统以项目为主导的审计模式相比,数据先行模式具有较强的优越性。以部门预算执行审计项目为例,采用这样“全数据”的分析方式,一是拓宽审计覆盖面,使一级预算单位的全覆盖审计成为了可能;二是加大了审计频率,原先几年一审的部门可以做到一年一审;三是提高了审计深度,如通过对各部门之间某类指标或事项的横向比较分析,了解整体情况,使审计结果由过去主要反映单个部门问题转变为对所有单位普遍性、倾向性、全局性问题的集中揭示;四是打破了审计业务部门界限,通过数据分析小组的组织方式,加强业务交流,提高审计人员跨行业审计能力。
审计技术和方法是审计实践经验的总结,审计工作中采用的审计技术与方法直接影响到审计的效率与效能。一部分学者关注审计技术与方法自身,一部分学者则侧重研究审计技术与方法所需要的环境条件。
吕劲松(2017)认为,对于外部网络资源数据,可以采用爬网技术,例如,使用Nutch、Heritrix等工具,通过网络爬虫或网站公开API等方式,根据设置好的爬网作业从指定的网站将非结构化数据抽取出来,通过相应的转换处理,以结构化方式存储到审计云平台中。此种方式也支持图片、音频、视频等文件或附件的采集,并将附件与正文进行自动关联。
陈伟(2017)指出,在大数据的推动下,数据可视化的内涵和外延都有了明显的变化,逐渐由单纯的展现演变为报表、分析和展现的综合体。目前,数据可视化工具主要包括:(1)开源的、可编程的工具,如R语言、D3.js、Processing.js等 。(2)商业化产品,如Tableau、Qlikview、SAS、SAP Business Object水晶易表、IBM Cognos等。数据可视化技术可以更简洁的表达大数据环境下海量的被审计数据中内在因素的模式和关联,快速从大数据中发现问题。
对审计环境变化下审计发展的方向,不同的学者从不同的角度进行了研究分析。归纳起来看,学者们研究的焦点主要集中在云计算、物联网、大数据等互联网新技术对审计带来的挑战以及相应的影响方面。
张侠、刘军(2010)提出,被审计单位的信息化平台由于自身漏洞导致了风险,应当将信息平台纳入审计内容,同时,由于大数据应用提高了审计效率,审计人员能够扩大审计覆盖面。而计算机辅助手段在大数据环境下得到了很大的提升。
丁丽娟(2010)、张文宗(2014)都认为,大数据环境导致审计对象的介质发生了改变,由纸质资料转变为电子数据,除了财务数据之外的其他业务数据也纳入了审计的视野。大数据技术的应用,将对政府审计作业流程进行优化。
顾洪菲(2015)从审计数据分析的角度研究了大数据的影响,主要包括“样本=总体”的数据分析模式提升了分析的精确性,基于软件和模型的流处理方式能够实现实时分析,提高了审计效率。并就数据结构、分布式处理、机器学习和数据可视化等方面提出了应对措施。
杨爱梅(2015)]结合审计监督全覆盖理论,研究了大数据带来的机遇和挑战。一方面审计拓展到了被审计单位的海量数据,不运用大数据技术辅助,审计工作无法开展;另一方面,大数据应用拓展了审计人员的思路和视野,使审计人员既能够看到微观细节,又能够把握宏观总体情况。审计人员必须转变思想、改进方法、拓展视野以适应审计全覆盖的要求。
郝煜华(2015)、贺晓华(2015)、龙前朋(2015)、秦荣生(2016)等认为“互联网+”时代正深刻影响着我国社会经济的发展,并进一步影响审计的发展趋势。大数据、云计算、物联网等互联网新技术对审计的理念、审计方法、审计方式、审计技术、审计管理等都产生了影响,推动着审计的变革发展。
马亮(2017),大数据所依赖的海量数据和复杂模型并非简单、无偏和客观的数学问题,对它们的分析和解读仍然取决于一个个具体的人。这意味着,大数据技术实际上是被谁使用、为什么和如何使用,变得至关重要。
冯聿梦(2017)大数据审计模式下,相较于传统纸质证据,电子数据具有易篡改、不易保存等特点,应当有针对性的设定程序以保证审计证据的可靠性。不仅要取得电子数据本身作为证据,还要把数据结构文本以及审计人员分析数据的思路、方法和编写的程序作为审计证据的一部分。大数据审计应进一步明确数据采集、分析、查询等权限和程序,确保审计证据取得方式的合法性。
1.3小结
综合国内外专家学者的研究成果可以看出,大数据时代的到来加速了人类的信息化进程,同时大数据已经开始渗透到各个国家,各个行业领域以及各个社会层面,成为极其重要的生产要素和宝贵资源。研究者们对大数据影响审计领域的研究与分析各有千秋,但是求同存异,大都指向一个方面,大数据时代下,审计的大环境、方法和内容、以及思维模式都将有所改变,审计会朝着持续审计、实时审计的方向发展,大数据时代下审计必将迎来巨大的发展机遇期。还有一部分研究人员主要集中在大数据应用于审计工作的技术研究。不过,虽然关于大数据对审计思路与模式的改变等已有了不少研究,但是甚少提及,或者具有针对性地研究大数据对于审计组织方式的影响。并且,大数据应用审计领域尚处于新兴阶段,许多技术仍在研究阶段,或者是在试用阶段,还不够成熟,相关的信息系统、信息平台也仍在不断完善和构建的阶段,大数据技术在审计领域还有很大的潜力等待挖掘。
二、构建数据关联审计思路与模式
2.1大数据环境下审计思路与模式的变化
大数据时代,是互联网时代发展的新阶段,几乎所有的人、事、物都能够数据化,进而被分析。大数据的触角已经触及社会的各行各业,给现行审计工作带来了不容小觑的影响。面对大数据的势不可挡的扩张力,各类经济组织的数据量呈现爆炸式增长,且其数据种类与数据结构愈加复杂。一方面,大数据环境为审计工作,提供了更为丰富的数据量,配合相关工具,审计工作的开展也有了更多的可能性;而另一方面,如何用好大数据这把利刃也给审计工作人员带来不少的挑战,催促着审计人员顺应变化而作出改变、突破,同时也意味着相应的审计思路和模式也要尽快作出变革。
构建数据关联的审计思路与模式的主要变化体现于以下三个方面:
第一、由事后监督向实时监督、预警预测转变。传统审计主要是事后审计,即满足审计信息的汇总和整理,审计分析被审计单位过去的财务管理状况。但在现行大数据关联的审计工作中,除了事后监督外,主要的作用是在于作出实时预警,事前预测。经过海量的数据分析,形成对特定审计问题的裁判预测,进行同案类推,甚至对审计时长、难度、证据要求、审计风险等进行预判。并且,通过联网审计可以对审计监督对象进行实时监督,通过对累积触发类问题设置阈值,就能够在问题发生前,对审计监督对象提出预警信息。
第二、审计证据(验证数据)来源从内至外,由抽查转为全面审计。审计机关可以通过建设审计云和大数据审计平台实时采集和整理各种内外部数据,如互联网大数据、被审计单位数据和审计机关的内部数据。大数据通过对内外部,多领域的数据汇总、整合和分析,将数据信息,由“点”连成“线”,再由“线”织成“网”,从而服务于宏观分析。大数据所带来的一系列技术创新、应用创新,以大数据平台、云计算等计算为基础,使得许多传统审计工作过程中的那些“心有余而力不足”的审计思路和程序得以实现,部分原本未纳入会计核算的元素将能够纳入核算。得益于大数据关联审计的宏观性,审计的覆盖面得到极大的提升,很多抽查工作将转为全面审计,也因此提高了审计的效率和可靠性。
第三、审计阶段模糊化。在大数据环境下,通过数据关联可以随时进入审计各环节,数据分析结果甚至可以成为其他审计立项的依据来源。传统环境下的审计准备、实施、终结阶段的划分将模糊化。其中,审计的准备阶段的差别比较明显,基本不需要再去调研被审计单位的信息系统情况。采集数据,列报提供资料清单等环节可被省去,换而借助大数据相关工具,直接依照以往的成果来开展工作,只需要被审计单位提供相对于传统审计很少的一部分变动情况资料;而实施阶段主要体现在随时都可能介入这一变化上。例如,在联网审计的过程中,一旦发现了某个问题,是有可能能够马上带着通知书进点核实的;至于审计结果阶段的变化,没有前面两者那么明显,主要是阶段性的重复利用。
2.2大数据环境下数据关联审计模式的路径设计
数据关联审计模式,主要是指在大规模地利用大数据的相关信息技术与审计思路相辅相成的审计模式,主要特点如下:
一、大数据关联审计模式如“剑”,在大数据时代,各类经济组织的数据量呈爆炸性增长,种类和结构也愈发复杂,但数据量大并不表明所有数据都能够被运用,反而有时数据的这种庞大性会给审计工作带来迷惑和干扰。而大数据关联审计模式,能够在庞大的数据群和孔多的信息中,精确定位,找到最重要、最关键的风险点,“剑”指问题所在,提高审计工作效率。
二、大数据关联审计模式如“链”,提高审计信息间的关联性,使审计信息彼此联系并产生协同作用。大数据在处理大量碎片化、弱相关的数据时,通过深度关联和交叉验证,产生镶嵌理论效应,即“信息拼版的价值高于其组成部分各自价值的总和”,大幅提高审计穿透力,“链”接问题的所在。
三、大数据关联审计模式如“网”,相较之前两个特点,大数据关联审计模式“网”罗问题全景,能够帮助审计工作从宏观上把握方向、识别风险。并且能够通过对各领域数据的汇总、清洗、整理,筛出有效信息成为关键“点”,由“点”连“线”,以“线”织“网”,进而实现审计全覆盖。
图2-1 大数据环境下数据关联审计模式的路径设计图
如图2-1,设计思路如下:
首先,审计大数据平台,将要处理的数据划分为结构化数据和非机构化数据。结构化数据即为能够用数据或者统一结构加以表示的信息,比如数字、符号等,可以说是最源头的数据库;与之相对的非结构化数据,就是一些无法用数字或统一的结构表示,比如常见的文本,图像,声音,网页等。而以各式形态呈现出来的非结构化数据,大部分是难以直接作用于大数据相关技术进行分析。因此,当审计大数据平台收集到大量数据时,需要先将数据进行分类,并将非结构化数据通过数据的处理与转换,变为结构化数据。不过,并非所有的非结构化数据都转换为结构化数据,如图片类非机构化数据,往往通过三个步骤:(1)数据接口(2)深度学习、机器分析(3)数据进行图像可视化展现,进而构建审计大数据管理系统,更为理想的做法是该审计大数据管理系统还将作用于大数据审计的预测推荐行为,即及时预警和趋势分析。
其次,一方面利用基础支撑技术[1]对结构化数据(包括由非结构化数据转换而成的结构化数据)进行归集整理,然后分别作用于总体分析技术和疑点分析技术。
1、总体分析技术。主要是利用数据加工工具SQL EM、CLEMATINE等进行数据挖掘,例如,可以通过编写相应的SQL语句,对审计敏感事件(如被审计单位应收(付)账款大额增加与减少的业务),进行筛选、分析,从而确定审计的重点对象;通过多维分析(OLAP)和聚类分析等手段来分析数据之间的关联;同时还会利用工具R、Python算法包等对结构化数据进行提取、处理、转换为结构化数据,再进行数据的挖掘与分析;其中会触及一些非结构化文本数据,如APP、PC-Web等中的一手文本数据,便可利用JS SDK、C++或者自己编写的算法程序等对其进行挖掘和分析。
2、疑点发现技术。主要是利用工具Python算法包、C++等工具,以及数据相似度监测、审计业务模型、GIS在审计中的应用等方法,来分析挖掘数据中隐含的异常信息(即审计疑点)。
接着,另一方面是通过基础支撑技术进行审计数据在线监测,期间可以利用SAS Base等工具对实时数据进行归集整理,所存数据将用于构建审计大数据管理系统,这一方面的工作主要作用于审计及时预警和趋势分析。例如,某一单位一项支出不合格。原来是需要审计时提出整改,可是通过联网审计,这笔支出一产生,就可以马上发出预警,告知对方,令其整改。不仅如此,预警功能又能基本依据趋势分析,通过大量历史数据的二次利用,审计人员能够分析发现某种变化趋势,作为历史数据(过去)与预测数据(未来)的一个关联证据链,使前后形成连接。这种趋势或能够及时预警,或能够帮助审计人员不断更新调整审计方案,以更好地适应多变的审计环境。
最后,值得一提的是,随着大数据时代的到来,信息爆炸已经累积到了一个可以引发变革的程度,当前全球和我国大数据都呈现了井喷式增长,令人兴奋的同时也令人担忧,井喷的数据,让人应接不暇,如何处理成为一个问题,以及随之而来的信息安全问题也不容小觑。审计大数据平台未来可能遭遇的井喷数据处理问题,可以借鉴腾讯弹性伸缩的高效SET模型[2]。腾讯数据之大,不言而喻,但正是这SET模型服务器架构为腾讯运营提供了标准化、规模化、模块化、透明的服务器部署能力,使得腾讯在天津大爆炸事件中可以做到大规模的用户无感的数据迁移。在SET模型里,每一个SET内部都可以扩展,既承载几千万客户,也可以扩展承载上千万客户,并且多个SET可以平行运转。这样使得可管理性、可度量性大大增强,自动化部署和自动化运维会非常快,特别适合井喷数据的问题处理。当计算机网络成为社会生活不可或缺的一部分,电子信息逐渐代替大部分的纸质文件,每天也需要面对层出不穷的黑客的攻击,信息安全面临前所未有的挑战。不过,兵来将挡水来土掩,例如当应对恶意进攻时,如果能把这些数据汇集以后进行用户画像,那么画像的价值将是巨大的,能够有效地应对团队的挖掘和打击,而这样的画像主要是基于一些大型图挖掘的算法或技术平台。最终,全过程中有效的数据和信息,包括源数据、加工后数据及利用数据的分析结果,都将继续作用于审计大数据管理系统的构建与完善,而审计大数据管理系统又将持续助力于日后的审计项目,由此形成良性循环,以提高数据的利用效率。
三、大数据分析为基础的审计组织方式
3.1现行审计组织方式的不足
3.1.1组织方式缺乏灵活性,审计力量难以科学分配
就项目计划而言,现行的项目计划制定方式为各级审计机关在年初拟定,报上级审计机关及本级政府后实施,不得随意调整。也就是说当年的审计监督实施对象在计划制定时就已经确定。虽然计划的制定经过了审计需求调查、可行性分析等步骤,具有一定的科学性,但由于审计监督对象点多面广的特征,审计需求调查很难全面覆盖所有审计监督对象,只能采取抓重点领域、关注重点资金、把握重点部门等方式。而审计监督对象的违规行为又存在着很大程度上的随机性、不确定性,违规类型更是多种多样,难以穷尽。仅依靠某一时点的调查评估确定审计计划,无疑将造成部分单位成为审计盲点、“漏网之鱼”。
3.1.2审计资源重复投入,审计成果无法充分利用
审计资源重复投入的一种表现形式是数据资料的重复采集。按照项目制的管理模式,每个项目成立审计组负责审计实施,在实施阶段,为了获取审计评价的依据,审计组投入大量的审计资源获取被审计单位的相关数据资料,包括大量的结构化、半结构化、非结构化数据。获取这些数据在本项目中,发挥了其对该项目审计事项的鉴证价值。项目结束后,被认为与审计结论相关的数据资料以审计证明材料的形式得以归档保存,而被认为与审计结论不相关或是不重要的数据资料,则被审计组清除。在这过程中,为采集相关数据而投入的审计资源很有可能被浪费。
审计资源重复投入的另一种表现形式是审计事项的重复评价。这体现在不同的审计项目中,出于不同的审计目的,可能对同一审计事项进行了重复的审计评价。例如在对某单位的预算执行审计中,对其中一类经济事项进行了审计评价,在后续的该单位领导人经济责任审计中,可能对该事项再次进行了审计评价。
3.2大数据背景下的新兴审计组织方式
近年来,从互联网到金融机构,从被审计单位到政府,大数据时代的冲击带来了新一轮的技术变革和思维风暴。被审计对象数据的信息种类结构不断丰富、内容不断扩展,大数据时代的影响正不断向国家审计领域蔓延。随着云计算、数据挖掘等技术手段的推广应用,大数据时代对审计的影响不仅局限于技术层面,并将在组织管理等多个方面带来深远的影响。
对于已有经验和数据,可以从抽离和整合两个角度入手进行研究分析。抽离,是指对经验的研究分析,而没有从人和经验学习互动的细节入手去研究经验的作用。它是把经验视为一个相对独立的工具,研究这个工具自身的特点和局限性。而整合,研究经验不仅仅只是研究经验,而是以经验问题为原点,整合跨学科领域知识来分析问题。这跟查理?芒格的思维模式很像,即当遇到一个问题时,解决办法不应当局限于这个问题所在的学科,而应当将所有与该问题相关的知识,都拿来解决这个问题。
本文的审计组织方式就是在这两种研究方法的基础上构建的。通过这两种研究方法,笔者认为审计组织方式可以分为低智型组织和高智型组织。
低智型组织是由于被审计单位类型相似,因此在既定的审计模式下,不考虑重新根据被审计单位自身的特点进行适应性改变,不求理解该审计模式的因果结构,直接复制和使用,换句话说就是看到别人运用该种审计模式取得成功之后直接拷贝来自己运用。低智型组织最大特点就是模仿,分为整体模仿和部分模仿。对于整体模仿而言,没有任何的思考成分在其中,只是单纯的直接运用整个审计套路;而部分模仿,则是略有思考——分辨在选择的审计方式中,可以直接“复制粘贴”的思路和规则有哪些,之后则无差别地选用。
在审计过程中,低智型组织是大多数审计单位的选择。确实,有时候只要合适,直接套用也无妨,这不失为一种节省时间的做法。但是,低智型组织还是存在一定局限性:(1)很可能模仿的因素并不可靠;(2)经验可能越用越没用。因此,审计组织方式如果仅仅停留在低智型组织的层面上,肯定是不够的。毕竟不是所有的被审计单位都适用相同的审计模式,盲目的套用只会导致工作效率低下。这时候人们就开始倾向于高智型组织。高智型组织不仅仅是直接模仿别人审计的行为,而是在低智型组织的基础上,分析审计优秀成功的原因是什么,探究因果关系,并且根据被审计单位自身的特点,对已有的审计模式进行修改后使用或者重新构建新的审计模式体系。在高智型组织下,我们将审计组织方式分为两种:数据驱动型和业务驱动型。具体逻辑图型见下图3-1。
图3-1 大数据背景下审计组织方式逻辑图
(一)数据驱动型
收集大量的数据,利用技术自动执行控制和风险评估来分析数据,检测关键的交易系统以发现例外、控制缺陷以及凸现风险的数据指标,从审计计划的制定和维护到审计的执行和追踪都可以利用持续审计的分析结果,即建立一个持续审计系统。并且将持续审计系统的作用划分为两个层次:第一个层次为基于使用习惯下的及时预警;第二个层次则是通过数据的潜在趋势作出的前瞻性预测。
1、基于使用习惯
对使用者习惯的仔细观察,也能助攻提高事前预测和事中预测的准确度。每个被审计单位都有自身财务处理的特点和习惯,如果审计人员能够仔细观察和了解被审计单位的财务处理习惯,从数据中发现事实,实现查询验证型数据分析的审计逻辑判断,很有可能就会发现该被审计单位进行财务处理时所存在的问题,而这就能为审计人员在事后审计时省去不少的时间和精力。此外,这样的做法也有利于被审计单位及时改正存在的漏洞和疏忽。
2、卓见驱动型
说的通俗一些,卓见驱动型,就是“透过现象看本质”。卓见驱动型从狭义来说,可以认为是“验证性分析”。因为面对不同类型的被审计单位,不能运用同一种“套路”去进行审计,那样过于费时费力。随着科技的发展,审计人员可以利用大数据,从大量数据中发现数据模式,预测趋势和行为的数据分析模式,它能挖掘数据间潜在的模式,发现用户可能忽略的信息,并为审计人员做出前瞻性的决策提供帮助。
以中国移动广东公司为例。
1、持续审计信息系统的搭建
中国移动广东公司专门购置了一台100T容量的小型机作为物理独立的专有持续审计设备,满足2个月的原始数据存储和3个月的输出数据备份要求,拥有每个月亿万级别文件量,20多T数据量的处理能力,基本满足各业务系统原始数据3日内实时传输。通过以上措施,持续审计系统实现了话单和数据库表的实时采集,能够在各业务系统数据传输后的5日内完成审计发现的自动判断及统计,极大提高了审计效率。
2、持续审计系统模型
数据式审计数据的分析可分为两个层次,第一个层次是基于使用习惯,固化到持续审计系统的审计程序将会以设置在系统中的健康度数值为阈值,自动排查审计发现的问题,一旦超出阈值将会直接自动触发持续审计预警体系。能够做到100%发现销售的每张充值卡可能存在的问题,不留审计盲区。第二个层次是卓见驱动型,它是指用户从大量数据中发现数据模式,预测趋势和行为的数据分析模式,它能挖掘数据间潜在的模式,发现用户可能忽略的信息,并为审计人员做出前瞻性的决策提供帮助,因而实现的是验证性分析。
3、平台展现与主要特点
(1)整体展现“审计”化
平台以审计报告模式作为展现界面,突出审计逻辑、发现审计问题、风险分析及问题剖析。
(2)审计结论智能化
平台无需人工复核查定,自动定位问题原因,加快审计成果到公司运营管理提升力的转换速度。
(3)监控级别层次化
(4)指标设置灵活化
通过风险评估、专家评审、历史数据测算等方法,确定监控点的量化指标、评价分析范围及预警标准,建立模块和指标增加、更新和退出机制。
(5)分析维度精细化
以管理控制作为侧重点,多维度、精细化数据分析。
(二)业务驱动型
业务驱动型与数据驱动型的差别在于,业务驱动型是根据被审计单位业务特点选择合适的数据审计方法与组织方式。某些行业或者业务具有较鲜明的特点,或者财务模式较为单一、一致,这时候审计人员大可不必特意费心利用大数据来对这些被审计单位进行创新性审计,反而可以利用已有的审计方法与组织方式,对这些被审计单位进行有效的审计处理,这样的“套用”和低智型组织是不一样的,业务驱动型对审计组织方式的选择都是“优中选优”,是选择和被审计单位特点高度符合的审计组织方式,能够促进审计工作高效完成。例如,CM公立医院床日消耗标准成本案例研究这个案例中,建立了相应的标准成本后,其他公立医院就可以参照这个程序简化财务流程,提高效率。同时,审计人员也可以直接利用这个标准成本在对医院的审计中,简化工作流程,根据相关的资料进行分析与处理。CM医院的案例具体内容参见附录一。
低智型组织和高智型组织都让审计从事后转向事中甚至事前预测,将结构化、非结构化的多种数据源转换为可靠的、面向主体的审计可用信息,对经过清洗转换的审计数据运用分析工具开展数据挖掘,以便发现深层次、苗头性、倾向性的审计问题,强化审计监督的深度。也能够指导处于大数据环境下的组织通过加强内控制度等方式来避免出现问题。只不过一个是照搬原有的审计模式,一个是加入了审计人员自己的思考从而有了创新。但是具体要选用哪一种组织方式,还要看审计人员审计的相关被审计单位。
四、大数据分析为基础的审计方法
大数据环境下,以ERP为代表的各类信息系统开始兴起。经济组织信息系统已经由单一的会计信息系统拓展到了业务、日常管理、决策支持等多维度的综合信息系统。由于各类信息系统的采用,原有审计方法体系对审计风险的评价方式、业务流程介入方式、审计取证对象等都发生了变化,审计疑点的发现也必须依赖对数据的分析处理,单纯对会计账簿的审查已经难以满足审计目标的需求。因此,需要将大数据与审计方法联系起来。
4.1 总体分析技术
总体分析技术,主要用于对被审计单位海量数据的处理,用于提取关键信息,以提升数据的可理解性,增强数据展示效果,帮助审计人员更好地掌握被审计单位相关事项的总体运行情况、基本特征,更好地切入关键环节,并拓展审计成果的宏观性、趋势性。代表性技术方法有回归分析、多维分析(OLAP)、聚类分析、人工神经网络、非结构化数据提取等知识发现技术。
4.1.1 回归分析
回归分析是处理变量与变量之间关系的一种数学方法,它侧重于考察变量之间的数量伴随关系,并通过一定的数学表达式将这种关系描述出来,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响程度。相对于传统的分析法,回归分析法的突出优点在于可计量的风险和准确量化审计人员的预期值,即能够准确的估计预期数据值,能够准确的判断严重偏离的波动。更重要的是,回归分析法并不过多地依赖于审计师的经验,一般审计人员也可以进行准确的分析。在大数据时代背景下,回归分析需要的参数值,包括后面一系列预测计算,大多数是应用统计软件,甚至现在一些审计软件都具有简单的回归分析,将历史数据资料输入,就能够完成分析和预测,这样说回归分析逐渐在审计中受到重视的原因之一。
4.1.2 多维分析(OLAP)
基于OLAP的审计信息系统主要包括审计数据仓库、审计联机分析处理、审计业务管理、审计告警和专家经验库等5个子系统。
(1)审计数据仓库子系统为整个系统提供有效的数据来源,它对用户是不可见的;
(2)审计联机分析处理子系统主要包含审计分析、审计计算、查询、抽样等数据分析功能,数据完全来源于数据仓库;
(3)审计业务管理子系统包括形成审计日记、工作底稿、审计报告等业务管理功能,为用户提供一个完整的审计业务处理环境;
(4)审计告警子系统是对从被审计单位动态采集到的数据,应用数据分析规则,对异常反应的数据向审计人员发出警报;帮助审计人员大幅缩小可疑的审计范围,大大提高审计效率;
(5)专家经验库子系统是将被审计单位的历史采集数据、有关告警内容、计算指标、审计形成的有关文档和结论等保存下来;为新的审计告警指标提供参考的依据,并在此基础上逐步提高系统的智能化程度。
审计最重要的业务特征是需要对特定的被审计数据集合,通过多个不同角度的观察, 以找出数据集合中的可疑之处,即“鸡蛋里面挑骨头”。而OLAP 从多维角度进行数据分析的最核心的特点,恰恰与审计最重要的业务特征相吻合。
4.1.3 聚类分析
聚类分析是把一组个体按照相似性归成若干类别, 目的是使得同一类别的个体之间的距离尽可能地小, 而不同类别的个体间的距离尽可能地大,该方法可为不同的信息用户提供不同类别的信息集。如审计人员可运用该方法识别密集和稀疏的区域, 从而发现被审计数据的分布模式, 以及数据属性间的关系, 以进一步确定重点审计领域。被审计单位的财务报表数据会随着被审计单位经营业务的变化而变化,一般来说, 真实的财务报表中主要项目的数据变动具有一定的规律性, 如果其变动表现异常, 表明数据中的异常点可能隐藏了重要的信息, 反映了被审计报表项目数据可能存在虚假成分。
4.2 疑点发现技术
疑点发现技术,主要用于对数据的分析处理,发现数据中隐含的异常信息,形成审计疑点。包括数据相似度检测、业务模型、审计经验模型、专业性处理软件与审计方法的组合创新技术(如Google earth、GIS在审计中的应用)等。
4.2.1 数据相似度检测
针对不同数据源的中的数据可能存在重复数据,从而造成财务舞弊,将数据匹配技术引用到审计证据获取中来检测相似重复数据,给出了数据中不同类型的字段相似度检测方法,重点研究了中文字符字段的相似检测算法,并进行了算法验证。
4.2.2 专业性处理软件与审计方法的组合创新技术
这里以GIS在审计中的运用为例。GIS即地理信息系统(Geographic Information System简称GIS)是一项以计算机为基础的新兴学科,是管理和研究空间数据的技术系统。它利用计算机建立地理数据库,将地理环境的各种要素,包括它们的地理空间分布状况和所具有的属性数据,进行数字存贮,发展各种分析和处理功能,建立有效的数据管理系统,通过对多要素的综合分析,方便快速地获取信息,满足应用或研究的需要,并能以图形和数字的方式来表示结果。
以下某市应用GIS开展土地收储情况的审计为案例来分析。
为更好发挥审计监督职能,2010年对某市本级2002-2009年储备土地利用情况进行全面清理,为节省审计成本,更好地审查反映徐州市土地的储备和利用情况,在审计过程中,审计组通过某市的城乡一体化地籍管理信息系统的六个子专项系统即:勘测定界管理信息系统、土地征收管理信息系统、土地储备管理信息系统、土地地价管理信息系统、土地供地管理信息系统、土地出让金管理信息系统,利用计算机整合收储土地和出让土地宗地图电子信息,采用图籍叠加,面积计算及距离丈量等功能,对每一块收储土地从收储、规划、出让的全过程的审核,将收储宗地图、出让宗地图、建设用地规划图,三图叠加,对收储土地的利用情况进行了全过程审计。彻底查清了某市土地储备情况以及政府对城市建设的投入收储资金的情况,发现部分收储土地处置后剩余土地未纳入库存土地管理,为某市新增了库存储备土地。对土地储备及处置情况进行了绩效审计分析,出具的分析报告被市委书记批示,要求加强土地收储构成情况的统计分析,进一步研究提高土地收储效率的办法。并且使得某市进一步整合城乡一体化地籍管理信息系统工作平台,提高土地收储、处置效率,彻底解决收储、及挂牌处置土地的地界不清问题。
本次审计,审计人员对如何在土地储备审计中灵活运用GIS软件系统等现代信息化技术进行了初步尝试,提高了审计成效,保证了审计的效率性、客观性及合理性。利用计算机结合国土资源局城乡一体化GIS系统对收储土地利用情况进行审计,是科学发展的审计工作趋势。通过该审计技术创新能够更便捷、清晰、直观的反应收储土地的实际利用情况,在审计过程中,可以节省大量的审计时间和审计资源,能更全面、准确、有效地控制审计效果。
4.3 基础支撑技术
基础支撑技术,主要用于为总体分析技术、疑点发现技术提供基础支撑、效率提升功能的信息化技术。包括:归集各类数据并进行清洗整理的数据仓库技术,为其他数据分析提供了数据基础;云计算与云平台,解决数据分析的计算效率和资源分布问题;联网审计技术,为审计动态实时监督、及时预警提供了技术平台;移动办公平台为审计现场与审计机关的安全远程数据交互提供了无线网络支撑。
4.3.1 云审计
云审计是利用互联网的云计算概念,通过数据的云存储,使得各种审计资源(参与审计的人员、程序和相关的硬件设备)通过云来协同,从而为审计人员提供更富有效率,更科学的审计过程。
4.3.2 联网审计技术
联网审计,是内部审计机构或人员通过计算机远程访问、调用被审计单位的财务会计资料、业务数据资料及其所反映的经济活动,按照一定的程序,利用辅助审计工具实时检查和评价相关资料及其所反映的经济活动的真实性、合法性、效益性以及内部控制的健全性、有效性,对于风险不断加强管理,逐步增强组织的价值性,组织目标实现独立性,从而进一步实现经济监督和审计评价活动。联网审计的界定是将审计部门跟被审计的单位进行网络相互链接以后,通过对被审计单位的财务管理状况、具体的信息内容进行合理科学地测量评估,迅速、高效地对相关信息和数据进行采集、归纳和分析,并在此基础上对被审计单位的财务收支是否真实、合法进行全面、适时、远程监督检查。
4.4 人工智能
我们前面所提及许多大数据的相关技术与工具,都是需要在收集和筛洗大量数据的前提下完成的,这样想来,人工操作的工作量其实也不小,大数据好像也没什么了不起,性价比不是那么高。如果这样想,就是我们对大数据还不够了解,这在构建大数据关联审计的初级阶段可以这样,但是深远来想,就是大材小用了。
大数据的使用,有一个很重要的未来,就是希望它能够让计算机完成一些过去只能人类才能做到的事情。这里就不得不提“机器智能”(也可以说是“人工智能”)了,按吴军博士的话说,就是“任何可以让计算机通过图灵测试的方法”,其中也包括我们先前提到的“数据驱动”。其实,人工智能不算一个新鲜词,早在1956年,“人工智能”这个词就在“达特茅斯夏季人工智能的研究会议”上被提出,但是在现在这个大数据时代,我们再谈人工智能,希望机器能做到只有人才能做到的事情,想要强调的是机器能像人一样去思考,以人脑的思维方式去解读问题,然后自主解决问题,而不再在于它是否用了人类给予它的方法。
4.4.1 深度学习
与人工智能密切相关的关键词——“深度学习”。2016年Google的AlphaGo计算机战胜天才围棋选手李世石的事件,相信几乎所有人多少都有些耳闻,AlphaGo利用计算机高效处理数据的优势,并得益于大数据的大量数据统计,在学习总结完几十万盘的数据后,自主得出了一个统计模型,在前两局中轻松战胜了李世石,虽然第三局因为李世石的战略改变,AlphaGo输了一局,不过它迅速通过这一次败局数据,进行更新学习,改良模型,最终还是战胜了李世石。因此,现在我们在审计领域中应用大数据,通过行业经验,构建各种分析模型,也是希望最终所能完善构建的大数据审计平台,也可以做到深度学习,人工智能,能够从大量的历史数据中,以数据驱动,分析学习,能够创新出高效的分析模型,或者通过对新数据的吸收学习,不断地自主更新改良现有模型。2017年普华机器人已经首次在央企(中化国际)中试水使用了,代替了许多税务和财务的工作,效率惊人。虽然,审计工作很大程度还是需要审计师的专业经验和职业判断,不是机器随便可以替代的,不过利用人工智能部分代替审计师的工作,在现在我们其实已经可以想象了。
对于今天不断发展的人工智能,迈克尔·乔丹教授[1]给了人工智能一个新的解释,他认为AI=IA+II+AA,即人工智能=(人的)智能增强+(社会的)智能架构+(计算机的)自动算法。
4.4.2 IA(Intelligence Augmentation,智能增强)
在这个科学技术带领着人们奔跑的时代,知识和信息都呈爆炸式增长和传播,同时,人们也迅速反应,以“智能”的手段去捕获它们。家庭水电门窗,开始可以依靠手机远程遥控;搜索引擎不仅扩展了我们获取知识的领域范围,还大大提高了我们吸收知识的效率;机器翻译,让人们省去了重新掌握一门新语言的大量学习时间,而能够瞬间如虎添翼,赋予强大的语言能力,快速投入到原本不适应语言的工作中去;通过对大数据的处理和应用,审计也开始伸长触角,涉及传统审计所不覆盖的方面,扩大了审计范围,让审计变得“面面俱到”。
4.4.3 II(Intelligent Infrastructure,智能架构)
“智能架构”可以说是,将整个社会连成网络。通过各种设备、数据和服务的形式,让人们随时“有数可查”和“有据可依”。它包括整个整个IoT[2](Internet of Things,物联网),也就是说机器智能开始能让我们解决过去人类凭借自身智能所不能完成的事情。我们都知道审计工作中有一项操作起来耗时耗力的环节——盘点,虽然审计人员只是监盘,但是盘点的工作人员所耗费的时间中也有审计人员的一份。不过,现在如果能利用网联网相关技术参与盘点,将大大提高盘点以及监盘的效率。例如,利用物联网技术的被审计单位,他们的存货、固定资产等就会事先被标记上电子标签(RFID),此时,审计人员只需手持专门的传感设备,那么这些资产的单价、数量、型号等信息就会即时传输到大数据审计平台,并生成相应的盘点表,审计人员便可立即开展下一步的分析工作了。
4.4.4 AA(Automatic Algorithm,自动的算法)
自动的算法,也就是以人工智能计算机自己找寻算法,学习新知识,替换过去的人为编写算法,驱使计算机工作。这里可以联系一下前面的“深度学习”的概念,像是机器在人的指导下的自我迭代,用海量数据去喂养参数系统,并赋予系统以基本算法,然后利用不同的模型去分析数据,再让系统将不同的算法打碎重组,以数据为基础,像生物进化一样,不断推演出新算法。
4.4.5 机器智能和人的智能的区别
现在大多数人们依然以人的思维方式去理解机器智能,说来有点疑惑,但却是对待这个问题一个误区。
人类的行为模式是常常是独立的,比如在路上行车,在不打指示的情况下,你不知道我要往哪个方向,我也不知道你要哪个方向,结果是形成僵持,造成交通堵塞。一个硬币,有两面,这种独立也有它的好处,就是我们不同的判断和看问题的角度能够避免很大的风险。
但是,机器的智能呢?机器智能由于依赖于大量的关联数据以及大规模的计算,因此它不再是以往单一的个体机器人,而形成了一个网络。这同样是把双刃剑,具有双重影响力。比如智能交通需要行动的一致性,这就是它的好处。那不利之处呢?比如,金融领域雪崩式股价下跌,由于机器智能采用的方法都差不多,其中一家抛售股票后,其它各家也会处于保护而抛售股票。审计工作中,如果只是以机器智能去划分重大错报,也可能出现疏漏,比如制药被审计单位的研究与开发成本,属于被审计单位所出行业相关的关键性披露,即便其发生的错报金额低于财务报表整体的重要性,但合理预期它将影响财务报表使用者依据财务报表作出的经济决策,定性分析,也应将其划分为重大错报。不过审计中的定性分析,还是更多地依靠注册会计师的专业判断,机器智能对数据的定量分析,就会产生纰漏了。
五、大数据关联审计模式——以N市医疗行业政府审计为例
大数据给审计工作带来的波澜,已经得到了政府部门的充分关注。目前,多地审计署已经设立计算机审计中级考试,并且部分审计机关将其作为任职的基本条件,操兵练将以为更好地走进大数据时代。不过,大数据作为新兴手段,运用到审计工作的领域尚且屈指可数,其中,医疗行业数据量大,且其特殊经营模式也很有应用大数据审计的必要,因此笔者以医疗行业政府审计为例来呈现大数据关联审计模式的实际操作。
5.1案例背景
近年来,“推进公立医院改革”成为政府在新医改工作方面关注的重点。历史审计情况显示,医院在收费方面普遍存在多收、乱收的现象,不仅损害了公众的利益;也消损了群众对公立医院信任度,造成了不好的社会影响。为了践行民生审计的审计理念,切实发挥审计免疫系统功能。N市审计局2014年决定对所属五个县市的5家县级公立医院进行专项审计。此次,由于所调查的5家公立医院信息化程度较高,均设有两套信息系统,一套财务软件,负责进行常规的财务核算,另一套业务系统则涵盖了医疗业务流程信息,如处方管理、医嘱管理、收费管理、药品出入库、物资耗材管理等数十个子系统,并且为了顺应大数据时代的潮流,直面大数据对审计工作的影响,因而首次尝试利用大数据关联审计模式来开展审计工作。
5.2应用情况
5.2.1审计大数据分析—用于分析过去
5.2.1.1数据关联与数据化分析平台
除去各家医院因特殊需求对业务系统的优化,所产生的差异外,各家医院的业务系统都与主管部门的相关信息系统存在部分关联,例如医院药品采购借助于省统一药械采购平台,收费结算系统与医保中心通过数据交换实现电子结算等。不过,鉴于N市审计局当时尚无完善的数字化分析平台,所以N市审计机关组织多元行业审计力量临时搭建了数字化分析平台。并利用试点审计的经验及以往审计成果,构建了部分分析模型。利用构建的模型和采集的相关数据,分析出了被审公立医院超标准收费、自立项目收费、不合理收费等共性问题,并将相关数据下发至审计组核实取证,同时根据各公立医院数据体现的特点,分别指出了该审计组的审计重点,提供的审计经验模型包括了参考程序、相关法规、表述模板,保证各审计组对同一事项的审计重点、深度保持一致。充分体现了“系统分析、分散核实、模块化实施”的审计方式。
5.2.1.2数据源及其作用
由于医疗行业审计在该市属于首次大规模开展大数据关联审计模式,且以往的审计频率不高,因此本次审计未能建立数据实时报送或是定期报送机制,主要采用临时采集的数据源、其他项目采集的数据源及内部数据的积累。并在综合考虑与原始数据库衔接,数据并行分析数量,数据量级及与现场审计实施系统的衔接等因素后,数据存储决定选用关系型数据库并对关键字段进行索引优化。该项目的数据源主要分为以下几种:
1、审计标准表数据。根据试点审计的成果,数据分析团队总结出了与审计重点内容密切相关的审计中间表,主要包括收费明细表、患者信息表、药品出入库信息、耗材出入库信息等,根据这些中间表,从被审计单位处获取审计标准表数据,并附审计标准表的转换日志等校验资料。此类数据以非结构化数据为主,通过总体分析技术的技术手段,将非结构化数据处理转换为结构化数据,并主要作用于已开发审计经验模型的分析运行。
2、被审计单位信息系统的原始数据,含日志文件。涉及的被审计单位信息系统原始数据库,包括财务数据库和其他业务系统数据库,如HIS系统。此类数据为结构化数据与非结构数据的混合,利用基础分析技术的技术手段,如数据仓库技术进行分类整理,并按照审计涉及的几个主要方面设置了财务、药品、耗材、收费、检查等多个主题。配合总体分析技术对数据进行加工,最后利用疑点分析技术的技术手段,对数据进行分析处理,此类数据主要作用于数据验证及其他疑点分析。
3、外部采集的相关数据。例如医疗保险经办部门的医保药品信息、医保报销数据,卫生主管部门的药品集中采购目录,公安部门的死亡人口信息等。同样地,利用基础分析技术,对数据进行收集、分类、整理,辅助于总体分析技术对数据进行加工处理,最终此类数据主要作用于外部数据验证及辅助构建业务规则模型。
4、系统内部积累的经验数据。包括审计署专家经验库、计算机审计方法库、审计实务公告等,主要提供审计组在以基于习惯性组织方式开展工作时,从数据中发现事实,助力审计人员针对被审计单位的自身特点进行的逻辑分析,此类数据主要作用于标准化实施以及借鉴参考。
上述数据中,标准表数据由行业办组织被审计公立医院提供,数据库原始备份由各审计组实地当面采集,保留了完整采集日志,外部数据由行业办组织数据分析团队采集。值得一提的是,由于审计包含了对数据风险的审查,需要尽量保持数据完整,因此在数据清洗上保持谨慎性原则,尽量不进行清洗,而进行清洗的主题也仅作用于总体分析,或是验证被清洗数据确实无意义后使用。
5.2.2大数据关联的审计思路及模式的变化
5.2.2.1超标准收费类问题
传统审计模式:往往采取抽查的方式,选择收费金额较多或是收费频次较高的项目。甚至,在之前的非信息化环境下,虽然审计人员一般情况会调阅到收费记录作为财务凭证,但是因为此类财务凭证在传统对方可能只是手工记一下,可靠性太低。新审计思路及方法:数据分析团队采用计算机辅助审计,将患者收费信息与外部获取的物价部门定价目录进行数据比对,能够做到逐一核对患者的每一项收费是否超标,实现对乱收费行为一网打尽。相应审计模型见图5-1。对该模型稍加修改即可同样应用于查找对项目内耗材重复收费、药品耗材标外采购或未按中标价采购、备案药品加价出售等问题。此类模型解决的主要是审计的效率和全面性问题。
审计结果:通过该类比对,数据分析团队发现了一批乱收费问题,经各审计组验证后,取消了擅自设立的收费项目,更正了违规的收费标准,并要求医院将违规收取的费用予以退还。
图5-1 超标准收费类审计模型
5.2.2.2信息系统数据辅助收入完整性检查
传统审计模式:公立医院的收入主要是医疗服务收费、药品耗材收费。这两类收入的完整性,可通过对有效收费凭证或记录与财务入账信息比对进行核实。
新审计思路和方法:由于医院使用系统自动生成收费信息,出错概率极低,一般只发生于现金缴款时收费员人工差错,可通过每日对账发现,风险程度较低。但某审计组发现其审计的公立医院还存在停车场收费收入,该收入仅凭停车管理员提供的收费台账入账,存在较大隐瞒收入的风险。审计人员注意到该医院停车收费采用小区物业停车收费管理系统进行管理,车辆进出均有记录。因此,审计组临时采集了相应数据,通过分析剔除卡片丢失等原因导致的不合理记录后,与台账进行比对。相应审计模型见图5-2。
审计结果:通过分析比对,审计组发现了该医院停车场实际收入与入账收入有较大差距。审计人员以此为突破口最终发现了该公立医院后勤管理部门收入未全额上缴,私设“小金库”的问题。
图5-2 停车收费核实完整性审计模型
5.2.3大数据助力审计覆盖面的扩展
5.2.3.1数据分类辅助医改试点成效审查
该部分审计工作,为利用大数据扩展审计覆盖面,在利用大数据之前,所不会采用的审计思路及方法。
本次审计的公立医院中其中一家被选为该市公立医院改革试点。试点开展前,相关主管部门和公立医院开展了测算,通过该医改试点方案预计能减轻患者医疗负担。审计时该试点已正常运转一定时间,为了验证该公立医院医改方案的成效,数据分析团队对该医院医保患者的费用负担情况进行了分类分析。数据分类采用较为常用的数据挖掘方法,主要是将数据项依据分类规则映射到某一给定类别,此处主要依据费用所处时期进行分类。相应审计模型见图5-3。
图5-3 公立医院改革试点成效审计模型
通过对时间节点的分类,审计组对比了医改前后患者的次均住院费用和个人自付比例,发现在医改前后,医保基金已经加大了投入但患者的负担并没有按照预期得到降低,反而有所增加,见表5-1。为了找出负担增加的原因,数据分析团队进一步对近几年的患者住院费用构成进行了按月分类分析。分析结果显示,医保患者的药占比(药品费用占总费用的比例)下降幅度并不明显,不符合预期。医保患者的次均住院费用增幅也大幅度超过主管部门确定的合理增幅水平。
审计结果:通过分析,审计组发现了该公立医院改革试点成效发挥不明显,且主要原因在于药占比和次均费用的控制上。审计组将此作为重点进行了进一步的分析。
5.2.3.2基于业务规则模型发现违规处方
该部分也属于大数据环境下审计创新,利用审计准备工作中搭建的数据分析平台,所构建的数据分析模型,进行审计分析工作。
鉴于部分医院的药占比和次均费用存在不合理情况,数据分析团队中医院行业人员提出医院可能存在不合理用药的情况,例如滥用辅助性用药,违规使用抗生素,违规使用禁用药、慎用药等,造成了患者药品费用的增加,加大了患者和医保基金的负担。为了批量筛查上述情况,计算机人员基于用药业务规则构建了分析模型,简要模型见图5-4。主要是通过收费信息表和药品信息表整理出患者使用的药品信息及其适应症,通过病人信息及诊断数据结合ICD-10国际疾病编码得出患者罹患的疾病类型,通过对常用辅助类药品的适应症分析构建药品使用规则库。分析平台通过将患者用药情况与病人诊断信息对比分析,运用规则库筛选出无相应适应症而使用相应辅助性药品的患者,进而由审计组进行核实取证,最终确定滥用辅助药品的行为。此类规则库还可根据用药禁忌人群结合患者信息特征筛查违规使用禁用药行为,根据药量规则结合处方信息查超量使用的大处方,依据《抗菌药物临床应用指导原则》查处违规使用抗生素等行为。
图5-4 基于业务规则的滥用辅药审计模型
审计结果:通过分析并经审计组取证,发现了某公立医院滥用辅助类药品,违规对孕妇、儿童使用禁用、慎用药品,违规开大处方等问题。通过问题的揭示,医院对相关医生进行了处罚,并进一步规范了用药管理,防止患者和医保基金的资金被浪费。
5.2.3.3 运用多维分析观察费用趋势
通过对不合理用药情况的筛查,审计人员发现某公立医院违规行为存在异常特点。该公立医院经验证核实的滥用辅助用药案例中90%发生于上半年,仅10%发生于下半年。审计人员认为该现象表明公立医院的不合理用药行为可能存在一定的周期性。多维分析工具能以直观易懂的形式将多角度分析结果展示出来。因此,审计人员将处理后的数据运用多维分析工具,根据月份、药占比、次均费用等维度进行展示,发现了该院住院患者的次均费用情况存在周期性,大体呈现上半年高于下半年,以6月、10月为波谷的波浪曲线。根据展现出的两个波谷时点,审计组侧重寻找相关时点附近的重要事件,以寻找医疗费用不合理变化的深层次原因。
审计结果:经过审计查证,审计组发现该公立医院存在对药占比和次均费用控制前松后紧的现象。主要原因是:卫生主管部门普遍于每年6月下发文件对各医院的次均费用提出当年控制指标。该公立医院据此对各科室开展次均费用考核并罚款,受指标控制影响,下半年各科室控制意愿增强,药占比和次均费用显著下降,半年考核点附近尤为明显。此外,由于当地医保支付采用定额包干方式,受下半年医保基金支付额度降低的影响,也导致科室尽量避免大处方、减少不合理用药。至此,基本查明该公立医院试点改革成效不显著的根本原因与机制缺陷。
图5-5 某公立医院药占比次均费用情况
5.2.3.4 数据有效性审查
在环境分析阶段,审计人员对各医院信息系统的输入有效性控制情况进行了分析。分析结果显示仅一家公立医院部署了不合理用药系统,对不合理用药行为的数据输入进行限制。其他公立医院对信息系统数据输入均未进行格式限制之外的其他限制。据此,审计人员判断各医院收费可能存在由于错误输入数据导致的问题,而这些问题一旦患者未及时发现进行核对,可能将造成损失。因此,审计人员利用常见的人工错误类型对医院信息系统数据进行了清洗测试。
审计结果:通过筛选测试,发现了部分医院存在不合理收费。如对男性患者开展女性特有检查项目,计时收费项目的单日计费时间超过24小时,对一日内对患者修补龋齿的数量超过牙齿总数多倍等不合理收费行为,造成了患者多支付医疗费用等后果。
5.2.3.5 数据安全性审查
为了控制数据风险,审计人员对各家公立医院提供的原始数据进行了符合性测试,与财务报表、业务报表相应数字进行了核对,同时对数据库日志进行分析,对数据的人工修改行为作为重点进行筛查,查找内部舞弊行为,发现了部分疑点。对信息系统的应用权限管理情况进行审计,发现了某医院部分模块员工的权限过大,未进行有效的内部控制,可能存在风险。如药库管理子系统,药库药品的出入库单可由任一药库员工编制,且无需经过审核等程序,即可进入药品出库流程。处方管理系统未合理限制开单权限,医技科室的医务人员也可开出处方。
审计结果:根据筛选出的疑点,审计人员进行了重点分析核实。针对人工修改数据的疑点,审计人员发现某科室主任的直系亲属在住院期间,曾经发生的床位费、护理费等费用被该科室护士人工多次冲销,经审计人员确认,该行为未经医院同意,属于违规减免。相关责任人员受到了处理。针对医技科室具有开单权限的现象,该审计组调取了处方数据,筛选出了所有医技科室违规开出的处方。针对药库管理权限失控问题,审计组证实该院未实行重要岗位分离制度,授权随意,药品管理混乱,存在大量纸质未入系统的借药单据,期末盘点只核对药品总价,还有部分在12月31日零点盘点结束后几分钟内入库。据此,审计组将该院药品管理情况上报,建议对药品管理进行深入分析。
图5-6 基于异常值检测、数据匹配查找虚假住院审计模型
5.2.3.6 基于异常值检测、数据匹配发现虚假住院
根据数据安全性审查中发现的案例,审计人员认为住院患者的治疗费用应当符合一定的规律,例如药占比应在一定范围,床位费、护理费、诊查费应有合理比例等。根据这些规律数据分析团队构建了异常值检测规则。异常值检测技术是指分析人员利用已知数据构建某一事项的规律模型,通过代入数据进行测试,分析数据与规律模型的偏离度,对偏离度超过可接受范围的数据列为异常值重点审查。经过测试,数据分析团队发现存在一批住院费用极低、入院当日或次日即出院、仅产生床位费或护理费的患者,根据患者的费用情况,根本不需要住院治疗。审计人员由此对这些住院患者的真实性产生了怀疑。调取其中部分患者的信息发现,患者中存在张三、李四等姓氏结合数字的姓名,住址相似。因此,分析团队决定采用数据匹配技术,对患者信息的主要字段进行匹配性测试,以发现不合理的重复、相似数据。对发现的不合理患者进一步调阅电子病历与诊断,最终通过调查取证进行定性。相应审计模型见图5-6。
审计结果:经过异常值检测和数据匹配,数据分析团队发现了某公立医院存在大量异常病历,如数十位不同姓名的患者登记了相同的电话号码,某街道数十位连续门牌号的住户在同一天同一科室就诊等。经审计组核实确认,这部分病历为相应科室医生编造,用于降低科室次均诊疗费用及获得病历补贴,入院后当日或次日出院则是为了少交床位费,降低造假成本。部分结果示例见表5-2。
表5-2 某公立医院*科部分虚假病历 |
|||||||
姓名 |
住院号 |
电话 |
地址 |
联系人 |
入院时间 |
入院医生 |
出院时间 |
裘二 |
**6865 |
**17631 |
**省**市二* |
裘二 |
2012-09-28 |
张* |
2012-09-28 |
姜二 |
**6874 |
**17631 |
**省**市二* |
姜二 |
2012-09-28 |
张* |
2012-09-28 |
周涛 |
**6733 |
**17632 |
**省**市一* |
周涛 |
2012-09-28 |
张* |
2012-09-28 |
吴五 |
**6357 |
**17632 |
**省**市一*村 |
李鸿 |
2012-09-26 |
张* |
2012-09-26 |
陈三 |
**5526 |
**11632 |
**省**市三* |
陈天 |
2012-09-20 |
张* |
2012-09-21 |
房涛 |
**6746 |
**17632 |
**省**市二* |
房涛 |
2012-09-28 |
张* |
2012-09-28 |
兰俊 |
**6640 |
**17631 |
**省**市一* |
兰俊 |
2012-09-28 |
张* |
2012-09-28 |
安文 |
**6585 |
**11640 |
**省**市二* |
安礼 |
2012-09-27 |
张* |
2012-09-27 |
付一 |
**6834 |
**11360 |
**省**市一* |
付一 |
2012-09-28 |
张* |
2012-09-28 |
夏一 |
**6861 |
**33630 |
**省**市一* |
夏一 |
2012-09-28 |
张* |
2012-09-28 |
和俊 |
**6719 |
**17631 |
**省**市四* |
和俊 |
2012-09-28 |
张* |
2012-09-28 |
裘一 |
**6844 |
**11360 |
**省**市一* |
裘一 |
2012-09-28 |
张* |
2012-09-28 |
杨一 |
**6792 |
**17630 |
**省**市一* |
杨一 |
2012-09-28 |
张* |
2012-09-28 |
5.2.3.7 基于业务数据流程发现药品耗材收费量与消耗量不一致
在数据安全性审查过程中,审计人员发现了某医院药品管理混乱的情况。因此需要额外加强药品管理使用方面的实质性测试,防止出现药品实际消耗数量与收费数量不一致。根据数据流贯穿公立医院业务流程的现状,药品以数据的形式体现在公立医院的各个信息系统子系统中。在采购系统中体现为计划采购量及到货量,在药库系统中体现为库存量,在收费系统中体现为收费数量。通过业务数据流程分析(图5-7),药品在整个流程中应符合以下等式。
药库消耗量=期初盘点量+采购入库量-退货出库量-期末盘点量=实际收费量
实际收费量可从收费系统汇总得出,消耗量由数据仓库中的药品主题整合计算。通过上述方式,数据分析团队对所有被审公立医院的药品使用量与消耗量进行了分析,发现普遍存在此类疑点,已分别交由各审计组核实。此方法同样使用于对耗材的消耗量收费量一致性审计。
图5-7 药品流动示意图
审计结果:通过对上述疑点的审核,发现了多数医院均存在药品耗材收费量与消耗量不一致的问题。部分药品耗材的收费量超过消耗量,部分收费量小于消耗量。换算为金额计量后,总体表现为多收费。耗材的不一致主要由于不同规格的常用耗材混用,部分耗材实际需求量少于收费量,部分一次性耗材医院重复使用等。药品的不一致情况较为复杂,审计人员决定利用特征分析进一步查找原因。
5.2.3.8 基于特征分析发现换药套保
为了查找药品收费量与消耗量不一致的原因,分析人员选取差额绝对值较大的品种进行特征分析,通过归纳这些药品具有的共同特征来推测问题所在。在特征分析之前,审计人员通过内外部数据尽量对涉及的药品信息维度进行了拓展。
运用关联规则挖掘算法分析后,审计人员发现了以下特征:首先,药品消耗量低于收费量较多的药品普遍为输液类药品,普遍为医保药品,部分药品最小包装量大于单次使用量。其次,药品消耗量高于收费量较多的药品普遍为非医保或低报销比例药品,散装中药,或是长期服用药。
通过上述特征分析,审计人员就这些特征向被审计对象相关人员及卫生主管部门进行了咨询,得到了部分解释:部分常用输液类药品由于最小包装量大于单次使用量,导致处方收费时对患者按照最小包装量收费,使用时确由数名患者共用一瓶针剂,形成了药品结余,造成消耗量低于收费量。散装中药由于在储藏、存取过程中易造成损耗,因此收费量低于消耗量。
针对不一致药品在医保报销方面的差异,审计人员提出可能存在利用医保药品换取非医保药品的情况。按照这一思路,审计人员对部分贵重非医保药品进行了全流程追踪,明确了药品最后流向的科室。
审计结果:在展示明确的数据轨迹后,医院科室人员承认为减轻特定患者自付医疗费用,利用医院财务只核对药品总金额不核对药品品类明细、药库管理混乱且员工权限过大的漏洞,将患者需使用的非医保药品从处方中移除,以医保药品替代,实际使用时再通过药库换药。部分内部职工直接向药库借用药品,后由科室医生开具处方,以处方还药。科室人员将部分结余药品换为自身需使用的常用药或长期用药。这些行为一方面导致医保基金被套取,一方面导致医院财务核算不完整、药品管理混乱。
5.2.3.9外部数据验证公安数据验证违规收费
大数据环境下对关联外部数据的使用更加便捷,数据搜集成本更低。可充分利用外部数据对审计事项进行分析验证。例如利用公安部门获取的死亡人口数据,根据公安部门登记的死亡日期查找患者死亡后是否仍存在收费记录。经过筛查,发现存在两种情况,一种情况是死亡后数天内,仍然发生了收费;另一种情况,产生少量床位费用,但是有大量的费用冲销记录。
审计结果:经审计组核实,上述两种情况的原因分别为,医务人员未及时停止长期医嘱的执行,导致继续收取患者费用;患者死亡后,护士核对发现部分项目并未实际执行,因此需要冲销费用,而床位费在住院期间系统自动收取,从而导致一边产生床位费,一边冲销费用的情况。
5.2.4大数据预测与推荐
由于本次审计工作为首次利用大数据关联审计工作,所以所获得的数据多为临时的一手数据,利用大数据预测与推荐的效果不突出,不过本次审计工作利用完的数据,既包括源数据也包括加工处理完的数据,都将归集、筛选、整理,二次服务于审计大数据管理系统的构建。在日后审计项目中将能凸现大数据预测和推荐的优势。主要内容有以下几点:
5.2.4.1 趋势分析,及时预警
通过汇总各家医院的资金设备投入情况,患者住院人数变动,床位数量变动,医技检查项目次数等进行总体分析。数据分析团队得出了N市公立医院存在发展方向趋同,床位利用率下降,患者向少数医院集中的趋势。并就此提出了意见建议。
根据信息系统审计中发现的薄弱环节,如权限控制问题、有效性验证问题,以及发现的内控制度问题,如重要岗位未分离,药品数量未纳入核算等。行业办总结形成了容易违规的问题类型,并建议在整个N市医疗系统内自查自纠。通过审计机关的警示,各公立医院加强了内部管理,修补了相应漏洞,发现了不少市县政府、卫生主管部门所不了解,甚至是公立医院自身未发现的问题。
5.2.4.2 量化绩效评价
在本次审计中,审计人员通过数据分析关注了公立医院改革试点单位的改革成效。明晰的数据与改革试点方案的目标进行对照,对其改革成效进行了量化的评价,取得了很好的效果。另一方面,通过对各公立医院医保基金支付比例、支付缺口的分析,展现了医保基金使用的总体情况,结合各医院不合理用药,违规换药等行为,对其医保基金使用的绩效进行了量化评价,体现了利用大数据进行审计推荐。
5.2.4.3 对审计结果进行深度挖掘
鉴于各家公立医院在药品采购方面均面临诸多困难,在结余药品定位、管理等方面存在普遍性的不明确问题,行业办认为行业的管理机制是导致上述问题的根本原因。因此,建议根据相关行业性问题向主管部门提出完善相应管理制度的意见。站在服务医改的宏观角度,结合发现的问题,向政府报告了影响患者费用的主要因素,各家医院的整体情况,资源配置等信息。可以利用Eviews等工具对数据进行分析预测,根据已发现的问题进行提示,即对审计成果的进一步挖掘。例如,可以利用审计大数据管理系统分析得出N市某病种的平均费用,在之后的审计项目中就可以利用该模型进行分析是否存在收费异常,同时,这些患者信息在之后的项目中也可能进行二次利用。
5.2.4.4 经验积累,系统完善
本次审计过程中,数据分析团队利用数字化分析平台构建了许多的分析模型,并编制了医疗行业普遍使用的某财务信息系统采集模板,可继续作用于审计大数据管理系统的构建及完善,如本次审计项目的数据用于日后的纵向对比,以及与其他医院的横向对比,进而可以有助于修正、优化已有的审计模型。根据试点团队的总结和后续审计的实践,对业务数据采集所需的审计中间表进行了完善。
5.3案例小结
审计组织方式,主要体现为上述的业务驱动型审计组织方式,根据被审计单位业务特点选择合适的数据审计方法与组织方式,根据医疗单位的特点组建行业办有效提升了审计机关对项目的指挥效率;数据分析团队将成员阶段性分配到审计组的做法能够很好地掌握各审计组情况,解决临时性的数据分析问题。数据处理方面,统一数据采集需求的做法有效利用了现有计算机审计力量,避免了采集失误。审计方法的应用,成果较为突出,不过由于受管理体制限制,项目安排的灵活性不足,在审计实施时间、审计力量安排上仍然受限,人工成分仍占大部分,机器智能的运用甚微。组织的数据分析团队磨合不足,数字化分析平台的作用发挥受到影响。数字化分析平台由于为临时搭建,仅通过试点审计及以往成果形成部分分析模型,数据搜集不够全面,分析效果未实现最优状态,对于平台在人工智能方面拓展较少,优化空间巨大。受审计力量限制,数据分析团队成员需要兼顾平台系统分析与审计现场的特异性分析,精力分散,影响实施质量。在交互方面,对工作底稿等基础资料未能实现类似云端同步的备份功能,而是需要先生成审计现场数据包后上传,影响了上传的频次和时效性。数据管理方面,由于属于临时部署,对数据仓库的优化工作有待改善,数据分析的速度不够理想。方法应用上,受数据量级与数据积累程度的限制,方法的应用较为简单,数据挖掘深度仍可加强。审计成果方面,由于首次采用大数据关联模式,事后审计为主,预警性有所不足,对趋势性成果的挖掘尚且不足。综上,提出以下几点建设性意见:
1、完善数据获取体制,加强数据管理。完善的数据获取机制,是应用大数据进行审计的有力保障。一方面,虽然国家已出台相关意见及法规,但是执行力还需加强,以应对部分被审计单位因认识不足,而耽误了机制的推进;另一方面,要求审计人员严格遵守相关保密制度,加强数据管理,保护数据安全,以打消被审计单位的顾虑。并配合多方面拓展数据采集的渠道,做好数据积累。
2、建立健全信息系统审计制度。信息系统审计是了解被审计单位信息系统,掌握其有效性和风险点的重要手段,本案例也应用信息系统审计方法取得了很好效果。《审计法》第三十二条对审计机关进行了授权,审计部门得以对被审计单位涉及财政财务收支的信息系统开展结合式审计。然而,该条款无法作为独立式信息系统审计的立项依据。同时,尽管审计署已经通过审计实务公告的方式印发了《信息系统审计指南》供各级审计机关参考使用,但仍未形成完善的信息系统审计准则,使得在信息系统审计实施过程中存在诸多顾虑。
3、加大人才培养投入,优化考评激励体系。由于大数据的关联,拓展了审计工作的覆盖面,对各类不同专业人才的需求也在增大,加大人才培养投入,尤其加强复合型人才的培养变得更为重要。同时,应适当地通过优化考评激励体系来留住人才。目前的考评激励制度往往侧重于违规金额查处,问题移送,不能很好体现数据分析取得的预警性、趋势性、宏观性成果,影响了数据分析人员的应用积极性。审计机关应当在改变审计思路的同时转变考评激励导向,引导审计人员积极创新技术方法,应用大数据分析平台开展审计。
4、完善审计大数据应用平台。从案例中可以看出,要应用大数据进行审计,平台的构建相当于“打地基”,地基稳,楼才高。现阶段大数据关联审计多处于初步的尝试应用阶段,为了更大程度地发挥大数据对于审计工作的利好作用,拓展审计技术方法在更多领域的应用,还应坚持开展审计技术创新,对审计大数据应用平台进行升级改造。
六、结束语
大数据时代是信息化建设发展到一定阶段,海量的、纷繁复杂的各类数据累积到一定程度的产物。如今,大数据己经被广泛运用到审计行业中,大数据时代下,审计信息化建设亟需站在一个更高的战略性高度,对巨量的数据和信息进行有效的分析和处理,快速、准确的从中提取出有价值的信息,提高审计工作效率,推动审计工作不断向前发展,同时也为审计机关做出科学决策提供帮助。审计方法即将实现从抽样到全量、由映射到预测、由线性到网面、风险识别和评估的重大变革,审计变革的创新也引发我们深度思考。
本文采用理论研究与案例分析相结合的方法,从大数据环境的性质与特征研究入手,结合审计基本原理,分析大数据环境对审计环境可能产生的影响,结合审计职能和审计目标的转变,剖析现行审计模式的缺陷与改进方式,提出了一种适应大数据环境的审计模式。文章从理论引申到实践、从整体落实到个案,验证了适应大数据环境的审计模式在审计实务中的优越性。文章主要结论如下:
(1)大数据具有数据量大、单位价值密度低,但综合价值高的特点,在社会领域与国家治理领域取得了普遍应用,随着审计的监督对象信息化程度不断提高,审计环境必将受到大数据环境的影响。在大数据环境下,审计监督对象提供的会计信息质量受到了很大的影响,与此同时,审计免疫系统理论、中央框架意见要求均要求审计机关扩大审计范围,对审计提出了更高的要求,设定了更复杂的审计目标,需要审计人员在总结现有审计模式的基础上继续创新,适应这些变化。
(2)现有审计模式的审计目标相对传统,无法适应治理新需求。组织方式缺乏灵活性,审计力量难以科学分配,人员复合性不够,无法应对专业性较强、数据量大的被审计单位的特殊需求。局限于内部数据分析对外部数据的利用不够,审计资源重复投入,审计成果无法充分利用。审计管理与审计现场脱节,质量控制滞后。面临着新的数据舞弊、数据安全、数据传递脱节风险。
为了适应大数据环境,审计组织管理模式必须做出相应的改变,增强项目安排灵活度,项目计划智能化调度,注重利用数据分析决策,开展常态化监督。
大数据不仅仅是技术,更是一种思维和理念,它深刻地改变着并还将持续改变审计的组织模式和管理方式。作为一种思维和理念,我们积极探索让大数据产生大价值,让数据整合起来、关联起来、智能起来,依靠大数据更要驾驭大数据,来帮助我们提高审计效率、提高审计质量、提升审计层次。
参考文献
[1] Earley C E. 2015. Data analytics in auditing: Opportunities and challenges [J]. Business Horizons, 58(5): 493-500
[2] 陈伟, Wally Smieliauskas. 大数据环境下的电子数据审计:机遇、挑战与方法[J]. 计算机科学,2016,43(1):8-13,34
[3] Manyika J, Chui M, Brown B, etc. 2011. Big data: The Next Frontier for Innovation,Competition, and Productivity[R], McKinsey Global Institute
[4] Gartner E S. 2012. 10 Critical Tech Trends for the Next Five Years [EB/OL]. http://www.forbes.com/sites/ericsavitz/2012/10/22/gartner-10-critical-tech-trends-for-the-nextfive-years/
[5] Science.2011. Dealing with data [J]. Science, 331(6018): 639-806
[6] Gulisano V, Ricardo J P, Marta P M, etc. 2012. Streamcloud: an elastic and scalable data streaming system[J]. IEEE Transactions on Parallel and Distributed Systems, 23 (12) :2351-2365
[7] 严霄凤,张德馨.大数据研究[J].计算机技术与发展,2013(4):168-172.
[8] 怀进鹏.大数据是国家战略资源[J].中国经济和信息化,2013(8):49-50.
[9] 李雪.审计信息化发展的现状及问题[J].中国审计,2012(20):63-64.
[10] 杨学山.中国信息化建设发展的机遇[J].全球化,2013(3):118.
[11] 王书伟.大数据时代政府部门间信息资源共享策略研究[D].吉林大学,
2013:14-17.
[12] 胡洪彬.广东率先启动大数据战略推动政府转型[J].信息系统工程,2013(7):7-9.
[13] 华洲.浅析大数据时代的政府选择[J].现代经济信息,2014(7):46.
[14] 涂新莉,刘波,林伟伟.大数据研究综述[J].计算机应用研究,2014(6):1612-1616.
[15] 邵华清,戴宇彤.大数据对被审计单位战略决策的影响研究[J].商场现代化,
2014(7):116-117.
[16] 何芹.持续审计在我国政府审计中的应用分析[J].会计之友,2009(1):
28-29.
[17] 张侠,刘军.信息化对我国政府审计的影响——兼谈转变政府审计模式[J].财会月刊,2010(28):32-34.
[18] 隋学深.信息技术在国家审计领域的主要应用及其展望[N].中国审计报,2013(13):6-9.
[19] 王海燕.大数据时代背景下的审计信息化浅议[A].江苏省审计厅、江苏省审计学会.江苏省国家审计信息化专题研讨会论文集[C].江苏省审计厅、江苏省审计学会,2013(4):151-154.
[20] 吕劲松,王志成.大数据环境下商业银行审计非结构化数据研究[J].软科学,10.13956/j.ss.1001-8409.2017.01.30.
[21] 陈伟. 大数据环境下基于数据可视化技术的电子数据审计方法[J].中国注册会计师. 10.16292/j.cnki.issn1009-6345.2017.01.024.
[22] 冯聿梦.大数据支持国家审计流程再造的实现方式[J].审计之家,2017-10-18.
[23] 徐超,吴平平.浅析各国大数据审计工作现状—基于世界审计组织大数据工作组第一次会议的研讨结果[J].2017-06
[24] 王志成.大数据铸造金融审计新引擎[J].审计之家.2017-03
[25] 陶光林.联网审计技术方法初探[J].中国商论,2016(24):176-177
[26] 梁秀根.数据挖掘助力持续审计[J].审计之家,2017
[27] 罗振宇.基于OLAP的审计软件的用例设计[J].中国管理信化,11(1):71-75
[28] 吴军.智能时代—大数据与智能革命重新定义未来.北京:中信出版集团股份有限公司,2016.
[29]叶晖.基于大数据环境的政府审计模式研究[D].福州:福州大学,2016.
附录一:CM医院案例
一、CM公立医院床日消耗标准成本确定过程
(一) 情况介绍
如何长期持续地客观评价成本控制的能力与水平高低一直困扰着医院的管理者。现代医院经过十多年建设已建立较为完善的成本体系,涵盖科室成本、医疗全成本、医院全成本,但医疗服务项目成本和病种成本复杂莫测,且涉及诸多不可控因素不能进行常规评价。2012版的医疗服务项目多达九千多个,若逐个利用作业成本法测算项目成本,工作量巨大;若使用当量法,多重分摊快捷但不被基层管理者所认可,也为审计人员处理数据带来了海量的工作量。
为解决相关的难题,CM医院引入标准成本法,建立具有属于医院特色的标准成本体系,实现了标准成本与其他管理工作的有机对接,为医院全面预算、价格管理等提供了坚实的数据基础和参照标准,促进了业务与财务的交汇融合,有效提升了医院管控决策质量,同时也更为高效地提供审计数据,简化审计工作流程。
(二) 构建标准成本的动因
病床既是病区最小的生产单元,同时也可作为成本归集的对象。将基于病床所发生的性质相近的各类操作及日常生活消耗作为一个整体进行成本测算的工作量小于先将各类操作及日常生活消耗进行逐一计算后再累加的工作量,且前者的准确性明显优于后者,原因主要为后者存在不同程度的成本叠加,须将重复成本剔除后方可用。床日物资消耗是反映病床物资消耗的日均消耗水平的指标,可较好地应用于不同规模但性质较为相近的病区间的横向比较,是成本控制的有效工具。
1 .单一重要因素分析
床日物资消耗是以病床作为物资消耗归集主要对象,特指医院为维持病区日常诊疗活动所消耗的可以量化计算的无法转嫁的每张床每日的物资消耗,包括内涵卫生材料、其他材料(办公用品、印刷品、清洁工具等)、洗涤费等。为更准确地计算床日物资消耗的标准成本,做好相关差异的控制,需关注以下三个重要影响因素:价格政策、病床周转次数、每床日工作量。
(1)价格政策对床日消耗有影响
医疗服务价格是由政府机构进行确定的,对于医院属于系统性风险范畴。医院要谋求长远的发展,就需在政府定价的基础上努力降低医院运营成本,提高医院的经济效益和社会效益。由于公立医院收费目录必须根据国家统一颁布的《医疗机构医疗服务价格》规定,对于被认定为除外内容的卫生材料因可以向外转嫁(收费)而不能作为床日物资消耗组成部分。因此价格政策决定了内涵卫生材料的范围。为保证成本范围确定的准确性,将《医疗机构医疗服务价格》的电子版导入数据库,建立医疗服务项目、除外卫生材料目录库,是否除外卫生材料逻辑判断,业务与物资消耗相关判断,形成医院业务清单列表。
(2) 床位周转次数与床日消耗呈相关性
`床日物资消耗需要考虑因周转次数不同而产生变动成本波动,也可在一定程度上弥补基于收费系统计算每床日工作量而产生的不足,如入院登记、出院审核等。床日周转倍数表示周转速度水平,以考核期病床周转次数除以基期周转次数。将近年的各病区的月出院病人数导入数据库,利用先前已维护的病区床位开放数,可得出周转次数,进行纵向比较可得到床位周转倍数。
(3)工作量与床日消耗
讨论病床物耗水平高低时,必须与床日工作量联动考核,动态评价才能有效消减因住院病人数,患者病情轻重所带来的成本变动。标准成本的确定难点是如何建立与业务量的数量关系。由于每张床每日所发生的医护人员操作、劳动强度、物耗都存在较大差异,难以准确衡量。考虑到效率与数据采集的方便性,一般通过以下三种方式来确定工作量水平的高低,并构建工作量-床日消耗指标来说明其两者联系。
① 护理级别
护理级别是反应护理强度较好的指标,通常级别越高,护理强度亦越大,工作量也就越大。但在医患关系紧张的大环境下,医生对病因不明、病情不稳定的患者更偏向于密切观察。医嘱为一级护理时,护士每小时需到患者床边观察一次,物资消耗不大。将近年护理级别数据导入数据库,进行比较。但根据相关数据处理可以得出,由于实际占用床日与护理级别的确认标准存在一定的差异,床位确认方式是计头不计尾而护理费在病人出院当日仍可收取,因此这种方式确认的工作量与物资消耗关联性不大。
② 劳务收入
劳务收入的多少可直观体现工作量的大小,其与工作量成正相关,每张病床的收入实际上是以病床上所对应的患者作为数据归集对象,与床位存在一定的交集,但也将医技科室项目收入与成本纳入床位物资消耗考核,扩大了成本中不可控的部分,不利于客观评价病区护士作为床日消耗控制主体的管理水平。此外医技科室项目收入普遍高于数倍于基于床位的护理、一般治疗类工作收入,不利于精准评价医护人员成本控制情况。将近年的医疗服务项目使用情况分病区导入数据库,可以得到收入额。根据相关数据处理得出结论,劳务收入的多少虽然直观却无法说明成本不同的原因是来自于业务的价格还是数量。因此在后面探寻工作量-床日消耗关系时不宜采用。
③ 作业数量
用作业数量来衡量工作量的大小是借鉴项目成本核算作业法的精神。利用医院收费系统将医护人员的每次操作都记录为 1,便可直接获得相关工作量,方便核算。直接以数量作为工作量计算标准,清晰明了,同时也剔除了价格影响因素。将近年的医疗服务服务项目导入计算频次即可。根据相关数据处理得出结论,采用此种方法可以直观的得到所需的数据及对比,有利于后面指标的建立及运用。
但是,仅用单一因素分析不够具有说服力,因此还应考虑各种因素相结合的情况。
2.综合指标联动分析
大数据分析的理论核心就是挖掘算法,数据挖掘的算法应基于不同的数据类型和格式才能更加科学地呈现出数据本身具备的特点,进而得到数据间的内在关系。先前已研究床日物资消耗的范畴与性质,并与单一影响因素间进行相关性判定。现在将进一步模拟日常消耗探寻多因素与病床物资消耗的数量关系。
进行工作量与床日消耗的关系构建,分为考虑床日周转次数和不考虑周转次数两类进行关系构建。需要说明的是价格政策影响真实存在无法排除,作为研究的基本前提而非影响因素。
(1)不考虑床日周转次数
工作量-床日消耗考核指标=工作量倍数×日额定物耗-日均实际物耗
公式说明:(计算该考核指标周期可以是月、季、年等,周期越长越准确,现以月作为考核周期进行说明。)
①月物资消耗是指病区在一个月所消耗的内涵卫生材料、其他材料及洗涤费,其中内涵卫生材料费需要对库存物资的管理软件(HRP子系统)进行恰当改造以提取相关数据。②实际占用床日数用于反映床位使用情况的指标,为统计指标。③日均实际物耗=月物资消耗÷实际占用床日数。④日额定工作量及日额定物资消耗均是以上年度某一专业的日平均量作为额定值 。⑤工作量倍数=实际日均工作量÷日额定工作量,该指标大于1,说明该考核单元的工作量优于上一年本专业的平均水平;小于1,说明该考核单元的工作量不及上一年本专业的平均水平。⑥当该指标大于0,表示允许支出的物资消耗大于实际消耗,该差额是被考核对象的成本节约额,是成本控制工作成果;小于0,表示允许支出的物资消耗小于实际消耗,该差额是被考核对象的成本超支额。
(2)考虑床日周转次数
工作量-床日消耗考核指标=额定卫生材料费 G×工作量倍数 I+额定其他材料费及洗涤费H×工作量倍数×周转次数倍数 J-日均实际物耗
公式说明:(同上以月举例说明,重复不再说明。)
①额定周转次数是以上年度某一专业的平均周转次数。②周转次数倍数J=实际周转次数÷额定周转次数,该指标大于1,说明考核单元的周转次数优于上一年本专业的平均水平;小于1,说明考核单元的周转次数不及上一年本专业的平均水平。
(三)结果反馈
依据上述的研究,CM医院设立了一个新的标准成本考核指标,即:工作量-床日消耗考核指标=额定卫生材料费 G×工作量倍数 I+额定其他材料费及洗涤费H×工作量倍数×周转次数倍数 J-日均实际物耗,并于2016年7月投入医院病区成本控制考核的应用。方法充分考虑影响床日消耗标准成本的重要因素,通过动态确定考核标准值,可较为客观评价病区成本控制工作的效果,且可进行横向与纵向的比较,解决成本控制与业务发展的矛盾,鼓励病区在积极拓展业务的同时重视成本控制。
二、CM公立医院标准成本的建立带来的意义
1、效率提升:虽然考核时涉及多系统的数据,但已制定相关报表,仅需对数据进行调用、整理、组合,即可得到相关考核结果,在评价时耗上有了显著的提升,缩小工作量,提高工作效率;
2、所设立的新标准成本考核指标不仅较为全面地覆盖了医院的成本控制工作的多种重要因素,并且利用大数据挖掘新算法突破传统标准成本评价固定考核值的不足,同时注重同类性质的因素合并考核,简化工作流程,但又具有一定成本控制覆盖面。
3、作为有相同业务特点和财务管理问题的其他公立医院,可以采用业务驱动型的审计组织方式,在审计人员需要相关审计数据和材料时,能够化繁为简,根据之前利用标准成本模型时生成的相关报表,快捷地给出有用信息,既不用浪费大量的人力物力来筛选有效数据和信息,也不用再为了根据自身被审计单位特点进行重复创新。
扫一扫在手机上查看当前页面