数据挖掘在公积金审计中的应用
时间: 2017-07-13 13:00
 摘要:大数据时代,数据挖掘技术已经越来越重要,相关模型算法也越来越多地在各个行业中应用。本文通过介绍数据挖掘概念、技术方法和挖掘步骤,并简述了利用异常检测数据挖掘方法,探索在公积金提取业务中建立异常数据挖掘模型,寻找公积金异常提取业务。

  关键词:数据挖掘、技术、公积金、审计;

  一、数据挖掘的定义

  数据挖掘(Data Mining,简称DM),译为资料勘探、数据采矿,是数据库知识发现中的一个步骤,对数据挖掘概念的定义描述有若干版本。目前比较公认的定义是:从大量的、模糊的、有噪声的、不完全的、随机的数据中,提取隐含其中的、未知的但又潜在有用的信息和知识的过程。他是一系列技术的综合应用,或者是对大容量数据及数据之间关系进行考察和建模的方法集。简单的讲,数据挖掘就是从大量数据中挖掘或抽取出知识。

  二、数据挖掘的技术

  数据挖掘技术是从国外逐步发展起来的。最早是从数据库中发现知识(KDD)研究起步,以后这一研究逐渐成为热点,且研究的对象不断扩展,人们就更多称之为数据挖掘。1993年,R.AgrawalT.ImielinskiA.Swami首先提出了关联规则。关联规则分析方面,R.AgrawalR.Srikant提出了著名的频繁项集挖掘算法--Apriori算法,为了提高关联规则的挖掘效率,继而产生了许多新的技术和改进算法。分类分析方面,Quinlan分别提出了决策树算法ID3和决策树学习算法C4.5算法,此外,还有机器学习中的神经网络、遗传算法。在聚类分析方面,MacQueenJ.B提出了著名的K-Means聚类算法。

  国内,也开展了大量的数据挖掘研究。郑泽芝、高峰修正了Apriori算法,提高了关联规则的效率。熊肖华讨论了模糊理论在关联规则挖掘中的应用,刘夫涛结合了聚类变量和聚类样本,大大提高了分类分析的性能。一些高校,还在数据挖掘基本原理和算法改进的研究中提出许多新的观点,并成功在生物、智能交通和互联网中实施应用。

  在数据库中,利用数据挖掘技术,不但可以完善、丰富数据库应用,还能为用户决策提供数据支持。常用的数据挖掘技术有:

  (一)关联分析,用于发现隐藏在大型数据集中有意义的联系的一种方法,这些联系可以用关联规则或频繁项集的形式表示。关联规则最初是为了解决购物篮分析问题而提出的,目的是发现超市交易数据中不同产品同时被购买的规律。如啤酒喝和尿布经常被同时购买、牛奶和黄油经常被同时购买的规律。这些规律刻画了客户的购买行为模式,可以用来指导商家科学地安排进货、库存以及货架摆放设计等。除了用于零售行业,它也可以被广泛应用到电子商务、通信等其他行业中,用以发现客户消费的关联行为,从而指导决策人员制定交叉销售策略,提升客户价值或进行客户挽留。常用算法Apriori算法、FP-growth算法。

  (二)分类分析,用于预测数据对象的离散类别,是一种根据输入数据集建立分类模型,再用这个模型进行分类,生成一系列的分类规则,用于对其他数据进行分类。例如收集潜在客户的收入和职业等数据并对其加以分析,预测该类客户是否会购买某种商品属于分类。预测方法用于预测数据对象的连续取值。例如,预测该类客户在某类商品上愿意花费的金额则属于预测。常用算法ID3算法。

  (三)预测分析,就是找出历史数据之间的变化规律,建立相应的模型,该模型允许人们根据已知的属性值来预测其他某个未知的属性值。可以获得当前数据的未来变化趋势,所具有的属性值的范围、种类和特征等。一般分分类和回归两类,当被预测的属性是范畴型时为分类,当被预测的属性是数量型时为回归。

  (四)聚类分析,是将给定的数据集合划分为多个类别或叫簇的过程,聚类后的每个同类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度,类似于人们常说的物以类聚。如在市场营销中帮助市场营销者发现他们的基本顾客的不同族群,然后利用这一知识制定有针对的营销计划;在城市规划中根据房子的类型、价值和地理位置对一个城市中房屋进行分组等等。常用算法有K-means聚类算法。

  (五)异常检测。寻找数据库中的数据之间存在的异常情况,揭示出事物偏离常规的异常现象、异常数据。这些异常对象被称作离群点,虽然不完全意味着错误或欺诈,但很可能预示着问题。一般异常检测方法有基于模型的技术、基于邻进度的技术和基于密度的技术三种。

  三、审计中引进数据挖掘的意义

  目前,计算机审计多是利用审计人员的经验和计算机查询技术组合的方法对被审计电子数据进行审计,发现其中的异常情况。存在不足:一是审计人员的经验和知识是“有限的”,被审计对象行业跨度大,各单位情况千差万别,存在不对称性;二是数据不断发展,审计经验相对于数据的发展往往滞后,存在不同不性;三是对同样的数据审计,不同的审计人员可能会得出完全不同的审计结论,无法保障审计质量。

  数据挖掘是信息时代背景下发展起来的新兴技术,是针对日益庞大的电子数据应运而生的一种新型信息处理技术。它一般采取排除人为因素而通过自动的方式来发现数据中新的、隐藏的或不可预见的隐藏在数据库、数据仓库中的知识的活动。它是对数据集全面而深刻认识的基础上,对数据内在和本质的高度抽象与概括,也是对数据从感性认识到理性认识的升华。所有把数据挖掘技术应用于审计工作有着重要的意义。其在审计中的独特功能是传统审计方法无法取代的,利用数据挖掘能够帮助审计人员在极短的时间里筛选出有代表性的审计样本,大大降低了审计风险。

  四、数据挖掘的步骤

  数据挖掘是审计人员利用数据挖掘技术,从原始数据开始,通过对数据的深入分析,寻找并发现数据规律,借以发现异常现象,归纳起来,主要有:

  (一)数据采集。数据采集就是从当前数据中抽取与目标相关度量最高的样本数据子集,根据目标不同,采样的方法也不同,如随机抽样、条件筛选。但都要求获得的数据有较高的完整性、有效性和代表性。这既是数据挖掘式审计的工作起点,也是最为重要的一个环节。

  (二)数据探索。数据探索就是对数据进行深入探索的过程,其目的是从样本数据集中找到规律和趋势。运用合适的数据挖掘算法对审计数据进行处理,如审计人员根据被审计单位的行业背景、业务特点和数据模式,运用关联规则发现等不同数据挖掘技术方法,获得被审计单位的数据规律,以检测是否存在异常,最终理清数据间的相互关系。

  (三)数据调整。数据调整是对需要解决的问题进一步明确和量化,并按照问题的具体要求来审视数据集,检查其是否适合问题的需要。其核心是针对逐步明确的需求对数据进行相应的增删,按照对数据挖掘全过程的新认识组合或生成新的变量,以更加有效的描述实际状态。

  (四)数据建模。在对数据结构和内容进一步调整后,就可以建立模型对数据进行分析。通过利用数据挖掘技术,如回归分析、决策树分析等,有效揭示数据间的新关系或潜在规律,预测数据的发展趋势,或在特定条件下的变化结果。

  (五)数据评价。经过上述程序将会得到一系列的分析结果和模型,对目标问题进行多侧面的描述和综合后,提供给审计人员做出正确判断。审计人员还需要根据自己对审计项目的具体了解来分析解释相应的现象。对可能是审计问题线索的,需要进一步追踪检查相关资料,落实问题。

  五、数据挖掘在公积金审计中的应用

  住房公积金是国家规定的住房社会保障制度,由单位和职工共同缴存,是住房分配货币化的主要形式。业务主要有归集、提取、贷款发放和回收等。其中,提取业务涉及面广,业务量大,自由度高,违规风险大。因而,在实际中有一些公积金套取、骗提情况发生,这不仅仅侵害了广大公积金缴存人的利益,而且还威胁住房资金的安全,也扰乱了公积金的正常管理秩序。所以,利用数据挖掘的异常检测方法,分析公积金的异常提取,找出提取业务中的不易被监管者发现的违规提取。如少量职工违规提取、个别程序测试漏洞、恶意套取等。

  (一)本福特定律检测异常提取

  通过分析业务金额中首位、第二位数字出现概率的分布,来判断提取业务中有无欺诈。这种方法,把每种提取原因的提取业务数据集作为研究对象。计算出每一个研究对象第一、第二位数字出现概率,再计算与所有提取业务第一、第二位数字出现概率平均值的差异度,发现离群研究对象,找出差异值最大的前几名作为异常提取风险的指引,有针对性的指导审查异常提取。

  (二)关联规则检测异常提取

  在公积金提取业务中,为了方便广大职工,规定可由他人代理职工提取公积金,导致可能出现个别“职业代办人”,代理不符合条件的职工违规提取公积金,并从中赚取手续费。可以使用关联规则绘制出关联关系图,找出提取业务数据中隐藏的关联和关系网,挖掘出隐藏在数据间的异常关系。按照数据的关联关系找到违规提取。

  (三)业务突增预警模型

  在法规政策、管理制度,大病患病率等条件稳定的前提下,每个季度,各类提取业务的提取数量和金额应该保持相对稳定,不应大起大落。如果某类提取业务数量、提取业务总金额出现突然大幅度增加,那么我们就可以认为出现了异常。通过找出业务突增的情况,预判提取业务的异常。基于这个思路,一个时间段内各类提取次数、提取总金额环比突增的前几名可作为审计检查的工作切入点。

  此外,通过识别、分析这些异常数据,往往还能发现许多新问题、新知识,从而帮助我们更深入地了解研究对象,并做出符合实际的评价,做到发现问题,进而解决问题。

  主要参考文献

  1)黄永平.孤立点分析方法在计算机审计中的应用【J.审计研究。

  2)陈丹萍.数据挖掘技术在现代审计中的运用研究【J.南京审计学院学报。

  3)曾德胜.基于数据挖掘的审计系统研究【J.长春工程学院学报。

  4)张松.数据挖掘在公积金异常提取中的应用研究【J.市场研究。

  5)盖九宇.商务智能实战

【本文仅代表作者观点,与本网站立场无关】

来源:审计局
附件下载

扫一扫在手机上查看当前页面

相关解读