数据挖掘技术在通信行业审计工作中的应用

时间:2018-10-19 编辑整理:敬智勇 来源:早发表网

[ 摘要 ] 本文从数据挖掘技术辅助审计人员进行审计数据分析、降低审计风险出发,以聚类 分析在某通信公司宽带收入真实性审计项目中的应用为例,探索如何利用数据挖掘技术从海量 数据中获取有用的审计线索,通过模型训练构建出相关的数据模型,从而提升审计人员的数据 分析能力,提高审计效率和质量。

[ 关键词 ] 数据挖掘 通信行业 审计 聚类分析 模型

基于技术进步的大数据时代已经来临,通信行 业是较早运用大数据技术的行业之一,数据 挖掘技术在客户分群、流失预测、资费预演等经营 领域得到大量应用的同时,也逐步应用到审计领域, 辅助审计人员进行审计数据分析,降低审计风险。

数据挖掘与传统数据分析技术的不同点主要在 于基于数据发现的方法不同。传统的审计分析方法 侧重于推理验证,数据挖掘更侧重于运用模型算法 来发现审计数据之间隐藏的重要内部联系。

一、相关概念

(一)数据挖掘

数据挖掘指从大量的、不完全的、有噪声的、 模糊的、随机的实际应用数据中提取出隐藏的、不 为人知的却潜在有用的信息和知识的过程。

(二)聚类分析

聚类分析指将物理或抽象对象的集合分组为由 类似的对象组成的多个群组的分析过程,是研究“物 以类聚”的一种科学有效的方法。

(三)孤立点分析

孤立点又称离群点,是一组数据中不符合一般 模型特征的另类对象。对此,Hawkins 给出了其本 质性定义:孤立点是数据集中与众不同的数据,使 人怀疑这些数据并非随机偏差,而是产生于完全不 同的机制。

(四)DIKW 模型

DIKW 模型将数据、信息、知识、智慧纳入金 字塔形的层次体系 , 每一层比下一层多赋予一些特 质,如图1所示。数据是对现实生产和生活的客观描述,最大限度从数值上反映现实世界;根据观察 和记录采集到原始数据,分析数据间的关系获得了 信息;知识是对信息加工后得到的有用资料;智慧 是高等生物所特有的一种能力,是分析判断、发明 创造、解决问题、预知未来的能力,主要表现为获取、 加工、应用、传播知识的能力。

 

二、通信公司内部审计存在的问题及数据 挖掘基本框架设计

(一)存在问题

目前通信行业内部审计工作存在的主要问题有 以下几点 :

1. 审计效率低。目前传统的审计方式,更多依 靠审计人员的业务经验,在现场进行数据的比对、 排查、分析、确认工作,因此效率极低。

2. 审计输出质量较低。当前的审计方式,以审 计成果(底稿)为导向,审计完成后,输出结果通 常为审计底稿,对同类问题的扩展延伸发现不能起 到较好的作用,更不能形成成熟可用的审计模型, 无法完成从经验到模型(智慧)的转化。

3. 存在问题覆盖不完整的风险。受限于大数 据处理能力较差,当前的审计方式中符合性验证居 多,抽样率较低,并且现场审计时间有限,实际执 行中可能存在审计计划中的风险问题未完全覆盖的 风险。

4. 审计结果差异大。因审计人员的经验不同, 抽样随机性较大,因此,不同的审计人员对相同项 目的审计可能出现不同的审计结论。

(二)数据挖掘审计方法的基本框架设计

为最大限度避免出现以上问题,笔者基于DIKW 模型,利用数据挖掘技术,进行数据挖掘审 计方法的基本框架设计,如图2所示。

 

1. 数据采集环节。根据审计项目计划和风险点 列表,采集被审计单位的海量电子数据和其他资料, 包括财报、账单、会计凭证、合同以及其他各种性 质的生产数据资料等。

2. 数据整理环节。也叫数据清洗环节,就是把 “脏”的数据“洗干净”, 发现数据文件中存在的 可识别的、不能反映事物真实状态的数据,如拼写 错误、格式错误、重复错误、一致性错误等,并对 这些错误数据进行纠正、删除、转换等处理,达到 提高数据可靠性的目的。

3. 数据挖掘环节。即透过数据的表象找到隐藏 的规律及联系,以此来洞察未来(规范性),进而 帮助审计人员对被审计单位海量电子数据(财务报 表、账单、会计凭证、合同以及其他各种性质的生 产数据资料)进行深层次的研究分析,获得审计线 索,发现审计疑点。

4. 构建模型环节。数据挖掘技术是用数据来产 生模型,通过不断的数据训练来优化模型,再用数 据去检验模型,模型的构造是从特殊到一般的归纳 过程,从而摆脱了前提假设的束缚和主观因素的干 扰,使结果更加真实、客观。

三、聚类分析在异常检测中的具体应用

(一)聚类方法的分类与作用

聚类分析己经被广泛应用于各种领域,在研究 应用过程中,产生了各种不同的聚类方法,主要包 括:基于模型的聚类方法、孤立点分析、层次方法、 基于密度的方法、基于网格的方法、划分方法等。

在审计数据分析中,审计人员都会检查数据异常值,这些异常值就是孤立点,通常是审计工作中 需要关注的重点。运用聚类分析孤立点检测算法, 可以发现审计中的异常数据,从而发现隐藏的问题 线索和违规行为。

(二)孤立点分析具体应用

在对某通信公司进行收入真实性审计时,抽查 2016 年 1 月至 2017 年 10 月的列账情况,调取 了“用户 ID、用户号码、地市编码、地市名称、 证件号码、证件类型、网别编码、网别名称、产 品套餐编码、产品套餐名称、用户状态、开户时 间、FEE1704、FEE1705、FEE1706、FEE1707、 FEE1708、FEE1709、FEE1710、最大值、最小值、 均值、方差、标准方差、在网时长、资费名称、融 合是否在用”等字段,旨在发现某一类用户的异常 数据。

首先进行数据清洗工作,将非此区间入网的 用户及符合红名单审批流程的欠费用户、公免用 户剔除。

然后将此用户清单导入数据挖掘工具 RapidMiner 中,选择 DBscan 算法,进行异常用 户检测。通过不断的训练数据,发现期间收入标准 方差大于 49.3 的用户极为集中,这部分用户均为 2016 年 7 月份以后入网或者重入网的,共有 8000 余户。

通过进一步分析发现,被审计单位在 2016 年 8 月份以后发展用户时,将部分用户一次性缴纳的终 端款在开户当月列入。

按照基于 DIKW 模型的数据挖掘审计应用基 本框架要求,将以上训练模型调整为固定模型,对 该审计单位的兄弟单位进行模型应用,亦发现了同 类问题。

四、结论

通过对数据挖掘技术在通信行业审计工作中的 应用研究,以及对研究过程的分析和理解,可以从 中得出一些有意义的结论。

(一)通信行业大数据特征适合审计数据挖掘 应用

国内各通信公司当前的运营主要存在入网离网 用户量大、政策和产品多样、信息孤岛等情况,各 系统应用数据管理较为严格、真实性强,导致其生 产的数据极为符合 IBM提出的 5V特点:Volume(大 量)、Velocity(高速)、Variety(多样)、Value(低 价值密度)、Veracity(真实性)。因此,数据挖 掘技术在通信公司内部审计中的应用必将成为众多 内审人员研究的重点。

(二)数据挖掘宜通过 DIKW 模型进行知识 管理

目前,通信行业虽然在逐步尝试数据挖掘技术 在审计工作中的应用,但应用范围不广、研究不深, 尚未形成众多成熟的审计模型。广大审计人员仍然 通过报表分析、抽样比对等传统审计方式进行问题 的锁定,急需转化为通过成熟数据挖掘模型库的方 式发现线索。

(三)成熟的数据挖掘算法可辅助发现未知 问题

审计人员可通过学习成熟的数据挖掘算法,对 模型进行优化训练,从而从大量数据中快速地提取 有用的知识,发现隐藏在大量数据后面未知领域的 审计线索。

(四)使用的数据挖掘工具符合成本效益原则

目前市场上通用型数据挖掘软件较多,可适用 于多种行业。当前,在线审计和审前数据分析是审 计过程的主要工作,占用了大量审计资源。利用数 据挖掘技术,可以大大降低审计人力资本,减少审 计资源占用,提高审计质量和效率,符合审计工作 的成本效益原则。


职称
论文

期刊
发表

加急
见刊

写作
咨询

课题
专答

编辑
顾问

关注
我们

返回
顶部