孤立点分析的5种方法
孤立点是数据集中与一般数据模型不相符的数据。一般情况下,在数据导入数据仓库之前,应经过数据清理,消除其不一致的现象。
但在实际应用中,经常会出现一些客观存在的,非操作人员的人为因素而导致的异常数据。对于这些异常数据,既无法按照一般可行的分类规则对其划分,也无法通过聚类方法将其与其他数据建立有效的联系,应用孤立点分析技术对数据进行分析,却能有效识别这些异常数据,从而把虚假财务报告从中识别出来。一般情况下,应用于虚假财务报告识别的孤立点分析主要有如下方法:1.基于统计的方法采用某种概率分布拟合数据集,根据该分布对数据集中的每个数据对象进行“不一致性测试”,如果与分布不符合,就认为它是一个孤立点。基于分布的方法易于理解,对数据分布满足某种概率分布的数值型单变量数据较为有效。但对大多数挖掘应用来说,数据分布形式事先并不知道,需要多次的实验才能得到合适的数据分布形式。
而且有的数据分布并不满足任何概 率分布,该方法难以适应。
2.基于距离的方法基于距离的孤立点的概念认为,如果一个数据对象与数据集中大多数对象之间的距离(相异度)都大于某个阈值,就是一个孤立点。基于距离的孤立点定义体现孤立点的本质,避免了基于分布方法中的数据分布适应性问题。
3.基于偏差的方法基于偏差的方法不采用基于分布或基于距离的度量值来确定孤立点。相反,它通过检查一组对象的主要特征来确定孤立点。与给出的描述“偏离”的对象被认为是孤立点。
4.基于密度的方法基于密度的孤立点的定义是在基于距离的基础上建立起来的。
这种方法将数据对象之间的距离和某一对象在其指定的邻近范围内包含的对象个数这两个参数结合起来,得到“密度”的概念。根据密度来判断一个对象是否是孤立点。该方法能有效的发现局部的孤立点。
5.发掘时序孤立点数据的方法时序孤立点数据对象一般是指那些与时间上相邻的对象相比,幅度变化比较大,且持续时间比较短,将它们从序列中移去,剩下的序列将变的很平滑,可以获得比较简洁的表示。
企业的财务报表数据会随着企业经营业务的变化而变化。实践表明,真实的财务报表中主要项目的数据变动具有一定的规律性,如果其变动表现异常,说明数据中可能存在虚假成分。孤立点分析对虚假财务报告中数据的异常变动识别有着非常重要的应用价值。在实际操作中,首先选择能够显著显示财务欺诈征兆的一些 关键财务指标,如应收款项比率,应收款项周转率,资产负债率,速动比率,主营业务税金及附加比率,资产质量,管理费用和销售费用率等,并为其设定一个阀值,通过孤立点分析方法的应用分析,一旦财务报告中的相关财务指标数值超过这个阀值,说明报告有可能具有虚假性。