1、 一、洗钱的概念及我国反洗钱工作中的不足目前关于洗钱的定义有很多种,国际上并没有一个统一的定义。中华人民共和国反洗钱法中第二条中关于的洗钱定义是:通过各种方式掩饰、隐瞒毒品犯罪、黑社会性质的组织犯罪、恐怖活动犯罪、走私犯罪、贪污贿赂犯罪、破坏金融管理秩序犯罪、金融诈骗犯罪等犯罪所得及其收益的来源和性质的洗钱活动,依照本法规定采取相关措施的行为。我国反洗钱工作主要是通过可疑交易报告制度完成的,而金融机构的反洗钱的情报收集和分析工作中目前存在主要问题为:(1)工作量大,误报率高;(2)预设标准易于为洗钱分子所规避;(3)无法自动适应洗钱形式的变化等。这就使得洗钱可疑交易行为的识别存在巨大的困难。二
2、、数据挖掘技术在反洗钱中的应用数据挖掘是指从大量数据中提取或“挖掘“有趣的知识。目前,发达国家的反洗钱系统都充分利用了数据挖掘工具。在反洗钱领域中,人工智能、聚类分析、归纳算法、神经网络等都具有较强的适应性,具有广阔的应用前景。1.人工智能在反洗钱调查中得到了快速发展。美国的 FAIS 系统综合使用了人工智能技术和基于案例的推理、黑板(blackboard)等人工智能技术,其独特的分析能力主要得益于其数据视角的转变:从交易导向转为对象(如人或者组织)导向。每一笔交易、对象、账户都要用 336 条规则去测试,每条规则都给出是否为非法或合法的判定证据,最后用贝叶思推理对每一个项目的可疑性进行评定。
3、2.聚类分析是一种非监督的数据挖掘技术。在反洗钱领域,聚类分析技术特别适用于从大量的交易数据中产生及时、准确的线索。由于洗钱方式多种多样,数据对象表现出来的分布也就各式各样,并不是所有的可疑账户都可以聚成一类。因此,在洗钱行为识别中,簇的数量是未知的,因洗钱方式的不同而不同。聚类分析中“簇的数量未知“这个特点刚好满足洗钱行为识别的这个要求。而且,由于其聚类分析的自动处理、非监督学习等特性使得其可以动态地适应洗钱手段的变化,也可以在一定程度上规避洗钱犯罪活动的自适应问题。1、反洗钱基本程序1.1 定义目前关于洗钱的定义有很多种,国际上并没有一个统一的定义。但洗钱的本质就是利用资产、资金转换(转移
4、)过程中所造成的信息缺失、信息隐蔽、信息不完整、信息不真实、信息复杂而使犯罪所得收益的原始来源和性质无法识别或追溯,从而掩盖和隐瞒其真实信息。1.2 基本程序我国的反洗钱基本程序分为采集、监测分析和移交三个步骤:第一步,大额和可疑交易报告的收集。第二步,大额和可疑交易报告的分析和甄别。第三步,可疑交易线索移送。2、数据挖掘技术2.1 数据挖掘的任务数据总结、分类、关联分析、聚类。2.2 数据挖掘流程将数据挖掘应用于反洗钱技术中,在建立攻击检测系统过程中消除人为因素和特定因素,为其开发一个更加系统化的方法,即开发一套能从各种审计数据中产生攻击检测模型的自动工具。中国人民银行南昌中心支行苏辉贵应用
5、关联分析和序列模式分析等算法,发现特征之间的关联和与时序有关的联系,从而完成对用户数据的收集与特征选择过程。反洗钱中的数据挖掘过程如图 1 所示。2.3 数据挖掘中常用的数据挖掘算法1)关联分析算法。关联规则是表示数据库中一组对象之间某种关联关系的规则。在数据库的知识发现中,关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切地说,关联规则是通过量化的数字描述物品 A 的出现对物品 B 的出现有多大的影响。2)序列分析算法。关联分析是发掘数据记录中不同数据项之间的横向关联性,而序列分析则是发现不同数据记录之间的纵向相关性。序列分析的目标是在事务数据库中发掘出序列模式(lar
6、ge sequences),即满足用户指定的最小支持度(minimum support)要求的大序列,并且该序列模式必须是最高序列(maximal sequence)。3)分类算法。数据分类实际上就是从数据库对象中发现共性,并将数据对象分成不同几类的一个过程。分类的目标是对训练数据进行分析,使用数据的某些特征属性,给出每个类的准确描述(即分类规则),据此对数据库中的其它数据进行分类。4)聚类算法。将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程称为聚类。对象根据最大化类内的相似性和最小化类间的相似性的原则进行聚类或分组。所形成的每个簇可以作为一个对象类,由它可以导出规则,在许多应用
7、中,可以将一个簇中的数据对象作为一个整体来对待。聚类与分类不同,聚类分析的输入数据集是一组未标记的对象,也就是说此时输入的对象还没有进行任何分类,聚类的目的是根据一定的规则,合理地进行分组或聚类,并用显式或隐式的方法描述不同的类别。由于分析可以采用不同的算法,所以对相同的数据集合可能有不同的划分。3、数据挖掘技术在反洗钱中的应用3.1 系统的整体设计反洗钱系统本身应用的特殊性,要求它具有准确性、全局性、可扩展性、可伸缩性以及环境适应性。到目前为止,研究人员已经提出实现了许多方法,但没有一种模型能够满足完全检测的要求。由于系统的设计和实现都取决于设计人员自身的知识储备和其对已知反洗钱形式的了解程
8、度,因而系统的效率和环境性都受到了限制。基于数据挖掘技术的智能反洗钱系统的核心就是从事件序列数据(训练数据)中挖掘正常和异常行为规则,构建规则库,在此基础上,再根据发现的证据进行反洗钱识别。采用数据挖掘方法实现整个过程,并将它划分为三个过程。1)特征提取。在系统中,数据的来源主要有:系统审计日志、已知的洗钱行为、国家和政府的相关的法律法规。不同性质的数据要求采用不同的数据挖掘算法,因此,采用不同的方法来自动抽取不同数据源数据中的关键特征,为规则发现奠定基础。2)规则发现,对不同类型的数据,采用不同的数据挖掘算法发现其中的规则。对己知反洗钱方法的数据,由于决策树方法具有较高的精度和效率,采用该算
9、法进行处理,以发现其中的分类规则;对于审计数据采用分类和关联分析相结合的方法,以发现关键属性间的协同作用;对系统调用序列数据,则采用序列模式挖掘算法。3)建立好规则库后,对每一次发现的证据,就可以根据规则来判断是否属于反洗钱行为。3.2 基于数据挖掘的智能反洗钱模型的设计系统结构包括如下组件:数据处理、审计数据库、数据挖掘引擎、特征提取器、数据挖掘引擎、规则库、数据检测引擎和决策响应中心,如图 2 所示。来自多个地方的数据,主要通过如下方式进行处理和转换。1)数据处理。客户交易数据往往有几十甚至上百个属性,而机构代码,银行柜员编号等属性对反洗钱没有意义,因此要重新进行格式化。一些组织的公告,一般都是一些非机构化的文本文件,需要对此进行结构化处理,使之能分辨数据库的存取访问。2)数据补齐。如外国汇入的汇款,一般在客户完成国际收支申报后,银行才获得详细的汇款背景信息,而这些信息在核心系统的交易记录中又不被包含在内,因此要对一部分核心系统交易信息进行数据补齐。3)数据汇总。如日均现金存/取款量、月交易次数、平均交易金额,都需要对核心系统这些数据做简单的汇总处理。