1、大数据与股票市场非规范行为规制:一个分析框架 刘海二 广东省农村信用社联合社 摘 要: 非规范行为是股票市场风险的重要来源, 但其较强的隐蔽性增加了识别和防范的难度。为此, 有必要运用大数据技术, 对股票交易的数量、时间和价格三个变量及其组合进行精准分析, 找到引起异常交易的源头并进行预警, 提高非规范行为的识别概率;同时对行为主体的证券账户和银行账户信息进行分析, 对手机号码、虚拟账户、IP 地址等信息进行数据挖掘, 形成交叉验证, 对非规范行为进行追踪。从事非规范行为的市场主体通常会隐蔽自己的行为和身份, 可运用大数据技术进行行为分析和交易复盘, 进而为市场主体“画像”。推广运用大数据技术
2、以规制股票市场非规范行为, 需要在解决“信息孤岛”问题的基础上, 强化信息监管、舆情监测和不同部门之间的监管协同。关键词: 大数据分析; 数据挖掘; 股票市场; 异常交易识别; 非规范行为; 作者简介:刘海二 (1983-) , 男, 重庆黔江人, 博士, 供职于广东省农村信用社联合社。收稿日期:2017-05-04基金:广东金融学会 2017-2018 年度重大决策咨询研究课题商业银行互联网金融创新研究 (项目编号:GDJRXH201611) 的资助Received: 2017-05-04近年来, 股票市场各种非规范行为时有发生, 引发一系列的非系统性风险甚至重大风险, 已成为导致股票市场不
3、稳定的重要因素。如何防范股票市场中各种非规范行为带来的风险, 是摆在理论工作者和监管部门面前的重要课题。非规范行为最终会反映到股票交易的数量、时间、价格及其组合上, 即表现为一系列可量化、可观察的数据信息。大数据、云计算、人工智能等技术的快速发展, 为捕捉和分析各种非规范行为及其引发的股票市场异常波动提供了新手段, 有助于提升股票市场风险的甄别、防范和化解能力。对大数据技术运用于股票市场风险防控的具体逻辑和路径进行探讨, 具有重要的理论意义和实践价值。一、股票市场风险的主要来源及传染渠道(一) 股票市场风险的主要来源:非规范行为。现实中, 股票市场各种非规范行为时有发生, 部分操纵股市案件、内
4、幕交易案件引起了社会各界的广泛关注。此外, 股票市场中的非规范行为还包括违规信息披露、官商勾结、向不合格投资者销售产品、违规配资 (包括资金来源不合格和市场主体不合格等) 、财务造假等。在股票市场非规范行为中, 有些是利用制度缺陷、通过各种违规行为进行寻租或者牟取暴利 (吴敬琏, 2002;谢平和陆磊, 2003;Jain, 2001) , 还有一些则是利用制度漏洞、采取表面合规行为获取不当利益, 例如在“327 国债事件”中, 万国证券大举透支卖出国债期货。虽然股票市场非规范行为具有不同的表现形式, 但归纳起来主要表现在以下几个方面:一是交易主体的非规范性, 即不具备交易资格的市场交易主体
5、(包括监管者) 参与股票市场交易。对于一般市场主体的非规范性, 运用大数据技术很容易进行识别并予以处罚。对于监管者违规参与市场交易, 常见情形是监管者与被监管者合谋获取非法利益。对这种情形, 运用大数据、人工智能等技术虽然可以识别出来, 但仅靠技术手段难以解决问题, 因为这涉及到监管部门的内部管理问题。二是交易行为的非规范性, 如内幕交易、操纵股市、老鼠仓等。对于这类情形, 运用大数据等技术很容易进行识别, 也是本文试图分析的重点。三是交易工具的非规范性。需要说明的是, 交易工具本身并不存在是否规范的问题, 关键在于股票市场相关制度要事先对交易工具的有关属性加以明确。各种非规范行为是影响股票市
6、场稳定性的“定时炸弹”, 潜在风险很大, 可能直接导致股票市场的大幅波动, 进而引发股票市场风险, 比如 2013 年“光大乌龙指”事件引起股市急涨急跌 (彭志, 2016) 、2015 年股票市场发生异常波动 (国家和王万里, 2016) 等。为此, 需要运用各种技术来防范和化解股票市场非规范行为带来的风险。当然, 大数据、人工智能等技术也不是万能的。减少股票市场的非规范行为, 还需要不断完善相关法律法规和市场制度。(二) 股票市场风险的传染渠道:情绪传染和业务关联。股票市场风险主要通过情绪传染和业务关联两个渠道进行传染。情绪传染通过调整公众预期来扩散风险, 主要表现为“唤醒效应” (All
7、en 等, 2006) 和“羊群效应” (Kindleberger, 1996) 。“唤醒效应”的传染机制为:一旦股票市场发生风险, 会引起市场主体对其他金融市场重新进行评估, 其他金融市场如果存在“不尽人意”之处, 很容易受到负面影响, 进而导致市场情绪急转或投资者风险厌恶情绪上升。在当前互联网和自媒体时代, 不同金融市场之间的情绪传染速度比以前更快, 传播范围更广。“羊群效应”的传染机制为:投资者的个人观念或行为容易受到周围群体的影响, 当股票市场发生风险事件时, 投资者倾向于采取与多数人相一致的决策, 进而加剧市场动荡、加速风险传染。在“羊群效应”的作用下, 投资者很难对股票市场未来的不
8、确定性作出合理的预期, 往往通过观察周围人群的行为而提取信息, 这些信息大致相同且彼此强化, 很容易由个人理性行为导致集体非理性行为。股票市场风险传染的业务关联渠道主要包括投资者跨时空投资组合、金融业务交叉和金融机构综合化经营等。风险通过投资者跨时空投资组合的传染机制表现为:一旦股票市场发生风险事件, 投资者在财富效应的作用下, 或者基于风险管理和流动性管理的需要, 迅速调整资产在不同金融市场中的配置, 进而导致股票市场风险迅速传染至其他金融市场。风险通过金融业务交叉的传染机制表现为:金融机构内部各部门、各分支机构之间, 银行、证券、保险等不同类型的金融机构之间, 存在着复杂的资产负债关系和广
9、泛的风险传染网络。股票市场如果发生风险事件, 可能以某个金融机构为节点、以资产负债关系为链条, 通过不同金融机构和金融市场形成风险传播网络, 股票市场风险通过这一网络迅速蔓延至其他金融市场。在互联网金融讯速发展的背景下, 银行、证券、保险、信托、基金等金融机构的合作不断深入, 逐渐演化出更为复杂的合作模式, 跨行业、跨市场的金融业务发展驶入“快车道” (刘利红, 2014) , 这促进了金融行业的快速发展, 但同时也加剧了业务交叉所带来的金融风险。风险通过金融机构综合化经营的传染机制表现为:随着金融混业经营和金融创新的发展, 一些金融机构有向金融控股集团发展的趋势, 或者已经成为事实上的金融控
10、股集团。一旦某个节点 (如股票市场) 发生风险事件, 很容易传染到同一金融控股集团内的其他业务部门和其他金融市场。二、大数据技术在股票市场非规范行为规制中的运用分析股票市场非规范行为虽然表现形式多种多样, 但万变不离其宗, 最终都会反映到股票交易的数量、时间和价格三个变量及其组合上, 具体表现为某种异常交易。因此, 可以运用大数据技术“顺藤摸瓜”, 找到引起异常交易的源头, 提前进行预警。此外, 运用大数据技术“抓”非规范行为还具有警示和信号显示作用, 一旦行为主体预期非规范行为被发现的概率增加, 其从事非规范行为的动机和可能性将下降。股票市场非规范行为识别和追踪的分析逻辑见图 1。图 1 股
11、票市场非规范行为识别和追踪的路径分析 下载原图(一) 大数据分析与股票市场非规范行为的识别。运用大数据技术来识别非规范行为, 即进行异常检测与诊断, 主要有以下几种方法:基于统计学的方法、基于密度的方法、基于距离和邻近度的方法、基于关联的方法、基于聚类的方法、基于模糊集的方法、基于人工神经网络的方法、基于遗传算法或者克隆选择的方法等 (周英等, 2016;Tan 等, 2011) 。各种方法的核心都是运用大数据技术来发现离群点, 即不符合一般数据模型的异常点。异常交易行为主要反映在股票的交易量、交易时间和交易价格三个变量上, 这三个变量可能是相互联系的。通常运用大数据技术来分析这三个变量上的离
12、群点。在交易时间方面, 异常交易行为的例子包括:某市场主体频繁在利好消息发布前买入, 或者在基金公司等机构投资者买入前买入, 在机构投资者卖出前卖出, 或者在收市或开盘时买入, 影响收盘价格或者开盘价格。在交易价格方面, 异常交易行为的例子包括:以明显高于或低于市场价格的价格买入或卖出、交易价格偏离历史轨迹、交易价格在很短的时间内快速上升或者下降 (价格的“加速度”大) 。在交易量方面, 异常交易行为的例子包括:交易量突然放大 (成交量的“加速度”大) , 或者在一段时间内连续买入或卖出某只股票等。上述异常交易行为, 都可以通过大数据技术加以监测和识别。(二) 大数据分析与股票市场非规范行为的
13、追踪。识别非规范行为相对比较简单, 但要对非规范行为进行追踪、发现其来源于哪个具体的机构或个体, 难度是比较大的。通过大数据分析发现某只股票存在异常波动后, 需要进一步深入分析, 找出异常波动的原因及相关主体, 即找到引起股票异常波动的人格化属性。各类账户 (如银行账户、证券账户、电话号码、虚拟账户) 和网络 IP 地址具有人格化属性, 据此可以找到具体的市场主体。然而股票市场中的许多交易行为都具有一定的隐蔽性, 比如化整为零、分散交易、利用他人账户进行交易等, 增加了追踪的难度。账户的核心功能是记账, 目前大多的记账方式属于集中式记账 (即存在一个中心主体) 。账户在一定程度上能够集成个人的
14、所有业务和所有资产、负债, 并且是个人金融活动乃至日常生活的出发点和归属, 因而账户具有身份认证功能, 能够归拢信息 (谢平等, 2014) 。通过对账户的分析, 可以发现非规范行为的“蛛丝马迹”, 具体分析如下:第一, 根据现行有关规定, 银行账户必须进行现场开户, 证券账户虽然实现了远程开户, 但可以通过生物识别技术、云脉身份证识别技术以及交叉验证等方式来确定客户身份。银行账户和证券账户都是实行强制实名制的, 并且银行账户、证券账号与某个具象的个人具有一一映射的关系。银行账户包含的主要是资金流, 证券账户包含的主要是信息流, 可以对银行账号的资金流和证券账号的信息流进行深度挖掘, 找到股票
15、市场非规范行为的有关线索。第二, 手机号码具有唯一性。从 2013 年开始, 我国已在法律制度和技术层面保证了手机号码实名制的实施。手机号码实现实名制后, 可以对用户的通讯记录和通讯信息进行数据挖掘, 进而为追踪股票市场的非规范行为提供线索。第三, 虚拟账户的实质是账户提供者分配给客户的一个有效代码, 而客户所持有的号码可能是手机号、QQ 号码、邮箱等这些易记的账号, 客户号码与提供者分配的代码相关联。虚拟账户具有两个显著特征:一是客户身份的虚拟性。虚拟账户采取弱实名制, 但能够通过分析 IP 地址、客户行为等方法来强化其人格化属性。二是资金的虚拟性。虚拟资金表现为登记在中介机构的数字, 但这
16、些数字只是一种记账符号, 不是真实的货币。虚拟资金主要以中介机构的信用作为担保。在对行为主体的证券账户、银行账户信息进行分析的基础上, 通过对行为主体的手机号码、虚拟账户信息进行数据挖掘, 可以形成交叉验证, 对原有证据进行加强或者提供补充。行为主体进行股票交易时, 一般通过互联网进行。因此, 可以追踪发出交易指令的 IP 地址, 找到具象化的行为主体。此外, 借助 IP 地址分析也可以在一定程度上发现行为主体运用他人账户、化整为零进行交易的情况, 这是因为行为主体通常会通过同一个 IP 地址来完成多个账户的不同交易。(三) 大数据技术在市场主体行为分析中的运用。从事股票市场非规范行为的市场主
17、体通常会采用各种手段隐蔽自己的行为和身份, 因此, 需要在账户分析的基础上, 运用大数据技术对交易行为进行复盘, 对市场主体进行“画像”。在对非规范行为进行分析时, 首先要对市场主体进行聚类, 由聚类所生成的簇是一组数据对象的集合, 这些对象与同一个簇中的对象相似度很高。聚类分析方法主要有 K-均值、层次聚类、神经网络聚类、模糊 C-均值、高斯混合聚类等 (周英等, 2016;Tan 等, 2011) 。市场主体的聚类属性主要是社交关系, 比如同学圈、同事圈、朋友圈及其衍生关系。市场主体的关联交易、隐蔽行为主要通过上述社交关系来完成。在聚类分析的基础上, 需要透过市场主体的行动轨迹, 对市场主
18、体进行“画像”。行动轨迹包含的动点信息主要包括:市场主体的股票交易行为信息, 手机通讯信息, 自行车、汽车、火车、飞机等交通工具使用信息, 酒店住宿信息, 与个人及机构往来密切的人员信息等。通过分析市场主体的人格化属性特征以及诸多动点的信息, 可以初步勾画出市场主体的基本轮廓, 还原交易过程及其细节, 进而找到股票市场非规范行为的源头, 并采取相应监管措施。(四) 大数据分析在股票市场非规范行为规制中的实施步骤。第一, 数据搜集。目前证券交易所的风险预警系统主要使用交易数据。但运用大数据技术分析股票市场非规范行为, 仅仅依靠证券交易所的数据是不够的, 还需要从外部搜集各类数据, 包括政府部门的
19、数据, 以及来源于社交网络平台、电子商务平台以及其他相关网站的行为数据。第二, 数据处理。包括数据源聚合、数据清洗和转换、数据补充、数据储存等。第三, 建立模型。建立包括计量模型在内的各种数据分析模型, 再把这些模型转换为机器学习的算法, 如监督学习、非监管学习、无监督学习、增强学习等。第四, 反馈结果。运用大数据技术分析股票市场非规范行为的核心是输出各种标签体系, 判断是否存在异常交易行为, 若存在异常交易行为, 则筛选出哪些市场主体是可疑的市场交易主体, 并发出相应预警与提示。第五, 监管跟进。监管部门根据大数据分析结果, 并辅之以人工核查, 分析法律意义上的因果关系, 并依法对市场主体进
20、行处罚。当人工智能技术运用比较成熟时, 也可以通过监管系统自动对违规主体进行处罚, 并要求其限期完成整改。三、运用大数据技术规制股票市场非规范行为的若干建议大数据技术在股票市场非规范行为规制中具有广阔的运用前景, 但目前尚处于起步阶段。为此, 需要在解决“信息孤岛”难题的基础上, 强化信息监管、舆情监测和监管协同。具体建议如下:第一, 强化对股票市场信息的管理。运用机器学习、搜索引擎等技术对各类信息进行动态排列, 对市场主体披露的信息进行筛选、去伪存真。若发现异常行为, 进一步深入调查, 找出违法违规行为的线索, 并依法采取监管措施。当人工智能、大数据等技术发展到一定阶段时, 可通过人工智能技
21、术自动对股票市场非规范行为进行识别、处罚、勒令整改和解除处罚, 从而代替监管人员行使部分监管职能。第二, 强化对股票市场舆情的监测。舆情引导和管控的基本逻辑和路径为:社会舆论 (讨论发酵) 市场媒体 (汇总表达) 官方媒体 (个别问题一般化) 监管部门 (给出处理意见) 官方媒体 (宣传解读) 。在舆情监测过程中, 监管部门可以根据市场主体、事件和时间等主题, 检索、提取信息并生成报表。比如, 以某一投资者为关键词, 查询其关联账号发表的社交言论, 与股票交易记录、移动客户端的地理位置等信息进行关联和分析, 进而获取内幕交易的证据。第三, 强化不同部门之间的监管协同, 其核心是对交叉关联业务监
22、管信息的共享。运用大数据技术对股票市场风险进行预警, 需要来自多方面的监管数据, 不仅包括金融监管部门, 还可能涉及到国家网信办、工信部等相关主管部门。股票市场监管部门加强与其他主管部门的信息共享和监管合作, 可为大数据分析提供必要的组织保障、基础数据和信息支持。参考文献1Blinder A.S.How Central Should the Central Bank Be?J.Journal of Economic Literature, 2010, 48 (1) . 2Varian H.R.Big Data:New Tricks for EconometricsJ.Journal of Ec
23、onomic Perspectives, 2014, 28 (2) . 3Kindleberger C.P.Manias, Panics and Crashes:A History of Financial Crises 3rd ed.M.Wiley, John&Sons, Incorporated, 1996. 4Jain A.K.Corruption:A ReviewJ.Journal of Economic Surveys, 2001, 15 (1) . 5Tan P., Steinbach M., Kumar V.数据挖掘导论 (英文版) M.人民邮电出版社, 2011. 6刘利红.跨
24、行业、跨市场金融创新与金融监管N.光明日报, 2014-08-02 (5) . 7吴敬琏.腐败与反腐败的经济学思考J.中国监察, 2002, (8) . 8彭志.量化投资和高频交易:风险、挑战及监管J.南方金融, 2016, (10) . 9国家, 王万里.我国 A 股市场异常波动的成因及风险防范J.南方金融, 2016, (5) . 10谢平, 陆磊.金融腐败:非规范融资行为的交易特征和体制动因J.经济研究, 2003, (6) . 11谢平, 邹传伟, 刘海二.互联网金融手册M.中国人民大学出版社, 2014. 12周英, 卓金武, 卞月青.大数据挖掘系统方法与实例分析M.机械工业出版社,
25、 2016. 注释(1) (1) 目前也存在一些去中心化的记账方式, 比如运用区块链技术进行记账, 但这种方式的使用范围较为有限。 (2) (2) 2010 年, 工信部宣布实施手机用户实名登记制度, 但当时还没有明确的法律条文支持。2012 年 12 月, 全国人大常委会发布关于加强网络信息保护的决定, 电话用户实名制首次进入法律层面。2013 年 7 月, 工信部出台电信和互联网用户个人信息保护规定和电话用户真实身份信息登记规定, 并于同年 9 月 1 日起实施电话用户真实身份信息登记。从 2015 年 1 月 1 日起, 工信部、公安部、工商总局在全国范围内联合开展为期一年的电话“黑卡”治理专项行动。从 2015 年 9 月 1 日起, 电信企业在通过各类实体营销渠道销售手机卡时, 要求用户出示本人身份证件, 并当场在第二代身份证读卡器上进行验证。 (3) (3) 不是所有虚拟账户都具有资金虚拟性的特征。 (4) (4) IP 地址是一一对应的, 但行为主体可能会修改 IP 地址, 因此 IP 地址具有弱人格化属性。