1、大数据背景下寿险产品定价与创新 张宁 中央财经大学中国精算研究院 摘 要: 论文主要探讨保险公司如何应用大数据,包括其在保险产品定价、客户价值挖掘以及巨灾风险估计方面的应用。首先基于实际调查结果对中国保险业的数据量进行了统计分析,并给出了数据使用效率的统计结果;其次以具体数据为基础,利用大数据方法和思想对传统的保险产品精算定价进行了改进,包括寿险产品以及财产险产品,该结果使保险公司获得了更大的比较优势;再次还基于寿险公司以及健康险公司的数据融合,通过设计全覆盖的保险产品来挖掘客户价值,并获得产品定价结果;最后还基于跨公司和行业的大数据应用,利用极值理论对中国巨灾风险进行了建模,使之能够应用于保
2、险公司的保险和再保险业务中。关键词: 大数据; 精算定价; 客户价值; 巨灾风险; 极值理论; 作者简介:张宁(1978-),男,辽宁朝阳人,博士,中央财经大学副教授,主要研究方向为金融数据挖掘、金融风险管理。收稿日期:2013-12-25基金:教育部重点研究基地重大项目“数量风险管理在长寿风险、最优再保险和计算金融中的应用”(11JJD790004)Study on Applying Big Data in Chinese Insurance CompaniesZhang Ning China Institute for Actuarial Science,Central Universit
3、y of Finance and Economics; Abstract: The paper discuss how to apply Big Data theory and technique in insurance companies. And three applying ways were promoted which included insurance products pricing,Catastrophe risk modeling and customer value exploration. Also the paper introduced the statistic
4、al results of general data situations of insurance industry. In aspect of products pricing,the paper gave the detailed process of Big Data and got a more competitive results. In aspect of customer value exploration,the paper designed all- covered insurance products based on Big Data technique. In as
5、pect of Catastrophe risk,the paper succeeded to build models with the help of Big Data and extreme value theory.Keyword: Big Data; Actuarial Pricing; Customer Value; Catastrophe risk; extreme value theory; Received: 2013-12-25一、引言信息是金融行业中最重要的资源之一,而数据是信息最直接的表现方式。随着电子技术发展以及世界金融市场交易规模的迅速扩大,金融行业中的数据量呈爆炸
6、式增长趋势,如每一天世界金融产品交易数据达到 500G 以上,其中保险公司的数据占比达到 12%( 第一届 CCF 大数据学术会议,国家会议中心,2012 年 12 月) 。这充分说明金融行业已经进入了“大数据时代”。按照 Kenneth Cukier 在Big data中的定义,大数据又被称为巨量信息、海量数据等,指的是所涉及的信息量非常巨大,超过传统软件和技术所涉及的范围,而所谓的大数据技术或大数据能力就是在这种海量数据下有效的数据分析技术,即能够利用各种各样类型的巨量数据,快速获取有价值信息,并使之应用的能力。鉴于金融行业的巨量数据存量以及每天的新增数据规模,大数据分析能力对其尤为重要,
7、保险公司是金融行业的重要组成部分,也不可避免要面对大数据现状,充分利用巨量数据来推动业务发展和创新,提升竞争力也自然成为当前最迫切的任务。为了详细了解我国国内的大数据情况,我们对中国保险业进行了数据情况的统计( 以下简称“中国保险业大数据背景调查”) 。该统计所涉及的保险公司共122 家,其中包括 58 家人身险公司、59 家财产险公司以及 5 家再保险公司。在人身险公司中,中资公司 35 家,外资公司 23 家; 在财产险公司中,中资公司38 家,外资公司 21 家。这些公司的业务规模占全部保险市场的 95%以上,可以认为调查结果具有一定的普遍性。我们统计的数据种类包括以下五类: 一是保单数
8、据及保单维持数据: 这部分数据组成了保险公司的业务系统,以专业的数据库软件来操作。二是核赔理赔数据: 这部分数据随着电子化进程加快,大部分也在业务系统中,同时部门内部也有对应的数据库。三是投资理财数据: 因为寿险经营时间长,需要对保费保值增值,所以寿险的保费投资是经营的重要方面,导致这部分数据非常丰富,相对来说,财产险公司中,这类数据量比例较小。四是定价数据: 这部分数据是精算部门用来定价和利润测试,以及用来向保监会报送各类报表运算时候需要的数据,有相当一部分来自于业务系统。五是风险管理数据,这部分数据相当零散,且涉及以上各类数据,同时还包括公司的财务数据、行业数据、监管数据、宏观经济数据乃至
9、宏观管理数据。六是再保险公司公司数据,再保险公司承担保险公司的分出业务,通常掌握了很多家原保险公司的数据,具有比原保险公司更多的数据,这部分数据尽管有相当一部分来自于原保险公司,但大数据的核心并非是关注数据的重复问题,而是如何利用数据进行快速决策,所以我们把再保险公司的数据也统计在内。我们对所有参与统计的原保险公司前五类数据并汇总,然后加上再保险公司数据,由此构成中国保险业整体的数据情况。这里需要注意到: 汇总过程中会有很多冗余数据,例如投资相关的金融市场数据等,但从大数据的核心出发,这些数据应该不作区分。原因如下:首先,大数据的本质是快速和预测,而并不关心重复数据的冗余情况,对重复数据冗余的
10、处理其实是降低大数据应用效率的,大数据更关心的是基于整体的巨量信息快速进行决策和分析。其次,每家公司在经营过程中,即需要考虑公司本身特有的信息、特有的数据,同时也必然和其他公司一样面对公共的信息、公共的数据,这些数据都是他们决策基础。最后,重复的数据虽然存在但其对决策的影响其实是不同的,这和一同协作的数据有关,也和每家公司的大数据能力有关,换句话说,对每家公司来说,即使是重复的数据但也意味着不同的信息。图 1 给出了基本的统计图,从图中看,整个行业的数据规模呈现指数增长,这除了每家公司自有的数据外,还包括大家都面对的公共数据( 左图) ,对比剔出公共数据后的数据占比( 即每家公司特有的数据)
11、,可以发现,公司特有的数据占总体的比例越来越小,这也意味着保险公司的经营越来越需要考虑外部环境以及其他公司的行为。同时需要指出的是,再保险公司的数据在近三年增加明显,5 家再保险公司的数据规模几乎和 58 家人身险公司的数据规模接近,也促使了保险行业整体数据规模的提升。图 1 统计结果图 下载原图图 2 个体保险公司实际使用数据量和效率 下载原图同时,我们对个体公司进行了统计,来考察普通一家保险公司在生产经营过程中实际需要面对的数据量是多大,图 2( 左) 给出了具体的结果。同时我们还对 25 家寿险公司和 23 家财产险公司进行了“效率统计”,图 2( 右)给出了结果。综合看来,目前保险公司
12、面对的数据量尽管规模很大,但还没有充分利用所有的信息和数据,在业务中使用数据的效率也有待提升。这种现状正是本文研究的出发点,我们将以掌握的数据为基础,在定价、巨灾分析以及健康险方面进行大数据应用研究的尝试。二、跨部门大数据应用: 寿险产品精算定价产品精算定价能力是保险公司的核心竞争力之一,大数据在精算定价中的应用核心就是从“样本精算”过渡到“全量精算”。对寿险来讲,保险公司基于“精算模型”,并使用“资产份额”和“宏观定价”等方法来确定实际保费。对财险公司而言,保险公司通常利用历史数据来获得“损失模型”,并通过分析各因素作用来获得最终保费。传统的这些过程中,一般只涉及公司所掌握数据的很小一部分,
13、是“样本精算”,但为了获得更大的市场空间,保险公司有必要利用大数据来获得“定价”的比较优势,实现“全量精算”。这里我们仅以寿险定价为例来进行应用研究。寿险公司在长期经营过程中积累了大量的数据和信息,同时外部环境变化也积累了海量数据,而传统的寿险产品定价对这些数据置若罔闻,仍然是基于保监会公布的 0003 生命表和一些公司的有限信息来进行,这必然不能反映真实的风险状况,也丧失了市场竞争中的比较优势。这里以一家普通的保险公司为例来说明大数据应用。我们将数据范围扩展到公司的全部部门( 包含整个业务部门乃至核保核赔部门) ,这些部门的数据经过唯一的 ID( 如身份证号) 链接,形成一个庞大的海量数据记
14、录,在舍弃一些信息并整理后( 仅包含索赔引起的死亡率信息) 形成了一个 900M 的数据库,涵盖的时间是 20032009。该数据即是进行“全量精算”的基础。接下来,我们对数据库进行整理并加上国家统计的数据( 来自于中国人口与就业统计年鉴) ,获得了从 1983 年开始的分年龄段死亡率表( 表 1) 。表 1 大数据整合实例: 分年龄分年代历史数据统计 下载原表 该数据表是面板数据,很真实反映了目前公司客户以及城镇居民平均的死亡率信息,对寿险来说,死亡率就是风险度量,我们利用此就可以进行更精确的定价。具体的模型有 Lee - Cater 模型以及“死亡率分解模型”,前者是被多次使用的经典模型,
15、后者是非线性的处理模型。Lee - Carter 模型由美国人口学家 LEE 和 CARTER( 1992) 共同提出的,该模型的具体形式是为 lnmxt= ax+bxkt+ xt。其中 mxt表示 x 岁的群体在 t 时刻的死亡率,a x表示年龄因素对发病率变化所起的解释作用,是依赖于年龄的参数,k t表示时间因素对发病率变化所起的解释作用,为依赖于时间的参数,而 bx则反映了年龄因素对于 kt的敏感程度, xt是随机误差项。为了获得唯一的结果,一般对模型进行限制: tt= 0 , x x= 1 。模型拟合后获得 kt的趋势信息,通过时间序列可以进行延拓,从而得到未来的死亡率信息预测。Lee
16、 - Carter 模型在欧美应用较广,但对于短数据以及亚洲死亡率数据的信息提取会存在偏差,对这些情形,死亡率分解模型( MDM) 则可以大显身手。死亡率分解模型首先要将面板数据按照顺序把每年的不同年龄段死亡率连接成时间序列,该序列的各年的“重复信息”反映了死亡率改善的效果。接下来用希尔伯特- 黄变换( HHT) 中的经验模态分解( EMD) 来获取其“重复信息”即本征模态函数,当这些信息移除后,就可以获得死亡率改善的趋势信息。该趋势信息也可以利用时间序列进行延拓,然后与本征模态函数复合得到未来死亡率信息。接下来我们利用下述精算定价公式进行定价。( 本文中 n20)这里,P 为保单趸交净保费,
17、Q 为保险金额,n 为保险期险,i 为市场利率。表 2 给出了 30 岁投保的不同年限的寿险死亡给付,可以清晰地看到,利用大数据使产品定价结果更低,从而获得更大的定价空间,在 Lee - Carter 模型和死亡率分解模型中,后者给出了更低的定价结果。表 2 大数据背景下的定价与传统定价净保费比较( 30 岁) 下载原表 三、跨公司大数据应用: 客户价值挖掘众所周知,保险的本质是“大数定律”,对于任何一个群体来说,只要投保的数量足够多,就可以开发出相应的产品。而站在公司角度,其积累的大规模数据是最宝贵的资源,其客户群体完全可以进一步细分,当细分后的群体数量足够多的时候,就可以开发针对不同群体的
18、具体产品。同样,当不同公司之间进行数据共享,共同整合数据的时候,这种优势就更加明显,甚至可以提供针对具体个人的满足其需求的产品。我们仍然以上述 900M 数据作为基础,混合该公司健康险数据,并配合另外一家健康险公司数据以及合作医院的跟踪数据,数据总量大约为 2. 3G。我们的目标是针对投保普通寿险的个人提供一揽子的保险产品,当其处于健康状态时候,我们提供普通“标准”的寿险产品和健康险产品; 当其状态转为慢性病或者严重疾病时,我们提供针对“该患病群体”的寿险产品。即让保险产品覆盖客户生存时间的全部,达到客户价值挖掘的最大化。在这当中,有两个数据特别重要: 一个是首年发病率,它实际上表明了客户从健
19、康状态转移到患病状态,将引起保险公司健康险给付开始以及“患病群体”寿险进入。二是“患病群体”死亡率,其意味着健康险给付结束以及患病全体寿险的给付。这两个数据是客户价值挖掘的核心,也是整体的风险的度量。利用整合的大数据,我们按照如下步骤来获得首年发病率和“患病群体”死亡率。第一步,筛选出重大疾病保险的承保理赔记录,筛选出所需字段,添加需要计算的字段,如年龄段、疾病种类、理赔数、暴露数、保单周年日等。第二步,对于 13 年中具体某一年的测算方法为,假设保单周年日与被保险人生日是重合的,以保单周年日为分界点,将该年度一分为二,分别记有保单年度 1、年龄段 1、理赔数 1、暴露数 1 和保单年度 2、
20、年龄段 2、理赔数 2、暴露数 2,对保单记录做出些许调整( 如失效日期调整、满期日调整、多次索赔合并调整等) 后,按照矩估计精算法为每条保单记录分别计算出其在该年度内前后两部分的理赔数 1、暴露数 1 和理赔数 2、暴露数 2,按照年龄段对上述数据进行分类汇总,即可得到该年度内不同年龄段的理赔数和暴露数,二者相比即为该年龄段在该年内的重疾发病率。第三步,1999 年至 2011 年 13 年中的每一年均重复上述处理过程,共计算 13 次,结果可得到 13 年中每一年不同年龄段的理赔数、暴露数和重疾发病率,将13 年的理赔数、暴露数再次按照年龄段分类汇总后即可得到不同年龄段总的理赔数和暴露数,
21、二者相比即得到该年龄段的总重疾发病率。第四步,上述步骤所得结果是所有重疾总和的一个疾病总发病率情况,但也可分疾病种类测算出每一种具体疾病不同年龄段的发病率情况,测算方法与上述步骤相同。表 3 给出了糖尿病患者的首年发病率以及患者死亡率。表 3 癌症和糖尿病首年发病率结果 下载原表 对于客户而言,其普通寿险可以按照本文第二部分内容进行定价; 健康险产品可以基于表 3 的首年发病率按照健康线精算定价模型定价; “患病群体”寿险定价基于表 3 的患者死亡率按照寿险定价公司进行定价。表 5 给出糖尿病患者的寿险定价示例,为节省篇幅仅给出了 30 岁、40 岁、50 岁的人 5 年、10 年、20 年以
22、及 30 年期寿险的定价。表 4 大数据下糖尿病纯保费测算结果示例 下载原表 四、跨行业大数据应用: 巨灾风险分析巨灾风险一直为财产险公司以及再保险公司所关注,财产险公司需要在承保时了解巨灾风险发生的频率,从而给出合理定价以及进行适当分保,以免因巨灾导致偿付能力不足,甚至破产。在再保险公司面对众多的分保业务中,很多都蕴含着巨灾保险,对其进行详细了解有助于其控制风险、增强市场竞争力。但遗憾的是,我国保险公司在巨灾风险分析方面一直比较弱,众多巨灾分析服务都是国外再保险公司提供的。这其中的原因除了巨灾数理技术的薄弱之外,还涉及我国保险公司数据积累的不足,无法提供有用的巨灾发生信息,从而就不能进行分布
23、拟合,也就无法进行定价和分析。基于数据量不足的现实,保险公司的巨灾分析必须考虑跨行业甚至跨国家的数据,这里我们以地震巨灾为例,来考虑大数据在巨灾分析中的应用。这里我们使用的是如下几组数据: 一是上述寿险公司数据( 20032009) ,数据规模 900M; 二是普通财产险公司数据( 20032010) ,数据规模 1300M,主要为车险索赔; 三是国家地震局的中国地震记录的时间序列数据,数据规模 1200M; 四是中国科学院地理研究所研究项目的地震分布统计信息( 19542008) ,数据规模 270M; 五是世界地震统计资料( 限于时间和搜集能力,仅部分资料) ,120M。基于以上数据,我们
24、以地理范围为唯一标示来进行数据统计,在频率统计中,不仅包括国内的统计资料,还根据世界地震统计资料,进行相同地震带的频率统计。这里我们以汶川地震震源的坐标为中心,根据半径不同,程序能够自动统计出相应的频率。图 3 给出了 100 公里半径的地震强度发生频率图。利用频率分析结果,同时对照索赔记录中的索赔额( 保险公司的损失额) ,利用极值理论( EVT) 进行拟合。极值理论中假设随机变量序列 z t 的同分布函数为 F( z) ,定义 Fu( y) 为随机变量 Z 超过阈值 u 的条件分布函数,也叫极值分布,它可以表示为:根据条件概率公式我们可以得到(当 zu 时):Pickands(1975)给
25、出了一个有关分布的定理:对于一大类分布 F(包括几乎所有的常用分布)条件超限分布函数(极值分布)F u(y),存在一个G, (y)(被称为广义帕累托分布)使得:根据此定理,我们利用大数据的信息来进行参数估计,方法是最小二乘法或极大似然估计。保险公司仅需要在大数据的基础上,进行程序运算,给出对应的距离或其他信息,就可以得到该极值分布的具体参数。如我们以上述例子为样本,可以得到其参数估计值分别为- 0. 7 和 1. 8。有了损失分布,财产险公司就可以用来进行定价或者进行分保安排,而再保险公司就可以进行风险控制。五、结论通过以上大数据在保险公司中的具体应用,我们得到几点结论:第一,保险公司应该在定价中充分利用公司所掌握的全部数据,让定价从“样本精算”转移到“全量精算”上来,让每个部门数据都发挥作用,通过整合和利用大数据技术,达到更精确的风险定价,从而获得更大的定价空间。第二,保险公司自身应该重视数据接力,甚至保险公司之间应该加强数据合作,通过针对性的保险产品覆盖来实现客户价值挖掘,扩大保险市场。第三,保险公是不但要重视本行业的数据积累,还要重视并挖掘其他行业的数据价值,通过与自身数据的融合来实现大数据所带来的价值。