1、实证会计研究 授课人:牟韶红,第五节 财务与金融数据库,经验数据核心步骤,数据收集与整理 模型设计 描述性统计 多元回归分析(与稳健性检验)注: 一篇经验研究论文的数据描述性统计表一些多元回归分析表,数据的收集与整理,数据的收集 数据库:CSMAR;CCER;WIND 手工收集:年报;年鉴;网络资源 数据整理(stata软件) 数据结构变换 数据合并(sas/stata:merge;append) 计算新变量 ,一、确定样本数据类型,1.Cross-sectional Data (截面数据) 单一年度的多家公司年报数据 某一时点的多家公司交易数据 2.Time serial Data (时间序
2、列数据) 个股交易量数据 某家公司多年的年报数据 3.Panel Data (面板数据) 多家公司相同时间跨度的交易数据 多家公司相同年度跨度的年报数据 4. Pooled Data (混合数据) 多家公司不同年度的年报数据,截面数据(cross-sectional data),是在给定时间的样本构成的数据。即发生在同一时间截面上的调查数据。因为在不同的截面上,受到个体的影响,用绝对数时往往容易产生异方差,要用相对数。,2013年526家公司的截面数据,包括ROE、SALE、ZCFCL、是否GY,时间序列数据(Time series data),是一批按时间先后顺序排列的统计数据。时间序列数据
3、的例子:股票价格、货币供应量、消费价格指数(CPI)、GDP等。在时间序列数据中,后一期的数据往往会与前一期的数据有很大的相关关系,这是因为影响今期的因素,有时会同样影响下一期。比如GDP等。时间按频率可以有天、星期、月、季度、年等。在时间序列数据中,时间趋势和周期性比较重要(季节性数据),中国的GDP、人口和人均GDP的数据,表 上市公司的投资与股票账面价值:N=100,T=4,面板数据,若面板数据中丢失了若干个观测值,则为非平衡面板,混合截面数据(Pooled Cross Sections),即有截面数据的特征,又有时间序列数据的特征。,Obsno观察值号、city城市编号、year年份、
4、crime犯罪数、pop城市人口数、police城市警察数。,面板数据和混合截面数据,面板数据分析(pannal data)与混合截面数据(pool data)是有本质区别的: 混合数据是不同的时间追踪不同的人,样本是随机抽取的。方法是用虚拟变量和解释变量的乘积(交互项)来考察解释变量的作用是否在某期发生了变化。 面板数据是不同的时间追踪相同的人,是非随机抽样。方法有DID(双重差分),FE,RE。如果非观测效应(不随时间改变的变量)与解释变量不相关,用随机效应模型;相关,则用DID,FE。,panel主要针对同一组个体连续若干年搜集的数据;pool可以是不同组个体若干年的整理。 比如相同的上
5、市公司连续5年的数据,面板数据 比如,每年都有新的公司加入和老的公司退出,这些上市公司5年的统计,混合截面数据,OLS回归非平衡面板? xtreg,fe等价于reg+dummy variable,例子,1、企业家政治关联、竞争战略选择与企业价值 基于上市公司动态面板数据的实证研究 李 健 陈传明 孙俊华 南开管理评论 2012(6)被解释变量企业价值 (Value),采用 TobinsQ 进行测量。,“本文选择上市公司中的制造业为本研究的样本。我们按照以下标准对原始样本进行筛选 :(1)剔除 B 股或H 股上市公司,这些公司面临境内外双重监管环境,与其它上市公司不同 ;(2)剔除 2001-2
6、008 年曾被 ST 和P T 的样本;(3)剔除资产负债率超过 100% 的样本;(4)剔除总资产回报率在(-50%,50%)之外的,被认为是经营异常的样本 ;(5)剔除企业家简历介绍缺失或者不详细的样本。最终,我们的样本期为 2001-2008 年中国制造业 A 股上市公司,截面企业数量为 592,观测值 为 4415 的非平衡面板数据集。”,2、信贷政策与企业资本结构来自中国上市公司的经验证据 伍中信 张娅 张雯 会计研究 2013(3) “本文研究时间跨度设定为 2001 2010 年,选取沪深 A股上市公司作为研究对象,并做了如下筛选: ( 1) 剔除金融类行业的上市公司; ( 2)
7、 剔除 ST 和 ST* 上市公司; ( 3)剔除在任何样本期内观测数据缺失的上市公司; ( 4) 剔除在任何样本期内出现负债率 0 或者 1 的上市公司。得到一个包含了 846 家上市公司的平衡面板数据。资本结构变量和控制变量的数据均来自国泰安数据库中上市企业数据板块,信贷政策变量数据来自中央人民银行网站公布的年度数据统计。”,二、数据或指标的类型与设计,绝对数指标体系 对数化的问题 如:企业的规模 总资产对数、总收入对数等 相对数指标体系 比例结构指标 某子类数据占总类数据的比例 如:流动资产/总资产、可变现资产/总资产等 比较指标 三大财务报表之间不同经济意义的项目的比例 如:ROA、R
8、OE等 横向指标体系 某个公司同同行业平均水平的比较 某个行业同整个样本的平均水平的比较,3、公司治理对上市公司审计意见类型影响的研究基于 2007-2011 年中国民营上市公司的面板数据 刘霄仑 郝臣 褚玉萍 审计研究 2012(5) (1)模型被解释变量:审计意见类型 非标准审计意见,op 赋值为 1;当审计意见为标准无保留意见时,op 取值为 0 (2)控制变量:公司规模情况 资产规模对数 Lnasset,数据的整理和指标的设计,数据整理需注意的问题 先设计一个数据整理的大致计划 整理过程中,要保留最初数据库和每个关键变动数据库 整理过程需要耐心和细心 掌握使用软件完成最终的整理要求 注
9、意预选较多的指标 指标的设计问题 注意指标计算公式的意义和符号问题 注意指标设计时的现实可获得性 读年报原文的好处 仔细阅读数据库说明书的好处,特殊变量哑变量(dummy),许多变量是可以定量度量的,如:收入、ROE等。 但也有一些影响经济变量的因素无法定量度量,如:行业、年份、是不是国有企业 为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。 这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(dummy variables)或哑变量。,虚拟变量做为解释变量引入模型有两种基本方式:加法方式和乘法方
10、式。 1、加法方式 Y=a+b1X1+b2X2+e X2是哑变量,国有企业为1,民营企业为0 Y=a+b1X1+e Y=a+b1X1+b2+e 假定b20,则两个函数有相同的斜率,但有不同的截距。意即,国营、民营的企业管理层平均薪金(Y)对业绩(X1)的变化率是一样的,但两者的平均薪金水平相差b2。,可以通过传统的回归检验,对b2的统计显著性进行检验,以判断国有、民营企业管理层的平均薪金水平是否有显著差异。,0,2,虚拟变量的设置原则,虚拟变量的个数须按以下原则确定:每一定性变量所需的虚拟变量个数要比该定性变量的类别数少1,即如果有m个定性变量,只在模型中引入m-1个虚拟变量。否则会陷入所谓的
11、“虚拟变量陷阱”,产生完全共线性。例:已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可。例:文化程度分为小学、初中、高中、大学、研究生,引入?个虚拟变量?,三、基本模型,模型中的变量 因变量(dependent variable) 待解释变量 自变量(independent variable) 解释变量(需要研究的变量) 控制变量(根据现有文献需进行控制的变量),一元线性回归 直线回归方程的模型:yi=a+bxi+ei 其中: a是截距 b是回归系数(regression coefficient)(回归直线的斜率)
12、ei是残差 回归系数的统计学意义是:自变量每变化一个单位,因变量平均变化的单位数,2019/12/4,回归直线的性质,2019/12/4,残差要求: (1)不相关 (2)同方差 (3)正态性,多元线性回归 多元线性回归方程模型为:yi=b0+b1x1i+b2x2i+bnxni+ei b0是常数项,是各自变量都等于0时,因变量的估计值。 b1,b2,bn是偏回归系数( pertial regression coefficient ),其统计学意义是在其它所有自变量不变的情况下,某一自变量每变化一个单位,因变量平均变化的单位数 OLS目的是使残差最小,应计项目盈余管理模型,1、总应计: (1)TA
13、t=EBEIt-CFOt (现金流量表法) Collina and Hribar(2001) EBElt是在第t年非正常项目调整前的利润,CFOt则是在第t年的经营现金流量。 (2)TAt= CAt- CASHt- CLt+ STDt-DEPt (资产负债表法) CAt表示流动资产的变化; CASHt表示现金及其等价物的变化; CLt表示流动负债的变化; STDt短期借款的变化和DEPt表示折旧和摊销费用。,2、Jones模型、修正Jones模型与考虑业绩影响的修正Jones模型 分行业分年度回归 Jones 模型认为管理当局不能操纵主营业务收入和固定资产,因此可以根据主营业务收入变化和固定资
14、产原值来估计非可操控应计利润。,修正 Jones 模型则认为管理当局可以完全操纵赊销产生主营业务收入,因此估计非可操控应计利润时应扣除应收账款的影响。,考虑业绩影响的模型是在修正 Jones 模型的基础上加入业绩变量,以控制公司异常业绩的影响。,例1-盈余管理之琼斯模型,如何用STATA计算修正截面的Jones盈余管理的模型,运用不同行业不同年份的数据对模型进行普通最小二乘法OLS回归 模型如下: TA/At-1=a*(1/At-1)+b*( REV- REC/At-1)+c*(PPE/At-1)+e 注:e为残差项,1/At-1、 REV- REC/At-1为2006-2010年的数据,PP
15、E/At-1为2007-2010年的数据。 NDA/At-1=a*(1/At-1)+b*( REV- REC/At-1)+c*(PPE/At-1) NDAt表示在时间t经过总资产调整的非操纵性应计部分 DA=TA-NDA,TA:为净利润-经营性净现金流量,公司j在t年的应计项目总额 ,因为经营性盈余经营活动产生的现金净流量总应计 REV:公司j在t年的收入与t-1年收入的差额 REC:公司j在t年的应收账款与t-1年应收账款的差额 PPE:公司j在t年的固定资产净额 At-1:公司j在t-1年资产总额 E:反映除与以外的参差项目对所带来的影响 琼斯模型主要认为公司主营业务收入的变动会带来营运资
16、本变动导致企业应计利润的变动,固定资产会产生折旧从而带来应计利润的减少,因此Jones模型用销售收入增量(REV)以及固定资产原值(PPE)作为自变量,建立总应计的多元线性回归方程,通过参数估计,预测事件期的可操纵性应计。,数据整理,下载数据:非金融行业 代码:股票类型:A股、当前状态:正常上市、主板。 其他:全部行业、合并标识:合并报表、报表类型:Q4年报、调整标识:最新,信息来源:Q4 下载了4张表,下载的数据需要设定变量名: 代码:id,行业:ind,年份:year,应收账款:rec,总资产:tas,固定资产:fa,营业总收入:inc,净利润:np,经营净现金流量:ncf_o,注意问题,
17、多元线性回归 分行业分年度回归,行业划分(制造业细分到次类,其他行业采用门类) 这个模型回归是没有截距项的 每年度每个行业至少保留 15 家公司(30家公司) 这个模型是研究认可的,R方的大小不会报告出来,分行业分年度求计算企业的盈余管理(jones模型),如数据是2001-2013年,行业分为21类,算2001年度盈余管理要跑21次多元回归,2002年度也是跑21次回归,依次类推,这要跑13年度*21行业类=273次回归 建议大家学习stata,应计项目盈余管理的其他模型,2、KS模型 KS模型假定销售收入与应收款项、成本费用与存货和应付款项、折旧摊销与固定资产之间的比例保持不变,据此估计非
18、可操控应计利润。,3、DD模型 Dechow和Dichev(2002)在应计质量的研究中将经营活动应计对公司上期、当期、下期共三期的经营活动现金流进行回归,以残差进一步计算应计质量。,4、BS模型(ball & Shivakumar),非经常性损益盈余管理,问题:线下项目是指损益表中营业利润以下的项目,即非核心收益,通过投资、联营、资产置换、财务重组甚至政府补贴等线下项目操纵盈余也是一种多发现象。 魏涛、陆正飞、单宏伟:非经常性损益盈余管理的动机_手段和作用研究_来自中国上市公司的经验证据。来源:管理世界。,真实活动的盈余管理,参考Roychowdhury(2006),对于真实盈余管理,包括销
19、售操控,例如提供价格折扣、给予更宽松的信用期间或者提供更宽松的信贷期间,以增加当期销售量;减少酌量性费用支出,减少发生时计入当期损益的费用,如广告支出、日常维修费用等;过量生产,生产比实际需求更多的产品,减少单位产品的成本。 分年度分行业回归,产品成本的增加主要来自产品产量的增加,产量的增加则导致单位产品固定费用的减少,因此,异常产品成本的增加可能会导致单位产品的边际贡献的提高,进而提高公司的利润;反之,异常产品成本的减少可能会导致单位产品的边际贡献的降低,进一步降低公司利润。,酌量性费用,公司操控利润可能使用其中一种或者多种真实盈余管理方法或手段。用以上三个指标来度量公司的真实盈余管理水平,
20、具体的来看,可供操纵经营性现金流量及可供操纵费用的增加、异常生产成本的降低,表示公司利用真实盈余管理行为调低了利润,反之,则表示公司利用真实盈余管理行为调高了利润。 Cohen et aj. (2008)的研究,将这三个指标相加之和作为综合真实盈余管理(RM_PROXY)的计量指标。,交互项,交互项是两个或者多个自变量的乘积。引入交互项是为了说明某一自变量X1对因变量y的影响与X2有关。,例子-BASU模型,其中:EPSit:公司i在第t年的每股税后净收益; Pit-1:公司i在第t年期初的股票价格; RETit:公司i在第t年的年股票收益率,RETit的正负代表了“好消息”和“坏消息”; D
21、Rit:哑变量,当RETit0时取值为1,否则为0。b2表示会计盈余对“好消息”的反应系数,(b2b3)表示会计盈余对“坏消息”的反应系数,当b3显著大于零时,会计盈余对“坏消息”的反应系数大于对“好消息”的反应系数,表明会计盈余对“坏消息”反应比“好消息”更迅速,会计政策选择是稳健的。,2、特定公司,年度的稳健性指标,Basu 模型无法区分不同公司间的横截面差异及相同公司不同期间的纵向变化,即无法分公司分年度衡量稳健性。 Khan&Watts(2009)提出用于测量某一家公司在某一年度的会计稳健性的指标,而这一指标将能同时胜任稳健性的横截面研究和时间序列研究。 步骤 1 建立传统的 Basu
22、 模型,步骤 2 建立以下修改后的 Basu 模型 利用市值净值比、公司规模和负债比例作为替 代变量,建立相应线性函数来衡量不同公司不同年度的盈余对好消息和稳健性的反应程度其中 Size 表示市场价值的自然对数; Mb 表示公司市场价值与账面价值的比例; Lev 表示长期负债与短期负债之和除以期初市值。,将( 2) ,( 3) 式代入到( 1) 式,并控制 Mb、Size 及 Lev 对盈余的影响,得到( 4) 式,将( 4) 式中的估计值 1 4和 1 4分别代入到( 2) 和( 3) 式,计算所得 3和 4分别为第 i 家公司第 t 年的 G-Scoreit和 C-Scoreit。其中 G
23、-Scoreit为盈余对好消息的敏感程度; C-Scoreit为盈余对坏消息敏感程度的增量,即为所求分公司分年度衡量会计稳健性的指标。,Baum, Christopher F., 2006, An introduction to modern econometrics using Stata,StataPress. 这本书300页左右,讲解具体周到。书上的数据可以在STATA网站上直接下载。作者Baum,Christopher F本身就是STATA官方编程人员的主力。,Stata视频文件,500M 上传到115网盘,http:/ 人大经济论坛 http:/bbs.pinggu.org/foru
24、m.php 连玉君的博客 http:/ 不低于5000字翻译核心内容。 背景、假设、数据、变量、模型、运行结果、结论。 2、再找一篇最近几年相关的中文文献进行复制(另外一个小组或两个小组的任务) 必须是中国会计评论、经济研究、管理世界、南开管理评论、会计研究、审计研究、金融研究上的实证文章,数据、变量、模型,最好复制出其中主要的实证过程。 3、自己搜集整理关键主题的文献综述。,小组汇报,报告摘要 1. 研究问题、文献回顾与研究假说 1.1 研究问题与特色 1.2 文献回顾的层次设计 1.3 理论逻辑与研究假说 2. 研究设计 2.1 研究设计思路 2.2 分析方法说明 2.3 分析步骤说明 2
25、.4 样本与变量 3. 实证过程与结果说明 3.1 实证分析过程 3.2 实证分析结果 4. 结论与展望 4.1 研究结论 4.2 问题与不足 5. 复制论文 5.1理论分析 5.2 实证部分,1、平日成绩 每个小组报告后,要将相关的WORD文档和PPT文件,写上小组成员的姓名学号发送我的邮箱。 2、期末论文 写出一篇实证论文。,课后作业,下载2013年这十二个行业“开发支出、资产总额、内部控制审计意见类型、会计师事务所”数据 手工收集2013年各上市公司研发支出数据 可能在附注管理费用中披露、可能在其他经营活动的现金支出中披露 以“组名.整理数据第1次作业.rar”发到我的邮箱,上海证券交易所年度链接: http:/ 深圳证券交易所年度报告链接 http:/