1、大数据深度分析、发掘美国、中国专利信息,大数据分析为什么,大数据核心是数据的相关性!专利文本内容都不可计算!专利文本内容都必须人工阅读来理解!,现有专利分析以专利号为分析精度单位;文本间都是离散、孤立、互不相关!,800万组技术特征结构化表示930万中国专利申请、授权文本,800万个知识型传感器延伸每一篇专利文本,大数据分析拓展分析深度/广度,大数据分析就是在现有分析方法上架设了,一个800万倍显微镜,可以进行更深、更细微层次的系统性分析;一个800万倍放大镜,可以进行更广、更宽视角的技术领域大布局分析;通过复杂计算,发现隐藏在大数据中的各种潜在相关模式,而这些淹没在近与无穷的大数据中的相关模
2、式是无法被人通过有限的检索策略与传统分析方法发现!,大数据分析IBM美国专利,. IBM,专利管理,国际著名;. 20个大数据分析变量,量化分析IBM专利库;. 与传统最多2个分析视角不同,大数据分析20个变量,20个分析视角,无限分析组合;(IBM去重后共120,807美国授权、申请),2008年非正常申请,专利度1的无效率比正常高出22倍,我们发现IBM专利于2008年出现故障,发生903篇专利度为1;这些专利以比正常高出22倍被放弃;以此为戒,IBM从此严格管理专利申请的专利度,从2008年的20/18/1,一改为连续4年20/25/18。,SONY-top3-apd-acc,2005,
3、SONY申请出废品,专利度1的无效率为正常一倍,精确量化世界专利质量,大数据分析,我们发现2个指标可精确量化评估专利质量,专利度:申请保护专利权个数,为越大越好;特征度:技术限制特征数,为越小越好;其中,特征度是根据Patentics语义模型计算获得,中文模型表示全部中国专利全文,共800万维度;英文模型表示全部世界专利全文,共656万维度;高精度语义特征向量表示;,特征度-描述人类创新的本征量,描述人类发明创新可以量化!创新量化与语言无关!创新量化是个正态分布!正态分布可以控制的!,质量控制,关注纂写这些专利的代理,关注这些专利,可能原创性高,质量控制,关注纂写这些专利的代理,现有专利质量管
4、理:今天u1,u2申请x1,x2篇,3年后u1驳回、撤回率都高于u2,只能换u1,但申请人的申请全报废了;Patentics专利质量管理:今天u1代理申请x1篇专利度为m1,特征度为n1,u2代理申请x2篇专利度为m2,特征度为n2的专利,其中m2m1,n2n1,而且,m2,n2都优于行业(IPC小组)标准,m1,n1都低于行业(IPC小组)标准,u2优于u1,考虑接受u2,要求u1重新返工,直至合格为止;,美国专利-年度-专利度-特征度,特征度从21.28-14.83,专利度从8.73-17.62,大数据分析发现美国创新发明质量逐年上升,主要体现在专利度上升,特征度下降,世界科技创新大趋势:
5、专利度上升(应用从单一到多样)特征度下降(限制从复杂到简单),美国按年-专利度-特征度,大数据分析进入中国的外国专利,isd/1984-2014 andnot ns/中国,得所有国外进入中国专利申请,为1,314,179;isd/1984-2014 andnot ns/中国 and fmdb/us and o/pat,得所有国外进入中国的美国同族,为1,441,245;极大部分国外进入中国的申请,都是通过美国进入中国的;松下美国申请与中国申请按代理分组,松下在中国申请的美国同族专利39888篇,松下在中国申请41505篇,中英文专利大数据分析,131万中国同族申请,美国同族英文表示,相同发明采
6、用中、英文表示,具有相同发明(131万/144万),通过大数据分析得,进入中国申请采用中文表示: 专利度:17.23; 特征度:16.68;美国申请采用英文表示; 专利度:17.97; 特征度:16.63;证明专利质量指标与语言表示无关,是本征量!,144万美国同族申请,相同发明采用中、英文表示,中、英文专利审查大数据分析,中国申请文本/中国授权文本1,442,556篇,通过大数据分析得,申请文本(审查前): 专利度:11.53; 特征度:19.99;授权文本(审查后): 专利度:8.86; 特征度:25.59;中国审查质量量化专利度降2.67;特征度(限制)增5.6,美国申请文本/美国授权文
7、本1,835,661篇,通过大数据分析得,申请文本(审查前) : 专利度:21.24; 特征度:14.66;授权文本(审查后) : 专利度:17.14; 特征度:17.99;美国审查质量量化专利度降4.15;特征度(限制)增3.33,结论:中国审查要比美国审查严格,2003-2014中美授权大数据分析三组专利对比分析: 1. 231万美国专利; 2. 国外进入中国56万中国专利; 3. 国内79万中国专利大数据分析变量公开年/专利度TOP32003-2014按年,根据专利度分类,统计前3位最多数量的专利度;美国从开始就是专利度20为最多(主要是欧美申请人),而早期日本申请人以10个居多,201
8、0年开始,专利度提高成趋势,20、18、19为最前3位;,20个专利度基本都是欧美公司,早期10个左右专利度都是日本公司居多,国外进入中国,10个左右专利度为最多,国内,1个专利度为最多,专利度与无效率成反比,特征度高,专利度趋势增大,专利度趋势减小,国外进入中国授权: 国内授权:,2011-2014生产专利度1的专利的前5代理与申请人,2011-2014专利度为1的国内申请分析,2011-2014发明申请中专利度为1共有166,414篇;已审查结案47,879篇,其中授权17,475篇;授权率17475/47879=36.5%;还有118,535申请待审;按36.5%授权率,估计43,265
9、篇将被授权;,2011-2014专利度为1的国内申请分析,专利度为1申请文本:17,475篇、特征度43.12;专利度为1授权文本 :17,339篇、特征度45.65;专利度为5申请文本:23,309篇、特征度25.20;专利度为5授权文本: 17,339篇、特征度34.33;没有被授权专利度为1申请文本:30,404篇、特征度22.4。,国内、国外、美国授权特征度比较,2000-2014国内授权发明专利823,269篇,特征度发散;2000-2014国外进入中国授权619,416篇,特征度稳定;2000-2014国外进入中国授权在美国同族545,405篇,特征度稳定;中美审查比较,中国更严格
10、,相同发明,在中国授权要比在美国授权的特征度(限制)多2.5;,大数据分析下的专利质量控制,借助大数据分析,我们可以对国家、地区、行业、企业、代理的专利信息进行无限细分、深度剖析;就像生产线上产品,每一件专利从申请-引用-授权-被引用-维持-过期,采用多组数值化指标,进行精细管理、监视;数值化指标可按技术领域监控,如H04L的国内申请的行业标准为10.47/21.43,国外进入中国21.2/15.75,美国20.54/16.19;一旦发现大幅偏离标准,就应该拒绝接受废品,而不是最后报废成品!,大数据分析华为代理管理策略,华为花费巨资在专利管理,特别是根据代理申请的一些指标确定代理取舍;风险是要
11、等到代理性能下降,往往损失已经造成;大数据分析试图通过计算来预测华为代理取舍策略;被大数据分析标出浅红色块的代理,基本都被华为舍去;任何用户包括申请人、代理所只需大数据分析实时监视申请、OA质量,提前采取措施,避免损失,保证质量!,华为国际分类小组前10 与中兴竞争分析,专利的“再发明”,通过大数据分析,我们可以对专利信息进行无限细分、挖掘;我们发现许多按现有申请、授权形式是没有价值的专利(专利度低,特征度高),其本身发明内容非常有价值;例如,IBM报废的903件专利,许多都是非常有价值的发明,问题是人工纂写等错误导致专利报废;如果将这些专利挖掘出来,对这些专利的发明内容进行重组,进行“再发明
12、”,例如,分拆权利项与特征度;不用考虑授权、有效与否,因为这些专利太复杂,不可能侵权;除了分析自己的专利库外,一定分析竞争对手、行业的“报废”专利;大数据分析下的专利挖掘,真正实现变“废”为宝!,通信领域H04L,2012-2014共授权29,599篇,其中平均专利度为11.72,平均特征度为28.45;按特征度分组,20/19/18/17/21个特征度为最多,其中20特征度的平均专利度13.39;我们分析,29,599篇授权中,有1,296篇的专利度为1,都是高校;其中南京邮电大学为最多,有74篇,平均特征度70.9,按特征度分组,55/63/46为最多3组;浙江大学52篇,平均特征度60.
13、21,特征度48/41/47;清华大学41篇,平均特征度76.67,有2篇特征度高达106。1,296篇专利发明内容先进,一般公司无法与之相比,值得“再发明”!,大数据无缝集成分析中、美专利交易,Patentics无缝集成全部、最新美国专利交易数据;如,全部美国专利留置(Lien)共85,576篇;全部美国专利质押(Collateral)共145,312 篇;全部美国专利贷款(Loan)共31,369篇;全部美国专利担保(Security)共 665,189篇;例如,有280件专利通过留置方式被Apple购买;,每一项交易,普通检索式就可获知所有交易细节,分析中国专利许可,Patentics无
14、缝集成全部、最新中国专利法律数据;如,全部中国专利发生专利许可交易(普通许可、独占许可)共89,156篇,其中国外公司让与许可共5,174篇;其中,最大让与申请人前三位是,日立(746篇)、三星(217)、松下(212)最大受让申请人为京东方,共受让680篇,其中受让日立665篇;,京东方受让专利680篇,最大让与人日立、佳能等,tcl受让专利189篇,分析680篇许可专利的技术聚类,可以窥视京东方专利布局与意图,最大让与人三星、松下等,中国专利交易,全部中国专利(实用、发明)发生专利权转移共341,873篇,其中国内申请人为256,469篇,国外申请人为85,404篇;其中,发明专利权转移共
15、202,721篇,其中国外申请人共转移84,369篇,除去公司内部转移20,561篇,实际发生专利权转移63,808;国内申请人进行专利权转移较少。,NXP受让1455篇中国发明,高通受让405篇中国发明专利,主要让与申请人列表,诺基亚、惠普是主要让与方,Apple专利购买策略,Apple用申请人Apple申请与iphone相关核心专利UCL/455共有1,194篇; ann/apple and ccl/455Apple通过购买专利方式,得455分类专利1,009篇;lsann/apple and ccl/455 andnot ann/apple所以,仅用申请人Apple检索,漏检一半,正确检
16、索,得2203篇;lsann/apple or ann/apple and ccl/455,Apple专利购买策略,发现被引用最多(1065),的确是触控原创专利,2发明人是原创发明人,2007年引入iPhone时,已经被Apple购得,从申请标题看,新发明申请人Martisauskas的新发明,很可能就是Apple新一代iPhone的新创新,Apple2007年买了专利,现在还在买什么?,549篇专利都被Apple买了,但没有一篇通过现有检索系统能检索到,从申请标题看,新发明申请人Martisauskas的新发明,很可能就是Apple新一代iPhone的新创新,原创发明人ELIAS与新发明人
17、Martisauskas共同申请新的专利,原来新发明人Martisauskas的新申请也被Apple买了,美国-被引用-公开年度-趋势,美国-CCL514-被引用-公开年度-趋势,中、美专利TOP10申请人分析,美国,国外进入中国,国内,专利度/特征度是本征不变量,可以量化世界创新知识的流动!如,松下电工在美国申请与进入中国申请的专利度/特征度分别为, 12.41/17.78(英文) 13.33/17.5(中文),英文,中文,US-TOP-20-Assignees-University-ACC,US-TOP-20-Assignees-University-TCC,中国-前20-企业-大学-专利
18、度,中国-前20-企业-大学-特征度,中国30省份-状况,授权-国内前10国际分类小组-国外进入中国发明国际分类小组,点击搜索对应专利,授权-国内前10国际分类小组-国外进入中国发明国际分类小组-数量,授权-国外进入中国发明国际分类小组-国内前10国际分类小组,授权-国外进入中国发明国际分类小组-国内前10国际分类小组数量,点击搜索对应专利,华为发明前10国际分类小组-中兴国际分类小组,同时比对,自动生成比对检索式,自动生成比对检索式,华为发明前10国际分类小组-中兴国际分类小组数量,中兴发明前10国际分类小组-华为国际分类小组,点击搜索对应专利,中兴发明前10国际分类小组-华为国际分类小组数
19、量,国内-发明申请-申请年度-数量分布,专利度从5.89-6.8,特征度从15.47-22.22,国外进入中国-发明申请-申请年度-数量分布,专利度从11.52-15.65,特征度从20.17-16.78,大数据分析美国专利,美国授权、申请全文9,026,117篇(2014.08.19),其中,isd/1970-2014 and ns/nn and o/pat,isd/1970-2014 and ns/nn and o/pat and fmdb/wo,分析命令,大数据分析中国专利,中国申请全文7,805,243(2014.08.27),其中,isd/1984-2014 and ns/nn,isd/1970-2014 and ns/nn and fmdb/wo,分析命令,