1、Logistic Regression MPI并行化,刘小兵,Logistic回归模型(背景),Logistic分布: ()= 1 ( 1+ 极大似然估计MaxLikelihood:已知广告的展现和点击情况,求解模型参数,使得出现该状况的条件概率最大化广告点击率,Logistic Regression的训练问题是Unconstrained Optimization问题,Logistic Regression训练,基于梯度的优化方法: 最速下降法、共轭梯度法、牛顿法、拟牛顿法、BFGS、L-BFGS、OWLQNGradient & Function Evaluation 函数值:()= log(
2、1+ )+ log(1+ ) 梯度:()= Pr(=0| ,) + Pr(=1| ,) ,Step1: 初始点 0 ,给定终止误差 ,k=0Step2: 计算 ( , 满足条件|( )| 则收敛退出Step3: 根据计算搜索方向 的不同,分为:最速下降法、共轭梯度法、牛顿法、拟牛顿法、BFGS、L-BFGS的方法Step4: 确定步长,求t,使得:( + )= ( + ) ,计算 +1 = + 从Step2开始计算循环,训练的一般过程,并行化-Why MPI,LR并行化平台-Olympic,Olympic:更快(捷) 更高(效) 更强(大)“快捷”:使用方便,单机版Uni-processor和
3、并行版Multi-processor程序是同一个二进制的Binary,有或者没有MPI环境均可以使用,SVN checkout即可以使用,接口简单。在MPI的环境中,只要配好MPI环境即可立刻启动并行版Olympic_train“高效”:训练速度高效,大数据量支持 训练速度分钟级“强大”:处理数据的能力强大,Olympic_train支持并行多任务(集群非独占),即到即用。对Instance number和Feature number均不做限制(不管任何数据量,加机器即可以解决)。目前的机器数量下可以支持25亿的Instance number和10亿Feature number数目的高效训练。
4、加到500台机器可支持10000亿的曝光!“容灾”:支持完美的容灾,Olympic-架构,Parallel Batch Learning 1、Hybrid Application Model Parallel Gradient & Function Evaluation 数据&计算并行 2、Feature Shards/Instance Shards/Checkerboard 3、稳定 能达到最优的Empirical Loss的水平Parallel Online Learning 1、One Pass training data 高效 在线学习 收敛快 2、参数敏感 不容易达到最优Empirical Loss 3、不稳定 不易于监控,评测,Offline Evaluation,评测,PerformanceMulti-tasksScalabilityResources,评测,PerformanceMulti-tasksScalabilityResources,思考,Scaling技术应用Hessian Matrix Scaling集群机器数目达到W台网络通信问题容灾效率的考虑框架的思想:Hadoop + MPI(后续分享)Pregrel(Super-step graph-processing),