1、Splunk IT 大数据最佳实践,宇信智臻您专属的大数据应用服务解决方案提供商,先来看看我们过去都是怎么处理IT的问题?,2.,IT的问题在哪里,状况,网络断线,主机无法联机,交易失败或延迟,类别,Operation Troubleshooting,Operation Troubleshooting,Operation,Troubleshooting,Performance Analysis,问题在哪里,防火墙出问题? Router出问题? Switch出问题? DNS? DHCP?,网络问题?主机本身问题? 操作系统问题? 应用程序问题?,网络问题?服务器问题? 操作系统问题? 交易系统问
2、题? 效能问题? 数据库问题? 交易所问题? 券商的问题? 其它厂商的问题?还是精诚的问题?,3.,IT的问题在哪里,状况,发生安全事件,类别,Forensics & investigation,问题在哪里,攻击者从哪里来? 那个服务器被攻击? 哪些使用者受害? 黑客动了什么手脚?,有没有服务器登入/注销纪录? 防火墙通联记录?,业绩贡献? 毛利贡献? 对原厂下单多少? 部门、个人销售分析? 网站访客分析?,稽核,业务&营销资料 分析,Compliance,Business Intelligence,4.,过去为了管理IT,过去企业必须使用多种解决方案来管理与使用不同的IT数据5,过去IT出了
3、问题,IT人员通常需要login并查询多种Apps, Device, Server才能判断与解决问题,6.,过去领导或销售单位需要一份数 据或报表, IT人员通常得要协助: 捞数据库 (SQL SELECT) 查询ERP、CRM、Log files, 写程序、客制化 作报表 (Excel? Crystal Report?WebTrends?etc) ,7.,过去都是这样解决问题的, 开启多个窗口/面板, ,登入多种系统、服务器、设备 分析多种的记录文件或数据 使用多种诊断工具 写程序来捞数据或处理数据 用Excel或其它报表工具产生报表,8.,Splunk IT 搜索引擎,search,nav
4、igate,alert,report,share,IT Data,logs,configurations,scripts & code,messages,traps & alerts,activity reports,stack traces,metrics,10.,Google vs. Splunk,search,navigate,alert,report,share,Web Content,IT Data,logs,configurations,scripts & code,messages,traps & alerts,activity reports,stack traces,metr
5、ics,11.,Splunk 与 传统作业的差异 IT Operation,傳統方式,用 Vi 开启 Vi用用 Vi开启 用 Vi开启开启orgrep,不同的系统之间, 往往监控工具不一致, 不 互相支持,人工解 读 人工解读 人工解读 人工解读,LogsLogsLogs,Logs,用辅助工具分 析 Ex: Excel,找出 问题 点,使用Splunk,LoLo gs LogsLogsgs,Splunk可以主动监控异常, 并发出主动通知,Search your IT infrastructure,J2EE exception Last 24 hours,Last 30 minutes Last
6、 60 minutes Last 3 hours Last 24 hours Last 7 days All time,找出 问题 点,12.,Deployment,Download and Install in 5 minutes, IT data from any source,Get local and get more,Distributed Search,13.,Deployment,Control Access,Store Data Efficiently,Automate Archiving,14.,搜寻 告警 报表 分享 视觉,15.,Splunk 应用面,16.,Splunk
7、 for Change Management,Detect and react to unauthorized changes and resolve change related incidents faster,Navigate from changes to system behavior with all the data you need in one place and pre-built searches, alerts and reports for change life cycle,Change Auditing - make it an effortless daily
8、routine,Change Detection - adaptive detection and remediation,Change Reporting - see change across all your IT infrastructure components,Change Validation - close the loop on change,Incident Response - link change to system behavior,17.,Splunk for Virtualization,Search and navigate across the comple
9、te virtual and physical stack,Logs,Virtualized Applications,Metrics,Guest Operating Systems,Hypervisor,Configurations,Virtual Server APIs,Pre-built searches, alerts and reports to manage virtual environments,Search physical network, servers, hypervisors, VMs, guest OS and apps,Index data from the le
10、ading VM management APIs,Retain perishable ops and security data from VMs and guest sessions,18,18.,Splunk for Network Security,Move from event and alert overload to Situational Awareness,Pre-built searches, alerts and reports for network security incidents.,Firewall access (ports, sources, destinat
11、ions, services, traffic),IDS (event types, attack traffic, signatures, sources, destinations, targets, malware, recon),Operating System (host shutdown, listening services, logging),Authentication (account changes, brut force logins, failures, successes, changes to users, groups, permissions),Network
12、 Security (insecure traffic, trojan activities, trojan ports),19,19.,Splunk for Windows Management,Windows has never been easier with everything in one place.,Pre-defined searches, alerts, reports and dashboards to accelerate Windows management tasks,Index all the data generated by your Windows desk
13、tops, servers and applications,event logs,registry keys,performance metrics,application logs,WMI support for agent-less remote indexing of event log and performance data,Integration with System Center Operations Manager 2007 providing single click search from MOM console,20,20.,Splunk for PCI Compli
14、ance,Address the complete range of PCI DSS log and IT data issues and requirements,PCI Control Reporting (all requirements),Secure Central Log Collection (Requirement 10.5),Daily Log Review (Requirement 10.6),File Integrity Monitoring (Requirements 10.2.2, 10.5.5, 11.5),Audit Trail Retention (Requir
15、ement 10.7),Secure Remote Access (Requirement 7.1),91 searches to facilitate ad-hoc investigations of incidents involving cardholder data,57 reports to accelerate reporting across PCI controls from firewall configuration to password management,15 alerts to automate policy compliance monitoring,21,21
16、.,Splunk 成功案例,22.,问题,AT&T为美国独家销售Apple iPhone的电信业者,过去某段时间所有 iPhone的客户购买新手机后,须向AT&T进行手机启动注册程序,但 是却有50%以上的apple客户遇到启动程序中断或是失败,造成Apple 以及手机用户对AT&T服务满意度大幅下降,这个启动程序(activation)是由138种不同的application、middle ware、database、OS、server、network device串连组成。,AT&T人员必须花很长的时间以人工方式逐一检查这启动程序中所有 节点的Log纪录,这通常需要花上2周以上的时间,而且
17、必须很多人 员的协助才能找出问题所在。,AT&T引进Splunk,统一收集这整个启动程序中各节点的相关Log记 录,同时也将database内的数据已scripted output方式传送给 Splunk。透过Splunk强大的IT Search功能,AT&T的客户单位与启动 程序研发单位可以在几分钟内,轻易地透过关键词搜寻的组合,找 到某中断或是失败的启动程序位置与原因,同时可快速响应客户的 问题,提升满意度与服务效率。,环境,使用前,使用后,23.,问题,RIM提供的BlackBerry手机有许多的客户用它来上internet。RIM希 望能以不同的条件(年龄、地区、性别、时间等)统计分析
18、出这些用 BlackBerry上网的客户最常上的10大网站为何,以藉此调整该公司 的网络cache快取设备,希望能加快客户在存取这些网站的速度,以 提升其客户的满意度与增加客户用手机上网的通讯费收入。,RIM的上网服务目前是经由当地电信服务商的复杂路由转接到RIM端 的cache设备后才上网,而且这些设备上的cache数据并无法直接与 客户数据直接整合,必须由人工方式进行分析,,RIM的IT人员每次必须花两周左右的时间以人工分析这些上网的 cache记录,而且还得从database捞客户数据进行比对后,另外制作 报表,才能得出结果。,RIM引进Splunk,分析这些透过BlackBerry上网
19、的cache记录,同时 佐以database输出到splunk的客户数据,即可轻易的随时取得 BlackBerry用户最常上的前10大网站。目前RIM可以每天都透过 splunk取得这些统计数据,大幅提升了RIM的Business Intelligence能力与客户满意度。,环境,使用前,使用后,24.,问题,Allianz 安联人寿在亚洲超过 两千一百万的客户,在互联网上推动 在线销售与保单查询,由于客户数量过于庞大,在线服务器常常发 现不能正常运作而造成客户的满意度下降,由于系统运作关系到闸 口端、服务器与应用程序,多重异质系统让每次找寻问题时,往往 要花费许多时间,每次问题发生到解决问题
20、种要花费半个工作天。 这直接影响到财物面损失,原因为在线交易都是会影响到客户决定 交易的决定,也会怀疑企业的专业能力。,服务的系统包含 Router、Server Load balance、Web Server与 WebApp 等数十个多重系统组成,Allianz人员必须花很长的时间以人工方式逐一检查这启动程序中所 有节点的Log纪录,这通常需要花上半天以上的时间,而且必须很多 人员的协助才能找出问题所在。,Allianz 引进Splunk,统一收集这整个启动程序中各节点的相关Log 记录,透过Splunk强大的IT Search功能,Allianz的客户单位与启 动程序研发单位可以在几分钟内
21、,轻易地透过关键词搜寻的组合, 找到某中断或是失败的程序位置与原因,可快速修复与改善客户的 问题,提升满意度与服务效率。,环境,使用前,使用后,25.,问题,IAH Games是新加坡知名的网上游戏业者,他们需要经常地分析每个 在线游戏服务器的运作,以及每个游戏里面的玩家使用状况。每次 发表新的游戏时,都需要有新的服务器,同时也会产生许多不同的 数据,目前所有Game Server游戏服务器的玩家数据如储值点数、玩家的生 命值、宝物数、战绩等等都是存储在Oracle数据库中。游戏服务器 的log,IAH Games的管理人员经常请AP人员透过写程序来捞取数据库内的数 据,同时每次上新游戏的时候
22、,都必须要重新写AP候,才能得到这 些分析结果,而且缺乏变动的弹性。在服务器运作的部份,通常都 是游戏服务器效能变差的时候,客户抱怨才知道去做查询与 Troubleshooting,IAH Games引进Splunk,统一收集所有在线游戏服务器的数据,进行 效能分析,同时将Oracle数据库内的相关数据每日定期输出到 Splunk进行索引。IAH Games现在已经可以透过Splunk,随时的搜寻 各游戏服务器的各种运营状态,也能进行有效的游戏的商业智能分 析。,环境,使用前,使用后,26.,Who Is Using IT SearchingEngine,27.,來自全球各地超過250,000
23、+ 的論壇使用者,28.,兩年內獲得全球800多家企業單位採用,Aerospace & Defense,Computer Hardware,Computer Software,Education,Energy,Financial Services,Government,Healthcare,Insurance,Manufacturing,Media & Entertainment,Network Equipment,Online Services,Pharmaceuticals,Service Providers,Retail,Technology Service,Telecommunications,Transportation,Travel & Leisure,29.,Lets SplunkThank You,30.,宇信智臻您专属的大数据应用服务解决方案提供商,