1、DataServices 培训总结- 操作手册目录一、DS 简介 .2二、DS 数据加载方式 .2三、DS 进行数据抽取模型开发的基本过程 .3四、DS 创建数据源系统和目标系统的数据存储 31、 Oracle 数据库作为数据源系统 .32、 ECC 作为数据源系统 .43、 HANA 数据库作为目标系统 5五、全量加载过程 51、创建 Project 和 Job 52、导入源表的元数据到资源库 .63、创建 Data Flow .64、设置源表和目标表 75、手工执行 Job7六、基于表比较的增量加载 .81、在 Job 下定义工作流 .82、在工作流中定义数据流 .83、加入 Table_
2、Comparison 控件 94、设置 Table_Comparison 控件 9七、基于时间戳的增量加载 .101、在 Job 下定义工作流 .102、定义 Script 控件 .103、定义处理新增数据的数据流和处理更新数据的数据流 .11八、DS 中常用控件介绍 .131、 Key_Generation 132、 Case.133、 Merge144、 Validation155、设置过滤器和断点 15九、定义 Job 定期执行 .161、登录 Data Services Management Console .162、定义 Batch Job Schedules.17十、其他注意事项
3、18一、DS 简介SAP BusinessObjects Data Services 是通过 SAP HANA 认证的 ETL 工具。 采用数据批量处理的方式,定期执行后台作业,将数据从多个业务系统中抽取出来,并进行必要的处理(转换,合并,过滤,清洗) ,然后再加载到 HANA 数据库中 。DS 的组件之间的关系: Management Consol: 管理控制台是网页版 DS 管理工具,可以进行一些系统配置和定义 Job 执行 Designer: Designer 是一个具有易于使用的图形用户界面的开发工具。它允许开发人员定 义包括数据映射,转换和控制逻辑的数据管理应用程序,创建包含工作流(
4、作业执行定义)和数据流 (数据转换定义)的应用程序 Repository: 应用程序设计器使用的本地资源库用来存储 Data Services 对象(如项目,作业,工作流,和数据流)的定义和源和目标的元数据 Job server: 作业服务器启动数据移动的从多个不同种类的源集成数据的引擎,执行复杂的数据转换,并管理从 ERP 系统和其他源的抽取和事务 二、DS 数据加载方式 全量加载 增量上载 a) 基于表比较 作业在执行时读取数据源和目标中的全部数据,在服务器的内存中进行比较,计算数据差异 b) 时间戳增量 需要在数据源中添加时间戳字段,一般为创建时间和最后修改时间,在抽取作业中定义对两个时
5、间戳字段进行对比,符合条件的创建时间条目进行插入,符合条件的修改时间条目进行更新 c) 利用数据库 CDC(changed data capture) 首先需要开启数据库的 CDC 服务,为数据库实例启用 CDC 功能,为源表启用 CDC 功能。在这种模式下,DS 的增量更新不再直接访问源表,而是在与源表相关的变更记录表中读取增量 三、DS 进行数据抽取模型开发的基本过程 为数据源创建数据存储 导入源表的元数据到资源库 为 SAP HANA 目标系统创建数据存储 新建 DS 项目和批量作业 新建 DS 数据流:定义源表和目标表,定义变量、编辑 Query 和 Map_CDC_Operation
6、 执行批量作业 四、DS 创建数据源系统和目标系统的数据存储1、 Oracle 数据库作为数据源系统登录 Data Services Designer,在本地对象库的数据存储页签中单击鼠标右键,选择新建菜单创建数据存储“EAM_TEST” ,在弹出的对话框中输入 EAM 数据库的连接信息2、 ECC 作为数据源系统同样在创建 DataStore 时,输入 ECC 的连接信息3、 HANA 数据库作为目标系统在创建 DataStore 时,输入 HANA 数据库的连接信息五、全量加载过程1、创建 Project 和 Job在本地对象库的 project 页签中单击鼠标右键,选择新建菜单,创建项目
7、“ERP_DS ”。双击该项目,在“Project Area”,可以在该项目下创建 Job2、导入源表的元数据到资源库在本地对象库的数据存储页签中,选择源系统的数据存储,单击鼠标邮件,选择“Import By Name”,输入需要导入到资源库的表名称。导入成功后,在数据存储的 table 目录下可以看到导入的表3、创建 Data Flow 单击“General ”Job,在右边空白区域单击鼠标邮件,选择“Add New”-“Data Flow”4、设置源表和目标表单击创建的 Data Flow,将需要导入到 HANA 数据库中的源表拖入到 Data Flow 区域中,将Data Flow 区域
8、右侧的工具条中的模版表拖入 Data Flow 区域创建模版表输入模版表名称、HANA 目标系统的数据存储、 HANA 数据库存放 DS 抽取数据表的用户名。连接源表和目标表双击模版表,设置“Options”中的“Use NVARCHAR for VARCHAR”5、手工执行 Job选择 Job,单击鼠标右键,选择 “Execute”执行成功之后,在 HANA 数据库中的 ERPDSUSER 下可以看到“T161T” ,可以查看数据表的内容。执行过程信息和结果可以在监控器中查看。六、基于表比较的增量加载1、在 Job 下定义工作流2、在工作流中定义数据流在数据流中定义源表和模版表,执行 Job
9、,执行成功之后,在目标系统数据存储的Template Table 目录下可以看到创建的模版表3、加入 Table_Comparison 控件选择模版表,单击鼠标邮件,选择“Import Table”。模版表会更新为 Tables 目录下的数据表。通过将转换-数据集成中的“Table_Comparison ”控件拖入到数据流中的方式添加“Table_Comparison”控件将源表连接“Table_Comparison”控件, “Table_Comparison”控件连接目标表。4、设置 Table_Comparison 控件双击“Table_Comparison”控件,设置相关参数:比较的目标
10、表、表的主键,需要比较的字段。当需要比较的字段为空时,会比较所有字段。建议按照需要填写需要比较的字段,可以加快处理速度。保存后执行 Job。七、基于时间戳的增量加载1、在 Job 下定义工作流在工作流中定义 Script 控件,读取数据抽取后最新的创建时间和更改时间,定义一个处理新增数据的数据流和一个处理更新数据的数据流2、定义 Script 控件在 Script 控件中需要使用变量存放读取的最新的创建时间和最新的更改时间。选择 Job,在工具栏选择“Variables”按钮,创建全局变量双击“Script”控件,编写 SQL 语句,从 HANA 数据库表中读取最新的创建时间和更改时间3、定义
11、处理新增数据的数据流和处理更新数据的数据流双击“EBAN_New”数据流,加载源表,Query,Map_CDC_Operation 控件和目标表双击 Query,在输出字段中增加“Sequence”和“Operation”两个字段。 “Sequence”字段使用函数 gen_row_num()进行赋值, “Operation”赋值为I在 Quey 中设置 Where 条件双击 Map_CDC_Operation 控件,设置 CDC Columns同样的方式定义“EBAN_Upd ”数据流,在 Query 的 where 条件中定义为在 Query 的数据结果中增加“Sequence”和“Ope
12、ration ”两个字段。 “Sequence”字段使用函数 gen_row_num()进行赋值, “Operation”赋值为U保存后,执行 Job。可以通过修改源系统数据测试基于时间戳的增量加载。八、DS 中常用控件介绍1、 Key_Generation在源表基础上为目标表重新生成主键在 Query 中增加“ID ”字段,赋值为 0。在 Key_Generation 控件中设置目标表、主键字段、主键值增加量2、 Case将源表根据规则进行拆分双击 Case 控件,设置拆分条件当 SOURCE = 1 时,输出 SPFLI_1,当 SOURCE =2 时,输出 SPFLI_23、 Merge
13、将具有同样数据结构的源表进行合并在 Query 中增加输出字段 Source,赋值为 1。在 Query1 中增加输出字段 Source,赋值为2。在 Merge 中将两个表的内容合并输出。4、 Validation提取数据源表中的正确数据,将错误数据单独存放在其他表中双击 Validation 控件,设置“ Validation Rule”5、设置过滤器和断点过滤器和断点结合使用,用于设置 Debug 的条件选择源表到目标表的连接线,单击鼠标右键,选择 Set Filter/Breakpoint,设置 Debug 条件(当满足某种条件时进入断点,或者在满足过滤条件的同时执行多少条数据后时进入
14、断点)选择 Job,单击鼠标右键,选择 Start debug工具栏上的按钮可以控制执行下一条数据、继续执行、终止 DebugDebug 过程中进入断点后,可以一次查看数据加载结果九、定义 Job 定期执行1、登录 Data Services Management Console单击工具栏的“Data Services Management Console”按钮进入 Data Services Management Console 的登录界面单击进入 Administrator 界面2、定义 Batch Job Schedules在 Batch Job Configuration 页签选择 A
15、dd Schedules进入批量执行 Job 的设置界面可以设置每周的某一天执行(一周执行一次)或则每月的某一天执行(一个月执行一次) ,也可以设置为每天都执行。都选“Recurring ”则会定期循环执行,否则只执行一次。可以设置一天执行一次,也可以一天执行多次,设置开始执行时间。上图中如果设置为一天多次执行,开始时间为上午 1 点,持续时间为 600 分钟,间隔时间为 360 分钟,则 Job 会在一天的上午 1 点和上午 6 点各执行一次。如果设置时间间隔为240 分钟,则 Job 会在一天的上午 1 点、上午 5 点和上午 9 点各执行一次。 (总持续时间不超过 10 小时) 。十、其
16、他注意事项1、 客户端安装包需要注意和服务器 DS 版本一致2、 在第一次登录 CMS 信息时,无法成功。ping sapdstest 也失败,需要在 host 文件中添加对应的地址和域名3、 连接 Oracle 数据库作为数据源时,需要在客户端上安装 Oracle 客户端,设置tnsname.ora 文件,设置环境变量 ORACLE_HOME 之后重启服务器;连接 HANA 数据库时,需要安装 HANA 客户端4、 在连接 ECC 作为数据源时,需要开启系统跨客户端编辑权限5、 在 HANA 中新建 ERPDSUSER 作为存放 DS 抽取表的 Schema,将 ERPDSUSER 给 SLTADM赋权限,包括查询和创建的权限6、 全量抽取时,目标表不能使用导入表,需要使用模版表,模版表每次会删除重建,导入表会出现主键重复的错误提示7、 基于时间戳的增量加载,源表中需要有创建时间和更改时间两个字段,分别处理新增和修改的数据8、 如果只是设置过滤器而没有设置断点,在进行 Debug 时,Job 会执行成功,过滤器有效。如果不进行 Debug,直接执行,设置的过滤器不起作用