1、PowerCenter 中文说明1.1 Repository Manager 的使用 1.1.1 创建 Repository。 前提:a. 在 ODBC 数据源管理器中新建一个数据源连接至你要创建 Repository 的数据库(例:jzjxdev) b. 要在你要连接的数据库中新建一个用户(例:name: ETL password: ETL) 现在你可以创建一个 Repository 了。选择 Repository Create Repository,输入Repository Name(例:JZJX) ,Database Username (例:etl) ,Database Password
2、(例:etl) , ODBC Data Source(例: jzjxdev) ,Native Connect String(数据库所在 ip 例:141.20.52.108) 1.1.2 添加 Repository。 通过这一步你可以添加别人已经建好的 Repository。 选择 Repository Add Repository,输入 Repository Name(例:JZJX) ,Username(例:etl),点击 ok 就可以看到名为 JZJX 的 Repository 在左边的浏览器中,但是此时还看不到它的内容,要看到它的内容或者对它进行操作必须先连接它。 1.1.3 添加 Fo
3、lder 选择 Folder Create,输入文件夹名称即可。 1.2 Designer 的使用 首先连接 Repository,可以看到该 Repository 在 Repository Manager 中创建的文件夹。 1.2.1 Sources Sources 文件夹下的表是抽取的来源表。 导入方法:选择 Tools 菜单下的 Source Analyzer,然后选择 Sources 菜单下的 Import from database,连接想要连接的数据库,连接上后选择你要抽取的表点击 ok 你所选择的表就会出现在 Sources 文件夹下。 说明:上面的导入过程导入的只是表结构,你也
4、可以自己创建来源表,只要你创建的表 的结构跟真实存在的那张表的表结构一致就行。 1.2.2 Targets Targets 文件夹下的表是抽取的目标表,也就是抽取结果的存放表. 导入方法: 选择 Tools 菜单下的 Warehouse Designer,然后选择 Targets 菜单下的Import from database,连接想要连接的数据库,连接上后选择你要抽取的表点击 ok 你所选择的表就会出现在 Targets 文件夹下。 说明:上面的导入过程导入的只是表结构,你也可以自己创建目标表,只要你创建的表 的结构跟真实存在的那张表的表结构一致就行。 1.2.3 Mappings 的设计
5、 选择 Tools 菜单下的 Mapping Designer 才能进行 Mapping 的设计。 每个apping 都由来源表,transformation 和目标表组成,描述数据抽取的过程。来源表和目标表可以从 Sources 和 Targets 文件夹拖拽到工作区,但是 transformation 一般来说是需要自己创建的。Mapping 的设计关键是 transformation 的使用,它的使用关系到数据抽取的正确性和效率。下面说明各个 transformation 的作用和用法。 (Active:表示该 transformation 可以改变通过它的数据的行数; Passive:
6、表示该 transformation 不改变通过它的数据的行数; Connected:表示该 transformation 要连接到数据流; Unconnected:表示该 transformation 可以不连接到数据流) 1.2.3.1 Source Qualifier 作用:根据查询 SQL 文从关系表或平坦文件查出所要记录 用法:创建好 Source Qualifier(下简称 SQ) 后,将需要的用的字段从来源表拖拽到 SQ ,双击 SQ,对 SQ 的属性进行设置。 Select Distinct 属性:选中的话表明结果记录将去除重复值; Tracing Level 属性: 共有四级
7、 ,表示 log 的复杂程度; Number Of Sorted Ports 属性: 排序的字段个数,值大于 0 时 Sql Query 中的 sql 文将出现order by 从句; Sql Filter 属性: 属性值将出现在 Sql Query 属性值的 where 表达式中; User Defined Join 属性: 用户如果要定义外部连接可在此写(例:REG_CUSTOMER LEFT OUTER JOIN PURCHASES on (REG_CUSTOMER.CUST_ID = PURCHASES.CUST_ID AND PURCHASES.AMOUNT 100.00) ) Sq
8、l Query 属性:值是一条 sql 文,session 运行时会执行这条 sql 文进行查询。 命名方式:SQ_Name 类型:Active/Connected 注意:SQ 的输入只能来自来源表; User Defined Join 属性值必须用 括起来;在更改了SQ 的属性值之后一定要点击 Sql Query 属性的 generate sql 按钮重新生成 sql 文。 1.2.3.2 Update Strategy 作用:决定该行进行插入,删除,更新,忽略中的哪一种操作 用法:创建好 Update Strategy(下简称 US)后,将需要的用的字段从 transformation 拖
9、拽到 US ,双击 US,对 US 的属性进行设置。 US 的设置关键是 Update Strategy Expression 属性的设置,这个表达式使用 IIF 或 DECODE 函数对记录的每一行进行判断,为每一行赋予 DD_INSERT,DD_UPDATE ,DD_DELETE,DD_REJECT(这四个是常量,值分别为 0,1,2,3)中任意一个值,表明该行在数据库中将进行何种操作。 命名方式:UPD_Name 类型:Active/Connected 注意:mapping 中有 US 时,mapping 对应的 session 的在配置属性时必须把 Treat rows 属性设置为 D
10、ata Driven,否则 US 将不起作用。 1.2.3.3 Expression 作用:计算一个值 用法:创建好 Expression(下简称 EXP)后,将需要的用的字段从来源表拖拽到 EXP,双击 EXP, 新增输出端口,编辑该端口的表达式。 命名方式:EXP_Name 类型:Passive/Connected 注意:要进行列运算一般用这个 transformation; 此种 transformation 可以使用本地变量 1.2.3.4 Stored Procedure 作用:调用一个存储过程 用法:创建 Stored Procedure(下简称 SP)的时候连接数据库选择必要的存
11、储过程。SP 有连接和不连接到数据流两种用法。 连接到数据流方式跟一般的 transformation 类似,通过拖拽端口来实现数据流。 不连接到数据流分表达式调用和 Pre-/Post Session 两种方式。表达式调用方式中 SP 被Mapping 中另一个 transformation 中的表达式调用。Pre-/Post Session 方式就是在 Session的属性中配置 SP 的运行时间,Source Pre-load(Session 从源表查询数据之前 ),Source Post-load(Session 从源表查询数据之后) ,Target Pre-load(Session
12、将数据插入目标表之前) ,Target Post-load(Session 将数据插入目标表之后) 命名方式:SP_Name 类型:Passive/Connected or Unconnected 注意: 1.2.3.5 Sequence Generator 作用:产生主键 用法:创建好 Sequence Generator(下简称 SEQ)后,双击 SEQ,对 SEQ 的属性进行设置。Start Value 属性是开始值,此属性只在选择了 Cycle 选项才有效;Increment By 属性值是每次增加的值;End Value 属性值是结束值;Current Value 属性值是当前开始值
13、;Cycle 选项被选择的话 NEXTVAL 的值达到 End Value 值之后会重新从 Start Value 开始;Reset 选项被选择的话,服务器会为每个使用了该 SEQ 的 session 的 NEXTVAL 值都从Current Value 开始。 命名方式:SEQ_Name 类型:Passive/Connected 注意:这是一个只有两个输出端口没有输入端口的 transformation.; 如果该 SEQ 时可重复使用的话,不能选择 Reset 选项。 1.2.3.6 Aggregator 作用:执行分组聚合运算 用法:创建好 Aggregator(下简称 AGG)后,将需
14、要的用的字段从其他 transformation 拖拽到 AGG ,双击 AGG,在端口 tab 中每个端口有 group by 选项。钩上想要分组的列,新增端口,编写聚合表达式实现分组聚合运算。 命名方式:AGG_Name 类型:Active/Connected 注意:可使用本地变量 1.2.3.7 Filter 作用:过滤记录 用法:创建好 Filter(下简称 FIL)后,将需要的用的字段从 transformation 拖拽到 FIL ,双击 FIL,对 FIL 的属性进行设置。FIL 的配置主要是对 Filter Condition 的配置,Filter Condition 写入类似
15、 where 条件的表达式即可。 命名方式:FIL_Name 类型:Active/Connected 注意: 1.2.3.8 Lookup 作用:查询值 用法:创建 Lookup(下简称:LKP)的时候选择要查询的表。和 Stored Procedure 一样 SP有连接和不连接到数据流两种用法。 连接到数据流方式将要关联查询的字段从其他的 transformation 拖拽过来,然后双击LKP 进行属性的配置。Lookup Policy On Multiple Match 属性表明当查询到多个行时采取取第一行,取第二行,报错中哪个策略.Lookup Condition 属性值是查询的条件。L
16、ookup Sql Override 属性值是查询执行的 Sql 文,我们可以在里面直接写Sql。Lookup Caching Enabled 属性表明是否使用缓存,此项一般选择为好,有利提高效率。Loopup Cache Persistent 属性表明是否使用永久的缓存。 命名方式:LKP_Name 类型:Passive/Connected or Unconnected 注意:如果 Lookup 表的类型是来源表的话,请尽量使用 Joiner; 一个已连接的 LKP 不能再被其他 transformation 的表达式调用; 如果查询表在 session 运行过程中不会改变,使用 Loopu
17、p Cache Persistent 属性可提高性能; 尽量不要在 Lookup Sql Override 中书写 order by 子句,因为 cached LKP 默认有order by ; 1.2.3.9 Joiner 作用:连接查询来自不同数据库的表或平坦文件 用法:创建好 Joiner(下简称 JNR)后,将需要的用的字段从 transformation 拖拽到 JNR ,双击 JNR,对 JNR 的属性进行设置。用于连接的两个表一个称为 detail 表,一个称为master 表。JNR 属性中可配置 Join Type(连接类型) 为Normal Join,Master Oute
18、r Join,Detail Outer Join 和 Full Outer Join 中任意一种。Normal Join 相当于常规的 inner join; Master Outer Join 相当于常规的Detail left outer join Master;Detail Outer Join 相当于常规的Detail right outer join Master; Full Outer Join 相当于常规的 full outer join。Join Condition属性值就是常规 sql 文 on 后带的条件。 命名方式:JNR_Name 类型:Active/Connected
19、 注意:尽量使用 Normal Join,Master Outer Join.这两个的效率比另外两个更好 1.2.3.10 Normalizer 作用:格式化记录,这些记录可以是来自 COBOL 源 用法: 命名方式:NRM_Name 类型:Active/Connected 注意: 1.2.3.11 Router 作用:根据一组表达式将记录分类路由到多个 transformation 用法:创建好 Router(下简称 RTR)后,将需要的用的字段从 transformation 拖拽到 RTR,双击 RTR,对 RTR 的属性进行设置。在 Group tab 中添加组,为每组编辑该组的过滤条
20、件。命名方式:RTR_Name 类型:Active/Connected 注意:组过滤条件表达式的计算值必须是真或者假。 1.2.3.12 Rank 作用:排序记录,只输出最顶层或最低层的 n 个记录 用法:创建好 Rank(下简称 RNK)后,将需要的用的字段从 transformation 拖拽到 RNK,双击 RNK,对 RNK 的属性进行设置。在 Ports tab 中有一个名为 R的列,选择你要排序的列。你还可以选择你想分组的列。在 Properties tab 中 Top/Bottom 属性,Top 表示选择顶层的记录,Bottom 表示选择底层的记录; Number Of Rank
21、s 属性值是整数,表示要选择的记录条数。假设你在R列中选择了名为Price的列,而且Group By 选择了Name列,Top/Bottom 属性选择的是Top, Number Of Ranks 属性值是 2,那么将抽取过程是这样的:以 name 分组取出每组中 Price 最大的 2 列记录。 命名方式:RNK_Name 类型:Active/Connected 注意:可以使用本地变量 1.2.3.13 ERP Source Qualifier 作用:根据查询 SQL 文从 ERP 文件查出所要记录 用法: 命名方式: 类型:Active/Connected 注意: 1.2.3.14 XML
22、Source Qualifier 作用:根据查询 SQL 文从 XML 文件查出所要记录 用法: 命名方式:XSQ_Name 类型:Passive/Connected 注意: 1.2.4 Mapping Parameters(参数) 和 Variables(变量)的使用 如果你在一个 mapping 中多次用到同一个值,又或者 mapping 中要用到一个在 session运行才能决定的值,这时候可以使用 mapping parameters 或 variable。添加参数或变量的方法是:选择 Mappings-Parameters and Variables,在窗口新增变量或者参数,并对它的
23、数据类型,数据大小,初始值进行设置。添加的参数和变量在本 mapping 的transformation 的表达式中就可以使用了。这些参数和变量的值还可以设置在.txt 文件中,建 session 或者 batch 的时候把这个文件的路径设置在 Parameter 输入框中就行了。 Mapping 参数变量的命名方式:$NAME 存放参数变量的.txt 文件的格式:folder_name 可写可不写 folder_name.session_name parameter_name=value variable_name=value mapplet_name.parameter_name=valu
24、e folder_name.session2_name parameter_name=value variable_name=value mapplet_name.variable_name=value folder2_name.session_name parameter_name=value variable_name=value mapplet_name.parameter_name=value 1.2.5 Mapping 的调试 选择 MappingsDebuggerStart Debugger,在点击下一步 的过程中选择调试过程运行在哪台服务器然后为来源表选择数据库,最后到完成。等调
25、试初始化好之后点击MappingsDebuggerContinue(或按 F5),即可开始调试,选择某个目标表即可看该表的结果数据。如果还想看中间某个 transformation 的数据,在开始调试前为该transformation 增加一个断点。 1.3 Server Manager 的使用 1.3.1 Register Server(注册服务器 ) 任何 session 都必须运行在某个服务器上,所以如果 Server Manager 里没有服务器的话必须注册一个,当然你也可注册多个服务器。服务器的注册过程如下: 选择 Server Configuration Register Serv
26、er,Server 输入 的是要注册的服务器的名称;Host Name 输入的是运行了 informatica server 的机器名或 ip;Protocol 选择TCP/IP;Port Number 输入 4001。最下面的是服务器的变量设置,设置的是 session 或batch 运行时一些文件的存放位置,比如说 log 文件 bad 文件 cache 文件,一般不用更改。这样一个服务器就注册到 repository 了,不过后面你可以双击它重新编辑。 1.3.2 Add DataBase Connection(添加数据库连接) 选择 Server Configuration DataB
27、ase Connection,点击 Add,然后选择数据库的类型。不同类型的数据库配置起来不一定一样,下面说明 Oracle 和 SQL Server 两种数据库连接的配置。 Oracle 类型数据库连接配置:Data Source 输入数据源名称;User Name 输入数据库连接的用户名;Password 输入数据库连接的密码;Connect String 输入 Oracle TNS 服务名。SQL Server 类型数据库连接配置: Data Source 输入数据源名称;User Name 输入数据库连接的用户名;Password 输入数据库连接的密码;Database Name 输入
28、数据库名称;Server Name 输入数据库的 ip 地址;Domain Name 输入数据库的域名。 1.3.3 Add Session(添加抽取任务) Mapping 只是数据抽取过程的设计,要使这个过程运行必须为该 Mapping 建立对应的session,然后运行该 session。选择 Operations-Add Session,在窗口中选择一个 Mapping 点击 ok 会出现编辑该 session 的窗口。 Session 输入框输入该 session 的名称; server 选择该 session 将运行在的服务器; Treat rows 有 Insert,Delete,
29、Update,Data Driven 四个选项,表明抽取出来的数据在目标表中作何种操作,只有在 session 对应的 mapping 中有 Update Stategy 时才能选择Data Driven 而且也必须选择 Data Driven; Source 框选择来源表所在的数据库; Target Options 中的 Insert,Update(as Update),Update(as Insert),Update(else Insert),Delete,Truncate table 选项的意思分别是:将 insert 作 insert 操作,将 Update 作 insert 操作,将
30、 Update 先做 Update 操作不成功再作 insert 操作,将 delete 作 delete 操作,在对目标表操作前删除目标表所有数据。这些选项如果与 Update Stategy 冲突 server 将以这里的设置为准,也就是说这里的设置可以覆盖 Update Stategy 的设置; Parameter 输入框中输入 session 要用到的参数或变量的所在文件的路径; 其他设置比较简单或者保持原来的值即可,这里就不再详细说明了。 除了在添加 session 的过程中可编辑 session 之外,双击已添加的 session 也对 session 重新设置。 注:如果 map
31、ping 中有 Joiner 的话,session 的编辑窗口的 Source Type 就变成heterogeneous(不同类),这样就无法通过设置 Source 来设置来源表的位置,只能在Source Location tab 中为每个来源表设置位置。 1.3.4 Add Batch(添加批操作任务) 添加 Batch 可以将一系列的 session 串起来,这样就可以让必须按顺序执行的 session 有序的执行。添加方法:选择 Operations-Add Batch,在窗口中对 batch 进行编辑。 Batch 输入框中输入 batch 的名称; Parameter 输入框中输入
32、 batch 中的 session 要用到的参数或变量的所在文件的路径,由于每个 session 都可以设置自己的 parameter,所以 batch 中可以不设置,即使 batch 的parameter 进行了设置也会被各个 session 自己的 parameter 设置所覆盖,但如果 session用到了 parameter 在同一个文件中的话,把 parameter 文件的位置设置在 batch 的parameter 输入框就显得更方便; Enabled 选项表明是否让该 batch 有效; Concurrent 选项表明是否让 batch 中的所有 session 并行地运行; S
33、chedule 中可设置 batch 的运行时间和运行频率。 1.3.5 Session 和 Batch 的运行 右键单击要运行的 session 或者 batch,选择 start 即可让该 session 或者 batch 立刻运行。如果你的 session 或者 batch 的 Schedule 设置不是选择的Run only on demand,那么该session 或者 batch 就会在设置完后就处在 Scheduled 状态,时间一到就会自动运行。(可以右击服务器选择 monitor 来监视运行在该服务器下的 session 或者 batch 当前状态)。1.2 2.1 INFO
34、RMATICA SERVER 的配置 一般用户不需要安装 informatica server,而是操作 repository 的整个组共用一个 server。但是整个组的抽取数据工作都在一个 server 上工作会慢一些,所以每个人都可以创建自己的 server。 安装完 informatica server 后进行如下配置: l 在计算机上创建一个新帐户。 (例如:用户名:etl 密码:123123123) l 打开 开始-程序-Informatica Server- Informatica Server Setup,选择configure informatica server,单击 co
35、ntinue。 l 选择Keys tab,输入 License Keys l 选择Networktab, 选择TCP/IP,输入 HOST(一般为本机 ip 和 PORT(4001). l 选择Repository tab,输入 Repository name( 例:JZJX) ,Database(例:Oracle),Repository user(例:etl),Repository password (例:etl),Database user(例:etl),Database password(例:etl) ,Connect(例:jzjxdev)。 2.2 INFORMATICA SERVER
36、 的运行 打开服务,配置名为 informatica 服务的属性如下: l 选择登录tab,输入此账户(例:.etl )和密码(例:123123123) l 选择常规tab,设置启动类型为自动 。你也可以设置为手动 ,但是这样你就要在每次使用 server 前手工启动。1.3 2.3 INFORMATICA SERVER 在 Solaris 上的配置(Solaris) (安装程序路径:/space/pc/solaric; 目标路径:/informatica/pc; oracle:安装路径/space/oracle/oracle/9.2.0/) 1) 将 PowerCenter 安装文件(Sol
37、aris 文件夹)上传到 Solaris 机器上 2) 设置安装环境变量 LANG=en;export LANG LD_LIBRARY_PATH=$ LD_LIBRARY_PATH :/space/pc/solaris export LD_LIBRARY_PATH; PATH=$PATH:/space/pc/server 3) 设置 install、icipc 为可执行; 4) 运行./install;选择安装版本、安装路径; 5) 设置运行环境变量 LANG=zh;export LANG NLS_LANG=american_america.ZHS16GBK; export NLS_LANG
38、LD_LIBRARY_PATH=/informatica/pc:/space/oracle/oracle/product/9.2.0/lib32:/opt/odbc/lib:/usr/lib;export LD_LIBRARY_PATH TNS_ADMIN=/space/oracle/oracle/product/9.2.0/network/admin;export TNS_ADMIN PATH=$PATH:/space/oracle/oracle/product/9.2.0/bin:/informatica/pc:/opt/odbc/bin;export PATH ORACLE_HOME=/
39、space/oracle/oracle/product/9.2.0;export ORACLE_HOME ODBCHOME=/opt/odbc;export ODBCHOME 注:我这儿只能使用 oracle 的 lib32 库,是否与我使用 PowerCenter5.1 版本较低有关 6) 切换至/informatica/pc 路径,运行./pmconfig 进行配置,一般只需要配置知识库的参数,以及 License 即可; 7) 运行./pmserver;运行后可以打开 pmserver.err 文件,察看服务是否运行成功: Mon Mar 21 21:47:06 2005 LM_2000
40、 PowerCenter Release 5.1 Build 0611 starting up. 8) 设置 ODBC;安装 Solaris 的 ODBC;将 ODBC 安装至 /opt/odbc 下; 9) 设置 ODBC 环境变量 LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/odbc/lib:/usr/lib;export LD_LIBRARY_PATH PATH=$PATH:/opt/odbc/bin;export PATH ODBCINI=/opt/odbc/odbc.ini;export ODBCINI 10) 设置 odbc.ini 文件 SQL S
41、ERVER 配置如下: PLAN_MRPLANNER_5 Driver=/opt/odbc/lib/DWmsss15.so Description=SQL Server Database=MrPlanner_5 Address=141.20.16.21,1433 LogonID=test Password=test QuotedId=No AnsiNPW=No MYSQL 配置如下: DESKTOP DSN=DESKTOP DESCRIPTION=MySQL ODBC 3.51 Driver DSN DRIVER=/usr/lib/libmyodbc3.so SERVER=141.20.57.41 DATABASE=eos USER=njds PASSWORD=njds PORT=3306 SOCKET=/tmp/mysql.sock OPTION=3 STMT= 注:PowerCenter5.1 版本自带的 ODBC 不带有 mysql 的 ODBC 库,需要重新下载,我是从 站点上重新下载的一个, MyODBC-3.51.11-sun-solaris2.8-sparc.pkg