最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

华为云数据调度服务用户指南20171029

IT圈 admin 43浏览 0评论

2024年2月3日发(作者:公叔北嘉)

数据调度服务用户指南文档版本发布日期022017-08-26华为技术有限公司

版权所有 © 华为技术有限公司 2017。 保留一切权利。非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

商标声明和其他华为商标均为华为技术有限公司的商标。本文档提及的其他所有商标或注册商标,由各自的所有人拥有。

注意您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或默示的声明或保证。由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

华为技术有限公司地址:网址:深圳市龙岗区坂田华为总部办公楼 邮编:518129客户服务邮箱:support@客户服务电话:4008302118文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司i

数据调度服务用户指南目 录目 录1 简介...................................................................................................................................................11.1 DPS是什么....................................................................................................................................................................11.2 应用场景........................................................................................................................................................................11.3 DPS有哪些功能............................................................................................................................................................21.3.1 数据管道创建和管理.................................................................................................................................................21.3.2 数据管道调度.............................................................................................................................................................21.3.3 数据管道监控.............................................................................................................................................................21.4 DPS与其他服务的关系................................................................................................................................................21.5 使用DPS所需的权限...................................................................................................................................................31.6 DPS有哪些限制............................................................................................................................................................32 操作指南...........................................................................................................................................52.1 数据管道列表................................................................................................................................................................52.1.1 数据管道列表简介.....................................................................................................................................................52.1.2 创建数据管道.............................................................................................................................................................72.1.3 编辑数据管道.............................................................................................................................................................82.1.4 运行数据管道...........................................................................................................................................................102.1.5 监控数据管道...........................................................................................................................................................102.1.6 删除数据管道...........................................................................................................................................................112.1.7 调度数据管道...........................................................................................................................................................122.1.8 终止数据管道...........................................................................................................................................................123 配置参考.........................................................................................................................................143.1 数据源..........................................................................................................................................................................143.1.143.1.153.1.153.1.163.2 活动..............................................................................................................................................................................163.2..163.2.173.2.3 173.2.4 193.2.20文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司ii

数据调度服务用户指南目 录3.2.6 213.2.213.2.224 常见问题.........................................................................................................................................244.1 什么是Data Pipeline Service?.....................................................................................................................................244.2 DPS可以调度哪些服务?..........................................................................................................................................244.3 我从Data Pipeline Service用户界面最多可以创建多少个Pipeline?...................................................................244.4 Data Pipeline Service可以做什么?.............................................................................................................................244.5 什么是Pipeline?..........................................................................................................................................................254.6 什么是Data Source?....................................................................................................................................................254.7 为什么数据管道的订单到期时间显示不一致?......................................................................................................25A 修订记录........................................................................................................................................26文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司iii

数据调度服务用户指南1 简介11.1 DPS是什么概述 简介数据调度服务(Data Pipeline Service,简称DPS)是公有云上的一种云服务,可轻松实现数据在各服务间移动和转换的自动化。根据业务数据处理的需要,用户使用DPS定义数据管道以描述数据处理任务、执行顺序和调度计划,DPS则依据预设的计划和关系调度和控制各任务有序地执行,实现数据在各服务间加工流转。特点l易于性用户使用图形化设计器拖拉拽的方式编排数据源和移动/转换活动,并设置其属性,就可以轻松创建数据管道,减少用户开发成本。l高可靠性支持高并发调度数据管道和活动运行,如果活动逻辑出现故障,DPS会自动重试该活动。l可扩展性可以很容易地扩展以支持更多的数据处理活动,例如Spark、Hadoop、OBS、RDS等数据处理活动。增加一个数据处理活动仅需进行非常少量的编程工作。1.2 应用场景DPS应用场景如下:l服务间数据流动已经购买其它服务并在服务上积累了一定量的数据,希望实现服务之间的数据互通。DPS构建服务之间的传输通道,提供数据并行传输的活动,解决服务间数据传输问题,可助您快速实现数据互通。l批量、定期任务执行华为专有和保密信息版权所有 © 华为技术有限公司1文档版本 02 (2017-08-26)

数据调度服务用户指南1 简介业务上需要定制批量的、复杂的任务流来实现数据分析。DPS可以通过简单的配置,实现数据管道的调度运行。1.3 DPS有哪些功能1.3.1 数据管道创建和管理lll提供图形化设计器,支持拖拉拽方式编排数据管道,实现基于实际业务类型的数据管道的构建。预置多种数据源,支持各种异构数据源的集成,包括RDS、OBS、HDFS和HBase,详见数据源。预置多种活动,使用户能够安全可靠地处理或迁移数据,详见活动。1.3.2 数据管道调度l提供两种调度策略,帮助用户高效地处理数据。––l周期性调度:以月、周、天、小时、分钟为周期,自动调度运行数据管道,实现数据管道的自动周期运行。手工调度:手动触发数据管道运行,实现数据管道单次运行。支持对数据管道进行运行、停止操作。1.3.3 数据管道监控ll支持查看数据管道当前和历史的运行详情。支持查看数据管道内各活动的运行详情。1.4 DPS与其他服务的关系介绍DPS与其他服务的关系。ll弹性大数据(Map Reduce Service )DPS服务支持的大数据类型活动是运行在弹性大数据服务上。对象存储服务(Object Storage Service)对象存储服务(OBS)用于存储数据,包括作业输入数据和作业输出数据。作业输入数据:用户程序和数据文件。作业输出数据:作业输出的结果文件和日志文件。ll关系型数据库(Relational Database Service)关系型数据库(RDS)用于存储关系型数据库的输入输出数据。与统一身份认证服务的关系统一身份认证服务(Identity and Access Management,简称IAM)为DPS提供了鉴权功能。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司2

数据调度服务用户指南1 简介1.5 使用DPS所需的权限背景信息DPS通过ACL进行数据权限控制。在元数据中不仅存储用户创建的数据管道,而且存储了此数据管道相关的ACL信息,当用户检索数据管道的时候,根据用户的帐号信息检索此用户有权限查看的数据管道;避免未经授权的访问和信息泄露。权限列表用户所属不同的用户组,将具备不同的操作权限。创建用户、用户组,以及修改用户组权限需要在IAM管理控制台操作,详情请参见IAM的《用户指南》。DPS的权限列表如表1-1所示。表1-1 权限管理表节点名称基本权限名称TenantAdministratorDPSAdministrator所管理的云服务资源所有服务权限说明包含操作企业所拥有的云服务资源的任意权限。包含以下操作权限:l创建数据管道、删除数据管道、修改数据管道定义、获取数据管道定义、校验数据管道定义。l运行数据管道、停止运行数据管道、配置调度信息、停止调度数据管道。l获取数据管道列表、获取数据管道实例列表、获取活动实例列表、获取计算资源、获取活动属性、获取监控结果。

DPS数据调度服务1.6 DPS有哪些限制使用DPS前,您需要认真阅读并了解以下使用限制。l建议使用支持的浏览器版本登录DPS。–––文档版本 02 (2017-08-26)Google Chrome:43.0及更高版本Mozilla FireFox:38.0及更高版本Internet Explorer:9.0及更高版本华为专有和保密信息版权所有 © 华为技术有限公司3

数据调度服务用户指南1 简介当使用Internet Explorer 9.0时可能无法登录DPS管理控制台,原因是某些Windows系统(如Win7旗舰版),默认禁止Administrator用户。建议使用Administrator管理员权限运行浏览器。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司4

数据调度服务用户指南2 操作指南22.1 数据管道列表2.1.1 数据管道列表简介说明 操作指南数据管道列表显示DPS所有的数据管道,数据管道数量较多时,可采用翻页显示,您可以查看任何状态下的数据管道。用户还可以在“数据管道列表”界面查看到数据管道的最大配额和剩余数目。默认数据管道的最大配额是10,同时系统支持用户根据实际需求调整最大配额。单击“创建数据管道”下方的“申请扩大配额”。数据管道列表默认按时间顺序排列,时间最近的数据管道显示在最前端。数据管道列表参数说明如表2-1所示。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司5

数据调度服务用户指南2 操作指南表2-1 数据管道列表参数参数数据管道名称参数说明数据管道的名称。单击数据管道名称,可以查看该数据管道的详细信息,包括如下:l数据管道IDl调度周期l调度开始时间l调度结束时间l描述l所属订单单击“所属订单”,进入用户中心的订单详情页面。l计费方式l订单生效时间l订单到期时间l运行记录说明删除状态的数据管道,无法展示以上详细信息。运行状态数据管道状态信息,包括如下:l运行中l已停止l终止中l暂停中l已暂停l已删除创建时间创建者描述操作数据管道的创建时间。数据管道的创建人。数据管道的描述信息。l编辑:数据管道编排操作。l运行:对编排成功的数据管道进行运行。l更多:删除:删除数据管道。调度:配置任务周期调度信息。终止:终止数据管道,停止调度数据管道。

表2-2描述了“数据管道列表”页面上的按钮功能。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司6

数据调度服务用户指南2 操作指南表2-2 按钮说明按钮说明在搜索框中,输入数据管道名称,单击

,进行搜索。2.1.2 创建数据管道背景信息DPS服务只收取服务管理费用,Data Pipeline运行所需的基础设施资源不由DPS所收取,服务管理费用如表 1 服务管理费所示。表2-3 服务管理费产品规格1个Pipeline

DPS服务支持按包年/包月方式购买时长,最短时长为1个月,最长时长为3年。购买DPS服务使用时长的优惠信息如下:lll花10个月费用享1年使用权。花20个月费用享2年使用权。花30个月费用享3年使用权。价格单位元按月85按年850所需权限用户需要具备操作数据管道的权限。操作步骤步骤1登录数据调度服务,进入“数据管道列表”页面。步骤2单击“创建数据管道”,进入“购买数据调度服务”页面。步骤3在“基本信息”页面,系统自动生成一个数据管道名称,您可以根据需要修改。说明数据管道名称只能由字母、数字和下划线组成,并且长度为1~62个字符。步骤4在“购买量”页面中的“购买时长”区域框下,拖动“购买时长”,确定购买时间及配置费用后,单击“立即购买”。说明l确定购买时长后,系统会自动计算出配置费用。l在“配置费用”中,您可以单击“了解计费详情”,在弹出的“产品价格详情”页面中,查看具体的计费详情。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司7

数据调度服务用户指南2 操作指南步骤5在“订单确认”页面,确认订单配置信息后,勾选“我已经阅读并且同意 《DPS服务协议》”,单击“提交订单”。订单配置信息如表2-4所示。表2-4 订单配置信息参数服务名配置计费方式购买时长单价价格

步骤6选择如下任一方式付款:余额支付,支付宝,网上银行支付和转账汇款。步骤7单击“确认付款”,购买服务成功。返回“数据管道列表”页面,数据管道创建成功。----结束描述显示购买服务名称。所购买服务的规格,包括所在区域。计费方式为包月或者包年。显示购买时长。例如一个月或一年。所购买服务的单价。显示购买服务的最终合计的价格。2.1.3 编辑数据管道所需权限用户需要具备操作数据管道的权限。操作步骤步骤1登录数据调度服务,进入“数据管道列表”页面。步骤2在页面右上角搜索框中,输入需要编辑的数据管道名称,单击。步骤3选中需要编辑的数据管道,在“操作”列中,单击“编辑”,进入“编辑”页面。页面左侧分为两部分:ll数据源:各参数请参见数据源。活动:各参数请参见活动。步骤4拖动“数据源”或“活动”中任意项到画布中,以数据源OBS为例,进行说明。1.2.拖动数据源OBS到画布并单击。在画布右侧弹出配置数据源界面,配置OBS的参数。步骤5鼠标移动到数据源OBS图标上,图标浮现连线图标。选中连线图标并拖动连接一个活动上。图2-1显示连接成功的数据管道。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司8

数据调度服务用户指南2 操作指南图2-1 成功连接界面连接不成功,请参见表2-5重新配置。表2-5 数据源和活动流程活动名称DistCp数据源和活动OBS-> DistCp ->HDFSHDFS-> DistCp ->OBSRDS QuerySqoopRDS-> RDS Query ->RDSHDFS-> Sqoop ->RDSRDS -> Sqoop -> HDFSLoad HBaseHiveSparkSpark SQLMapReduce

步骤6单击ll,检查本地Pipeline的合法性。在弹出的对话框中,单击“确定”,如果合法,显示数据管道保存成功。保存不成功,大致分为以下情况:–––––步骤7单击单独的数据源和单独的需要有输入或者输出数据源的活动不能保存。项目中存在闭环不能保存。活动数量大于32个不能保存。数据源或者活动配置不合法不能保存。连接关系不完整的活动不能保存。,设置调度定时任务。请参见表2-8进行调度编辑。HDFS-> Load HBase-> HBase单活动组件,无数据源连接在弹出的调度对话框中,文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司9

数据调度服务用户指南2 操作指南ll单击“确定”,保存设置的运行周期。单击“取消”,关闭调度对话框。说明l调度必须配置运行周期。l调度任务是可选步骤。不配置调度任务,也可以正常运行组件。l保存和调度操作,无先后顺序。----结束2.1.4 运行数据管道所需权限用户需要具备操作数据管道的权限。操作步骤步骤1登录数据调度服务,进入“数据管道列表”页面。步骤2在页面右上角搜索框中,输入需要运行的数据管道名称,单击。步骤3选中需要运行的数据管道,在“操作”列中,单击“运行”,将开始运行上述编辑成功的数据管道,“运行”按钮变为“暂停”。数据管道运行过程中,在“操作”列中,单击“暂停”,将暂停运行中的数据管道,“暂停”按钮变为“运行”。说明暂停运行中的数据管道,有以下两种情况:l单击“暂停”时,如果当前执行的不是数据管道中的最后一个活动,执行完当前的活动后,数据管道状态变为“已暂停”。l单击“暂停”时,如果当前执行的是数据管道中的最后一个活动,执行完成后,数据管道状态将变为“已停止”。----结束2.1.5 监控数据管道所需权限用户需要具备操作数据管道的权限。操作步骤步骤1登录数据调度服务,进入“数据管道列表”页面。步骤2在页面右上角搜索框中,输入需要监控的数据管道名称,单击。步骤3单击数据管道名称,在详细信息页面的“运行记录”中查看监控信息。步骤4单击文档版本 02 (2017-08-26),刷新监控信息。华为专有和保密信息版权所有 © 华为技术有限公司10

数据调度服务用户指南2 操作指南表2-6 数据管道运行记录的参数说明参数状态运行时间(min)开始时间结束时间

描述状态值包括:成功、失败、运行中、已暂停、已取消、已删除。数据管道运行的所有时间。数据管道运行的开始时间。数据管道运行的结束时间。如果需要查看数据管道中各活动的运行情况,请单击按钮表2-7 活动运行记录的参数说明参数名称类型状态运行时间(min)开始时间操作

----结束描述活动名称。活动类型。。状态值包括:成功、失败、运行中、已暂停、已取消、已删除。活动运行的所有时间。活动运行的开始时间。查看执行日志。2.1.6 删除数据管道所需权限用户需要具备操作数据管道的权限。操作步骤步骤1登录数据调度服务,进入“数据管道列表”页面。步骤2在页面右上角搜索框中,输入要删除的数据管道名称,单击。步骤3选中要删除的数据管道,在“操作”列中,单击“更多 > 删除”,在弹出的对话框中,单击“确定”,数据管道被删除。说明数据管道被删除后,可以进行恢复。----结束文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司11

数据调度服务用户指南2 操作指南2.1.7 调度数据管道所需权限用户需要具备操作数据管道的权限。操作步骤步骤1登录数据调度服务,进入“数据管道列表”页面。步骤2在页面右上角搜索框中,输入需要调度的数据管道名称,单击。步骤3选中需要调度的数据管道,在“操作”列中,选择“更多 > 调度”,在弹出“调度”对话框中,请参见表2-8进行调度编辑。表2-8 调度参数名称运行周期起始时间说明输入数据管道运行时间段。数据管道运行起始时间。说明开始时间必须小于结束时间。结束时间数据管道结束时间。说明结束时间必须大于当前时间。

步骤4单击“确定”,保存设置的运行周期。保存后“调度周期”中会显示出具体的调度周期时间。单击“取消”,关闭调度对话框。----结束2.1.8 终止数据管道所需权限用户需要具备操作数据管道的权限。操作步骤步骤1登录数据调度服务,进入“数据管道列表”页面。步骤2在页面右上角搜索框中,输入需要终止的数据管道名称,单击。步骤3选中需要终止的数据管道,在“操作”列中,选择“更多 > 终止”,在弹出的对话框中,单击“确定”,数据管道被终止。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司12

数据调度服务用户指南说明2 操作指南停止和删除状态的数据管道无法被终止,其他状态的数据管道允许被终止。----结束文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司13

数据调度服务用户指南3 配置参考33.1 数据源数据存储的地方,例如,OBS、RDS、HDFS等。 配置参考3.1.1 RDS功能RDS表示关系数据库,以表的形式存储用户的数据。RDS数据源,定义数据源的连接信息。参数描述在编辑页面,拖动RDS到画布并单击,在画布右侧弹出配置界面,查看和编辑RDS各配置项。RDS参数描述如表3-1所示。表3-1 参数描述参数名称数据库驱动名数据库连接URL数据库用户名数据库名

是否必选项是是是是是描述数据源名称关系数据库驱动名称关系数据库的连接串举例数据库用户名关系数据库用户名使用示例(仅供参考)RDS_jdbc:mysql://127.0.0.1:3306DBusernameDBname文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司14

数据调度服务用户指南3 配置参考3.1.2 HBase功能HBase是一个分布式的、面向列的数据库,构建在HDFS上的存储系统。HBase数据源,定义HBase的连接信息。参数描述在编辑页面,拖动HBase到画布并单击,查看和编辑HBase各配置项。HBase参数描述如表3-2所示。表3-2 参数描述参数名称HBASE表名是否必选项是是描述数据源名称HBase表名称(HBase中的表需事先建好,建表语句如:create

‘test’,’d’)HBase表中的列使用示例(仅供参考)HBase_9819datacsv2HBASE列名

否HBASE_ROW_KEY,d:c2,d:c33.1.3 HDFS功能HDFS表示Hadoop分布式文件系统,适用于大规模的数据存储。HDFS数据源,定义HDFS的连接信息。参数描述在编辑页面,拖动HDFS到画布并单击,查看和编辑HDFS各配置项HDFS参数描述如表3-3所示。表3-3 参数描述参数名称MR集群名HDFS路径

文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司15是否必选项是是是描述数据源名称MR集群名称HDFS路径使用示例(仅供参考)HDFS_6700Cluster Name/user/omn/

数据调度服务用户指南3 配置参考3.1.4 OBS功能OBS表示对象存储服务,是一种可存储文档、图片、影音视频等非结构化数据的云存储服务。OBS数据源,定义OBS的连接信息。参数描述在编辑页面,拖动OBS到画布并单击,查看和编辑OBS各配置项。OBS参数描述如表3-4所示。表3-4 参数描述参数名称OBS路径

是否必选项是是描述数据源名称OBS路径使用示例(仅供参考)OBS_7202s3a://kaka/3.2 活动定义对数据执行的移动/转换操作。例如,可使用“分布式复制”活动将数据从OBS导入到HDFS。3.2.1 Spark功能执行预先定义的Spark作业。参数描述在编辑页面,拖动Spark到画布并单击,查看和编辑Spark各配置项。Spark参数描述如表3-5所示。表3-5 参数描述参数名称MR集群名作业名Jar包路径是否必选项是是是是描述活动名称MR集群名称作业名称Spark作业的Jar包路径使用示例(仅供参考)Spark_8121DPS_using_mrsSparks3a://kaka/program/文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司16

数据调度服务用户指南3 配置参考参数Jar包参数输入数据参数输出数据参数日志路径

是否必选项否否否是描述运行Jar包的参数输入数据路径输出数据路径日志路径使用示例(仅供参考)rdCountWithSaves3a://kaka/inputs3a://kaka/outputs3a://kaka/log3.2.2 Hive功能通过传递SQL语句到Hive中来执行,支持DML与DLL SQL语句。参数描述在编辑页面,拖动Hive到画布并单击,查看和编辑Hive各配置项。Hive参数描述如表3-6所示。表3-6 参数描述参数名称MR集群名作业名Hive脚本路径参数输入数据参数输出数据参数日志路径

是否必选项是是是是否否否是描述活动名称MR集群名称作业名称Hive执行脚本Hive脚本的变量参数输入数据路径输出数据路径日志路径使用示例(仅供参考)Hive_4489DPS_using_mrscreate table tb1(id String,nameString);s3a://kaka/program/默认为空/user/omm//user/omm/s3a://kaka/log3.2.3 RDS Query功能通过传递SQL语句到RDS中来执行,支持DML与DLL SQL语句。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司17

数据调度服务用户指南3 配置参考参数描述在编辑页面,拖动RDS Query到画布并单击,查看和编辑RDS Query各配置项。数据源和活动流程版块参考如表3-7所示。表3-7 数据源和活动流程活动版块名称RDS Query数据源和活动流程RDS -> RDS Query -> RDS说明其中RDS仅仅只能配置在同一个数据库。

RDS Query参数描述表3-8所示。表3-8 参数描述参数是否必选项是是是是是描述使用示例(仅供参考)名称MR集群名日志路径SQL语句Jar包路径活动名称MR集群名称日志路径SQL语句,多个语句之间要用分号分隔Jar包路径,参见配置Jar Path前操作RDSQuery_4073DPS_using_mrss3a://dps/log"CREATE TABLE test9(`callee_number` varchar(20) )"s3a://dps/program/

配置Jar Path前操作在配置Jar Path前您需要进行如下操作:步骤1用户从公共的OBS上下载包。步骤2解压,在配置文件ties中写入用户访问RDS数据库的密码并保存。步骤3将写入密码后的包上传至用户自身的OBS上。----结束在配置Jar Path后,系统运行时,可从配置文件中读取密码登录RDS数据库。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司18

数据调度服务用户指南3 配置参考3.2.4 Load HBase功能数据文件以csv格式存储在HDFS中,将数据从HDFS中导入到HBase表中,使用HBase的API对数据做处理。参数描述在编辑页面,拖动Load HBase到画布并单击,查看和编辑Load HBase各配置项。说明l普通用户:“用户Jar包路径”、“可执行类名”和“扩展参数文件路径”三栏无需填写。l用户自定义:“用户Jar包路径”、“可执行类名”和“扩展参数文件路径”三栏用户自定义。数据源和活动流程版块参考如表3-9所示。表3-9 数据源和活动流程活动版块名称Load HBase

Load HBase参数描述如表3-10所示。表3-10 参数描述参数名称MR集群名加载类型是否必选项是是是描述活动名称MR集群名称加载类型:包括BULKLOAD与INSERT。lBULKLOAD用来导入大量数据到HBase中lINSERT用来导入少量数据到HBase中HFILE路径是否备份加载文件加载文件备份路径文档版本 02 (2017-08-26)数据源和活动流程HDFS -> Load HBase -> HBase使用示例(仅供参考)LoadHBase_4191DPS_using_mrsBULKLOAD或INSERT是是是HFile路径CSV是否需要存档CSV存档路径/tmpYes或No/user/omm/19华为专有和保密信息版权所有 © 华为技术有限公司

数据调度服务用户指南3 配置参考参数用户Jar包路径是否必选项否描述用户自定义Jar包的路径执行类名称扩展参数文件的路径日志路径使用示例(仅供参考)/user/omm/yu/loadhbase/customjar/TsvCustom/user/omm/yu/loadhbase/arg//user/omm/yu/loadhbase/log/可执行类名扩展参数文件路径日志路径

否否是3.2.5 DistCp功能DistCp利用MapReduce作业实现分布式文件拷贝,可以从OBS导入到HDFS,也可以从HDFS导出到OBS。参数描述在编辑页面,拖动DistCp到画布并单击,查看和编辑DistCp各配置项。数据源和活动流程版块参考如表3-11所示。表3-11 数据源和活动流程活动版块名称DistCp数据源和活动流程OBS -> DistCp -> HDFSHDFS -> DistCp -> OBS

DistCp参数描述如表3-12所示。表3-12 参数描述参数名称作业名

是否必选项是是描述活动名称作业名称使用示例(仅供参考)DistCp_4171distcp文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司20

数据调度服务用户指南3 配置参考3.2.6 Spark SQL功能执行一个Spark SQL语句。参数描述在编辑页面,拖动Spark SQL到画布并单击,查看和编辑Spark SQL各配置项。Spark SQL参数描述如表3-13所示。表3-13 参数描述参数名称MR集群名作业名SQL语句

是否必选项是是是是描述活动名称MR集群名称作业名称Spark Sql使用示例(仅供参考)SparkSQL_4171DPS_using_mrssparkSqlshow tables;3.2.7 MapReduce功能执行一个Map Reduce作业。参数描述在编辑页面,拖动MapReduce到画布并单击,查看和编辑MapReduce各配置项。MapReduce参数描述如表3-14所示。表3-14 参数描述参数名称MR集群名作业名Jar包路径Jar包参数输入数据参数文档版本 02 (2017-08-26)是否必选项是是是是否否描述活动名称MR集群名称作业名称Jar包路径MapReduce作业的Jar的路径输入数据路径使用示例(仅供参考)MapReduce_4171DPS_using_mrsMRs3a://kaka/program/dcounts3a://kaka/input21华为专有和保密信息版权所有 © 华为技术有限公司

数据调度服务用户指南3 配置参考参数输出数据参数日志路径

是否必选项否是描述输出数据路径日志路径使用示例(仅供参考)s3a://kaka/outputs3a://kaka/log3.2.8 Sqoop功能将存储在HDFS中的数据导入到RDS的数据表中,将存储在RDS中的数据导出到HDFS中,从而实现HDFS和RDS的数据互导。参数描述在编辑页面,拖动Sqoop到画布并单击,查看和编辑Sqoop各配置项。数据源和活动流程版块参考如表3-15所示。表3-15 数据源和活动流程活动版块名称Sqoop数据源和活动流程HDFS -> Sqoop -> RDSRDS -> Sqoop -> HDFS

说明RDS -> Sqoop -> HDFS活动流程中,HDFS的“HDFS路径”必须是新创建的文件夹。举例说明:如果DPS提供的“HDFS路径”为“/user/omm”,用户需要在该目录下创建一个文件夹“yourpath”,并设置“HDFS路径”为“/user/omm/yourpath”。Sqoop参数描述如表3-16所示。表3-16 参数描述参数名称MR集群名作业名参数日志路径表名文档版本 02 (2017-08-26)是否必选项是是是是是是描述活动名称MR集群名称作业名称参数日志路径数据库表名称使用示例(仅供参考)Sqoop_4171DPS_using_mrssqoop-m 1(起一个Map进程执行任务)s3a://dps/logtablename22华为专有和保密信息版权所有 © 华为技术有限公司

数据调度服务用户指南3 配置参考参数Jar包路径是否必选项是描述Jar包路径,参见配置Jar Path前操作使用示例(仅供参考)s3a://dps/program/文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司23

数据调度服务用户指南4 常见问题44.1 什么是Data Pipeline Service?4.2 DPS可以调度哪些服务?DPS可以调度以下服务:lllOBSMRSRDS 常见问题Data Pipeline Service是华为云的一项基础服务,可以帮助用户轻松地创建和调度数据管道任务。Data Pipeline Service集成了多种华为云基础服务,可以帮助用户轻松地使用和移动存放在OBS和RDS中的数据。Data Pipeline Service也可以帮助用户轻松地创建和调度基于华为弹性大数据服务的数据处理和分析任务。4.3 我从Data Pipeline Service用户界面最多可以创建多少个Pipeline?目前默认每个用户最多可以创建10个Pipeline,同时系统支持用户根据实际需求调整最大配额。4.4 Data Pipeline Service可以做什么?l使用Data Pipeline Service,用户可以通过简单的拖拽操作来定制数据管道;用户可以设置定时参数执行数据管道;用户可以定义任务成功或失败后需要执行脚本策略。Data Pipeline Service提供多种数据采集和处理,可以将用户从复杂的数据流编制过程中解放出来,让用户专注于数据处理逻辑而不是编程工作。l文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司24

数据调度服务用户指南4 常见问题4.5 什么是Pipeline?Pipeline是由一系列的activities,Data Source互相关联构成,其中activity表示对数据的处理操作,Data Source表示数据来源和存放位置。相关联的activities表示前一个activity执行完毕后,下一个activity才能开始执行。4.6 什么是Data Source?Data Source表示数据管道操作中被处理的数据,举例来说,一个OBS data source表示存放在OBS中的数据,它的path属性,表示了数据的存放路径。4.7 为什么数据管道的订单到期时间显示不一致?为即将到期的数据管道续费后,在“Renewal Management”页面中显示该数据管道的到期时间为续费后的时间,可是在数据调度服务的页面中查看该数据管道的到期时间为续费前的。原因是:用户完成续费后, 用户中心将会为此数据管道分配新的订单号(此处称为续订订单号),并在“续费管理”中显示续费后的有效期限。当数据管道当前的订单号过期时,用户中心将向数据调度服务系统传递此数据管道的续订订单号信息,此时数据调度服务系统将在详细信息页面中刷新该数据管道的有效期限为续费后的。由于在数据调度服务系统中,此数据管道当前的订单号还未到期,所以页面显示的是当前订单号的有效期限,即续费前的有效期限。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司25

数据调度服务用户指南A 修订记录A发布日期2017-08-26修改说明第二次正式发布。2017-07-28第一次正式发布。 修订记录l修改数据管道列表简介中的数据管道列表参数说明以及按钮说明。l修改监控数据管道中进入监控页面的方式。l修改终止数据管道中允许被终止的数据管道的状态类型。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司26

2024年2月3日发(作者:公叔北嘉)

数据调度服务用户指南文档版本发布日期022017-08-26华为技术有限公司

版权所有 © 华为技术有限公司 2017。 保留一切权利。非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

商标声明和其他华为商标均为华为技术有限公司的商标。本文档提及的其他所有商标或注册商标,由各自的所有人拥有。

注意您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或默示的声明或保证。由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

华为技术有限公司地址:网址:深圳市龙岗区坂田华为总部办公楼 邮编:518129客户服务邮箱:support@客户服务电话:4008302118文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司i

数据调度服务用户指南目 录目 录1 简介...................................................................................................................................................11.1 DPS是什么....................................................................................................................................................................11.2 应用场景........................................................................................................................................................................11.3 DPS有哪些功能............................................................................................................................................................21.3.1 数据管道创建和管理.................................................................................................................................................21.3.2 数据管道调度.............................................................................................................................................................21.3.3 数据管道监控.............................................................................................................................................................21.4 DPS与其他服务的关系................................................................................................................................................21.5 使用DPS所需的权限...................................................................................................................................................31.6 DPS有哪些限制............................................................................................................................................................32 操作指南...........................................................................................................................................52.1 数据管道列表................................................................................................................................................................52.1.1 数据管道列表简介.....................................................................................................................................................52.1.2 创建数据管道.............................................................................................................................................................72.1.3 编辑数据管道.............................................................................................................................................................82.1.4 运行数据管道...........................................................................................................................................................102.1.5 监控数据管道...........................................................................................................................................................102.1.6 删除数据管道...........................................................................................................................................................112.1.7 调度数据管道...........................................................................................................................................................122.1.8 终止数据管道...........................................................................................................................................................123 配置参考.........................................................................................................................................143.1 数据源..........................................................................................................................................................................143.1.143.1.153.1.153.1.163.2 活动..............................................................................................................................................................................163.2..163.2.173.2.3 173.2.4 193.2.20文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司ii

数据调度服务用户指南目 录3.2.6 213.2.213.2.224 常见问题.........................................................................................................................................244.1 什么是Data Pipeline Service?.....................................................................................................................................244.2 DPS可以调度哪些服务?..........................................................................................................................................244.3 我从Data Pipeline Service用户界面最多可以创建多少个Pipeline?...................................................................244.4 Data Pipeline Service可以做什么?.............................................................................................................................244.5 什么是Pipeline?..........................................................................................................................................................254.6 什么是Data Source?....................................................................................................................................................254.7 为什么数据管道的订单到期时间显示不一致?......................................................................................................25A 修订记录........................................................................................................................................26文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司iii

数据调度服务用户指南1 简介11.1 DPS是什么概述 简介数据调度服务(Data Pipeline Service,简称DPS)是公有云上的一种云服务,可轻松实现数据在各服务间移动和转换的自动化。根据业务数据处理的需要,用户使用DPS定义数据管道以描述数据处理任务、执行顺序和调度计划,DPS则依据预设的计划和关系调度和控制各任务有序地执行,实现数据在各服务间加工流转。特点l易于性用户使用图形化设计器拖拉拽的方式编排数据源和移动/转换活动,并设置其属性,就可以轻松创建数据管道,减少用户开发成本。l高可靠性支持高并发调度数据管道和活动运行,如果活动逻辑出现故障,DPS会自动重试该活动。l可扩展性可以很容易地扩展以支持更多的数据处理活动,例如Spark、Hadoop、OBS、RDS等数据处理活动。增加一个数据处理活动仅需进行非常少量的编程工作。1.2 应用场景DPS应用场景如下:l服务间数据流动已经购买其它服务并在服务上积累了一定量的数据,希望实现服务之间的数据互通。DPS构建服务之间的传输通道,提供数据并行传输的活动,解决服务间数据传输问题,可助您快速实现数据互通。l批量、定期任务执行华为专有和保密信息版权所有 © 华为技术有限公司1文档版本 02 (2017-08-26)

数据调度服务用户指南1 简介业务上需要定制批量的、复杂的任务流来实现数据分析。DPS可以通过简单的配置,实现数据管道的调度运行。1.3 DPS有哪些功能1.3.1 数据管道创建和管理lll提供图形化设计器,支持拖拉拽方式编排数据管道,实现基于实际业务类型的数据管道的构建。预置多种数据源,支持各种异构数据源的集成,包括RDS、OBS、HDFS和HBase,详见数据源。预置多种活动,使用户能够安全可靠地处理或迁移数据,详见活动。1.3.2 数据管道调度l提供两种调度策略,帮助用户高效地处理数据。––l周期性调度:以月、周、天、小时、分钟为周期,自动调度运行数据管道,实现数据管道的自动周期运行。手工调度:手动触发数据管道运行,实现数据管道单次运行。支持对数据管道进行运行、停止操作。1.3.3 数据管道监控ll支持查看数据管道当前和历史的运行详情。支持查看数据管道内各活动的运行详情。1.4 DPS与其他服务的关系介绍DPS与其他服务的关系。ll弹性大数据(Map Reduce Service )DPS服务支持的大数据类型活动是运行在弹性大数据服务上。对象存储服务(Object Storage Service)对象存储服务(OBS)用于存储数据,包括作业输入数据和作业输出数据。作业输入数据:用户程序和数据文件。作业输出数据:作业输出的结果文件和日志文件。ll关系型数据库(Relational Database Service)关系型数据库(RDS)用于存储关系型数据库的输入输出数据。与统一身份认证服务的关系统一身份认证服务(Identity and Access Management,简称IAM)为DPS提供了鉴权功能。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司2

数据调度服务用户指南1 简介1.5 使用DPS所需的权限背景信息DPS通过ACL进行数据权限控制。在元数据中不仅存储用户创建的数据管道,而且存储了此数据管道相关的ACL信息,当用户检索数据管道的时候,根据用户的帐号信息检索此用户有权限查看的数据管道;避免未经授权的访问和信息泄露。权限列表用户所属不同的用户组,将具备不同的操作权限。创建用户、用户组,以及修改用户组权限需要在IAM管理控制台操作,详情请参见IAM的《用户指南》。DPS的权限列表如表1-1所示。表1-1 权限管理表节点名称基本权限名称TenantAdministratorDPSAdministrator所管理的云服务资源所有服务权限说明包含操作企业所拥有的云服务资源的任意权限。包含以下操作权限:l创建数据管道、删除数据管道、修改数据管道定义、获取数据管道定义、校验数据管道定义。l运行数据管道、停止运行数据管道、配置调度信息、停止调度数据管道。l获取数据管道列表、获取数据管道实例列表、获取活动实例列表、获取计算资源、获取活动属性、获取监控结果。

DPS数据调度服务1.6 DPS有哪些限制使用DPS前,您需要认真阅读并了解以下使用限制。l建议使用支持的浏览器版本登录DPS。–––文档版本 02 (2017-08-26)Google Chrome:43.0及更高版本Mozilla FireFox:38.0及更高版本Internet Explorer:9.0及更高版本华为专有和保密信息版权所有 © 华为技术有限公司3

数据调度服务用户指南1 简介当使用Internet Explorer 9.0时可能无法登录DPS管理控制台,原因是某些Windows系统(如Win7旗舰版),默认禁止Administrator用户。建议使用Administrator管理员权限运行浏览器。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司4

数据调度服务用户指南2 操作指南22.1 数据管道列表2.1.1 数据管道列表简介说明 操作指南数据管道列表显示DPS所有的数据管道,数据管道数量较多时,可采用翻页显示,您可以查看任何状态下的数据管道。用户还可以在“数据管道列表”界面查看到数据管道的最大配额和剩余数目。默认数据管道的最大配额是10,同时系统支持用户根据实际需求调整最大配额。单击“创建数据管道”下方的“申请扩大配额”。数据管道列表默认按时间顺序排列,时间最近的数据管道显示在最前端。数据管道列表参数说明如表2-1所示。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司5

数据调度服务用户指南2 操作指南表2-1 数据管道列表参数参数数据管道名称参数说明数据管道的名称。单击数据管道名称,可以查看该数据管道的详细信息,包括如下:l数据管道IDl调度周期l调度开始时间l调度结束时间l描述l所属订单单击“所属订单”,进入用户中心的订单详情页面。l计费方式l订单生效时间l订单到期时间l运行记录说明删除状态的数据管道,无法展示以上详细信息。运行状态数据管道状态信息,包括如下:l运行中l已停止l终止中l暂停中l已暂停l已删除创建时间创建者描述操作数据管道的创建时间。数据管道的创建人。数据管道的描述信息。l编辑:数据管道编排操作。l运行:对编排成功的数据管道进行运行。l更多:删除:删除数据管道。调度:配置任务周期调度信息。终止:终止数据管道,停止调度数据管道。

表2-2描述了“数据管道列表”页面上的按钮功能。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司6

数据调度服务用户指南2 操作指南表2-2 按钮说明按钮说明在搜索框中,输入数据管道名称,单击

,进行搜索。2.1.2 创建数据管道背景信息DPS服务只收取服务管理费用,Data Pipeline运行所需的基础设施资源不由DPS所收取,服务管理费用如表 1 服务管理费所示。表2-3 服务管理费产品规格1个Pipeline

DPS服务支持按包年/包月方式购买时长,最短时长为1个月,最长时长为3年。购买DPS服务使用时长的优惠信息如下:lll花10个月费用享1年使用权。花20个月费用享2年使用权。花30个月费用享3年使用权。价格单位元按月85按年850所需权限用户需要具备操作数据管道的权限。操作步骤步骤1登录数据调度服务,进入“数据管道列表”页面。步骤2单击“创建数据管道”,进入“购买数据调度服务”页面。步骤3在“基本信息”页面,系统自动生成一个数据管道名称,您可以根据需要修改。说明数据管道名称只能由字母、数字和下划线组成,并且长度为1~62个字符。步骤4在“购买量”页面中的“购买时长”区域框下,拖动“购买时长”,确定购买时间及配置费用后,单击“立即购买”。说明l确定购买时长后,系统会自动计算出配置费用。l在“配置费用”中,您可以单击“了解计费详情”,在弹出的“产品价格详情”页面中,查看具体的计费详情。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司7

数据调度服务用户指南2 操作指南步骤5在“订单确认”页面,确认订单配置信息后,勾选“我已经阅读并且同意 《DPS服务协议》”,单击“提交订单”。订单配置信息如表2-4所示。表2-4 订单配置信息参数服务名配置计费方式购买时长单价价格

步骤6选择如下任一方式付款:余额支付,支付宝,网上银行支付和转账汇款。步骤7单击“确认付款”,购买服务成功。返回“数据管道列表”页面,数据管道创建成功。----结束描述显示购买服务名称。所购买服务的规格,包括所在区域。计费方式为包月或者包年。显示购买时长。例如一个月或一年。所购买服务的单价。显示购买服务的最终合计的价格。2.1.3 编辑数据管道所需权限用户需要具备操作数据管道的权限。操作步骤步骤1登录数据调度服务,进入“数据管道列表”页面。步骤2在页面右上角搜索框中,输入需要编辑的数据管道名称,单击。步骤3选中需要编辑的数据管道,在“操作”列中,单击“编辑”,进入“编辑”页面。页面左侧分为两部分:ll数据源:各参数请参见数据源。活动:各参数请参见活动。步骤4拖动“数据源”或“活动”中任意项到画布中,以数据源OBS为例,进行说明。1.2.拖动数据源OBS到画布并单击。在画布右侧弹出配置数据源界面,配置OBS的参数。步骤5鼠标移动到数据源OBS图标上,图标浮现连线图标。选中连线图标并拖动连接一个活动上。图2-1显示连接成功的数据管道。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司8

数据调度服务用户指南2 操作指南图2-1 成功连接界面连接不成功,请参见表2-5重新配置。表2-5 数据源和活动流程活动名称DistCp数据源和活动OBS-> DistCp ->HDFSHDFS-> DistCp ->OBSRDS QuerySqoopRDS-> RDS Query ->RDSHDFS-> Sqoop ->RDSRDS -> Sqoop -> HDFSLoad HBaseHiveSparkSpark SQLMapReduce

步骤6单击ll,检查本地Pipeline的合法性。在弹出的对话框中,单击“确定”,如果合法,显示数据管道保存成功。保存不成功,大致分为以下情况:–––––步骤7单击单独的数据源和单独的需要有输入或者输出数据源的活动不能保存。项目中存在闭环不能保存。活动数量大于32个不能保存。数据源或者活动配置不合法不能保存。连接关系不完整的活动不能保存。,设置调度定时任务。请参见表2-8进行调度编辑。HDFS-> Load HBase-> HBase单活动组件,无数据源连接在弹出的调度对话框中,文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司9

数据调度服务用户指南2 操作指南ll单击“确定”,保存设置的运行周期。单击“取消”,关闭调度对话框。说明l调度必须配置运行周期。l调度任务是可选步骤。不配置调度任务,也可以正常运行组件。l保存和调度操作,无先后顺序。----结束2.1.4 运行数据管道所需权限用户需要具备操作数据管道的权限。操作步骤步骤1登录数据调度服务,进入“数据管道列表”页面。步骤2在页面右上角搜索框中,输入需要运行的数据管道名称,单击。步骤3选中需要运行的数据管道,在“操作”列中,单击“运行”,将开始运行上述编辑成功的数据管道,“运行”按钮变为“暂停”。数据管道运行过程中,在“操作”列中,单击“暂停”,将暂停运行中的数据管道,“暂停”按钮变为“运行”。说明暂停运行中的数据管道,有以下两种情况:l单击“暂停”时,如果当前执行的不是数据管道中的最后一个活动,执行完当前的活动后,数据管道状态变为“已暂停”。l单击“暂停”时,如果当前执行的是数据管道中的最后一个活动,执行完成后,数据管道状态将变为“已停止”。----结束2.1.5 监控数据管道所需权限用户需要具备操作数据管道的权限。操作步骤步骤1登录数据调度服务,进入“数据管道列表”页面。步骤2在页面右上角搜索框中,输入需要监控的数据管道名称,单击。步骤3单击数据管道名称,在详细信息页面的“运行记录”中查看监控信息。步骤4单击文档版本 02 (2017-08-26),刷新监控信息。华为专有和保密信息版权所有 © 华为技术有限公司10

数据调度服务用户指南2 操作指南表2-6 数据管道运行记录的参数说明参数状态运行时间(min)开始时间结束时间

描述状态值包括:成功、失败、运行中、已暂停、已取消、已删除。数据管道运行的所有时间。数据管道运行的开始时间。数据管道运行的结束时间。如果需要查看数据管道中各活动的运行情况,请单击按钮表2-7 活动运行记录的参数说明参数名称类型状态运行时间(min)开始时间操作

----结束描述活动名称。活动类型。。状态值包括:成功、失败、运行中、已暂停、已取消、已删除。活动运行的所有时间。活动运行的开始时间。查看执行日志。2.1.6 删除数据管道所需权限用户需要具备操作数据管道的权限。操作步骤步骤1登录数据调度服务,进入“数据管道列表”页面。步骤2在页面右上角搜索框中,输入要删除的数据管道名称,单击。步骤3选中要删除的数据管道,在“操作”列中,单击“更多 > 删除”,在弹出的对话框中,单击“确定”,数据管道被删除。说明数据管道被删除后,可以进行恢复。----结束文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司11

数据调度服务用户指南2 操作指南2.1.7 调度数据管道所需权限用户需要具备操作数据管道的权限。操作步骤步骤1登录数据调度服务,进入“数据管道列表”页面。步骤2在页面右上角搜索框中,输入需要调度的数据管道名称,单击。步骤3选中需要调度的数据管道,在“操作”列中,选择“更多 > 调度”,在弹出“调度”对话框中,请参见表2-8进行调度编辑。表2-8 调度参数名称运行周期起始时间说明输入数据管道运行时间段。数据管道运行起始时间。说明开始时间必须小于结束时间。结束时间数据管道结束时间。说明结束时间必须大于当前时间。

步骤4单击“确定”,保存设置的运行周期。保存后“调度周期”中会显示出具体的调度周期时间。单击“取消”,关闭调度对话框。----结束2.1.8 终止数据管道所需权限用户需要具备操作数据管道的权限。操作步骤步骤1登录数据调度服务,进入“数据管道列表”页面。步骤2在页面右上角搜索框中,输入需要终止的数据管道名称,单击。步骤3选中需要终止的数据管道,在“操作”列中,选择“更多 > 终止”,在弹出的对话框中,单击“确定”,数据管道被终止。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司12

数据调度服务用户指南说明2 操作指南停止和删除状态的数据管道无法被终止,其他状态的数据管道允许被终止。----结束文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司13

数据调度服务用户指南3 配置参考33.1 数据源数据存储的地方,例如,OBS、RDS、HDFS等。 配置参考3.1.1 RDS功能RDS表示关系数据库,以表的形式存储用户的数据。RDS数据源,定义数据源的连接信息。参数描述在编辑页面,拖动RDS到画布并单击,在画布右侧弹出配置界面,查看和编辑RDS各配置项。RDS参数描述如表3-1所示。表3-1 参数描述参数名称数据库驱动名数据库连接URL数据库用户名数据库名

是否必选项是是是是是描述数据源名称关系数据库驱动名称关系数据库的连接串举例数据库用户名关系数据库用户名使用示例(仅供参考)RDS_jdbc:mysql://127.0.0.1:3306DBusernameDBname文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司14

数据调度服务用户指南3 配置参考3.1.2 HBase功能HBase是一个分布式的、面向列的数据库,构建在HDFS上的存储系统。HBase数据源,定义HBase的连接信息。参数描述在编辑页面,拖动HBase到画布并单击,查看和编辑HBase各配置项。HBase参数描述如表3-2所示。表3-2 参数描述参数名称HBASE表名是否必选项是是描述数据源名称HBase表名称(HBase中的表需事先建好,建表语句如:create

‘test’,’d’)HBase表中的列使用示例(仅供参考)HBase_9819datacsv2HBASE列名

否HBASE_ROW_KEY,d:c2,d:c33.1.3 HDFS功能HDFS表示Hadoop分布式文件系统,适用于大规模的数据存储。HDFS数据源,定义HDFS的连接信息。参数描述在编辑页面,拖动HDFS到画布并单击,查看和编辑HDFS各配置项HDFS参数描述如表3-3所示。表3-3 参数描述参数名称MR集群名HDFS路径

文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司15是否必选项是是是描述数据源名称MR集群名称HDFS路径使用示例(仅供参考)HDFS_6700Cluster Name/user/omn/

数据调度服务用户指南3 配置参考3.1.4 OBS功能OBS表示对象存储服务,是一种可存储文档、图片、影音视频等非结构化数据的云存储服务。OBS数据源,定义OBS的连接信息。参数描述在编辑页面,拖动OBS到画布并单击,查看和编辑OBS各配置项。OBS参数描述如表3-4所示。表3-4 参数描述参数名称OBS路径

是否必选项是是描述数据源名称OBS路径使用示例(仅供参考)OBS_7202s3a://kaka/3.2 活动定义对数据执行的移动/转换操作。例如,可使用“分布式复制”活动将数据从OBS导入到HDFS。3.2.1 Spark功能执行预先定义的Spark作业。参数描述在编辑页面,拖动Spark到画布并单击,查看和编辑Spark各配置项。Spark参数描述如表3-5所示。表3-5 参数描述参数名称MR集群名作业名Jar包路径是否必选项是是是是描述活动名称MR集群名称作业名称Spark作业的Jar包路径使用示例(仅供参考)Spark_8121DPS_using_mrsSparks3a://kaka/program/文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司16

数据调度服务用户指南3 配置参考参数Jar包参数输入数据参数输出数据参数日志路径

是否必选项否否否是描述运行Jar包的参数输入数据路径输出数据路径日志路径使用示例(仅供参考)rdCountWithSaves3a://kaka/inputs3a://kaka/outputs3a://kaka/log3.2.2 Hive功能通过传递SQL语句到Hive中来执行,支持DML与DLL SQL语句。参数描述在编辑页面,拖动Hive到画布并单击,查看和编辑Hive各配置项。Hive参数描述如表3-6所示。表3-6 参数描述参数名称MR集群名作业名Hive脚本路径参数输入数据参数输出数据参数日志路径

是否必选项是是是是否否否是描述活动名称MR集群名称作业名称Hive执行脚本Hive脚本的变量参数输入数据路径输出数据路径日志路径使用示例(仅供参考)Hive_4489DPS_using_mrscreate table tb1(id String,nameString);s3a://kaka/program/默认为空/user/omm//user/omm/s3a://kaka/log3.2.3 RDS Query功能通过传递SQL语句到RDS中来执行,支持DML与DLL SQL语句。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司17

数据调度服务用户指南3 配置参考参数描述在编辑页面,拖动RDS Query到画布并单击,查看和编辑RDS Query各配置项。数据源和活动流程版块参考如表3-7所示。表3-7 数据源和活动流程活动版块名称RDS Query数据源和活动流程RDS -> RDS Query -> RDS说明其中RDS仅仅只能配置在同一个数据库。

RDS Query参数描述表3-8所示。表3-8 参数描述参数是否必选项是是是是是描述使用示例(仅供参考)名称MR集群名日志路径SQL语句Jar包路径活动名称MR集群名称日志路径SQL语句,多个语句之间要用分号分隔Jar包路径,参见配置Jar Path前操作RDSQuery_4073DPS_using_mrss3a://dps/log"CREATE TABLE test9(`callee_number` varchar(20) )"s3a://dps/program/

配置Jar Path前操作在配置Jar Path前您需要进行如下操作:步骤1用户从公共的OBS上下载包。步骤2解压,在配置文件ties中写入用户访问RDS数据库的密码并保存。步骤3将写入密码后的包上传至用户自身的OBS上。----结束在配置Jar Path后,系统运行时,可从配置文件中读取密码登录RDS数据库。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司18

数据调度服务用户指南3 配置参考3.2.4 Load HBase功能数据文件以csv格式存储在HDFS中,将数据从HDFS中导入到HBase表中,使用HBase的API对数据做处理。参数描述在编辑页面,拖动Load HBase到画布并单击,查看和编辑Load HBase各配置项。说明l普通用户:“用户Jar包路径”、“可执行类名”和“扩展参数文件路径”三栏无需填写。l用户自定义:“用户Jar包路径”、“可执行类名”和“扩展参数文件路径”三栏用户自定义。数据源和活动流程版块参考如表3-9所示。表3-9 数据源和活动流程活动版块名称Load HBase

Load HBase参数描述如表3-10所示。表3-10 参数描述参数名称MR集群名加载类型是否必选项是是是描述活动名称MR集群名称加载类型:包括BULKLOAD与INSERT。lBULKLOAD用来导入大量数据到HBase中lINSERT用来导入少量数据到HBase中HFILE路径是否备份加载文件加载文件备份路径文档版本 02 (2017-08-26)数据源和活动流程HDFS -> Load HBase -> HBase使用示例(仅供参考)LoadHBase_4191DPS_using_mrsBULKLOAD或INSERT是是是HFile路径CSV是否需要存档CSV存档路径/tmpYes或No/user/omm/19华为专有和保密信息版权所有 © 华为技术有限公司

数据调度服务用户指南3 配置参考参数用户Jar包路径是否必选项否描述用户自定义Jar包的路径执行类名称扩展参数文件的路径日志路径使用示例(仅供参考)/user/omm/yu/loadhbase/customjar/TsvCustom/user/omm/yu/loadhbase/arg//user/omm/yu/loadhbase/log/可执行类名扩展参数文件路径日志路径

否否是3.2.5 DistCp功能DistCp利用MapReduce作业实现分布式文件拷贝,可以从OBS导入到HDFS,也可以从HDFS导出到OBS。参数描述在编辑页面,拖动DistCp到画布并单击,查看和编辑DistCp各配置项。数据源和活动流程版块参考如表3-11所示。表3-11 数据源和活动流程活动版块名称DistCp数据源和活动流程OBS -> DistCp -> HDFSHDFS -> DistCp -> OBS

DistCp参数描述如表3-12所示。表3-12 参数描述参数名称作业名

是否必选项是是描述活动名称作业名称使用示例(仅供参考)DistCp_4171distcp文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司20

数据调度服务用户指南3 配置参考3.2.6 Spark SQL功能执行一个Spark SQL语句。参数描述在编辑页面,拖动Spark SQL到画布并单击,查看和编辑Spark SQL各配置项。Spark SQL参数描述如表3-13所示。表3-13 参数描述参数名称MR集群名作业名SQL语句

是否必选项是是是是描述活动名称MR集群名称作业名称Spark Sql使用示例(仅供参考)SparkSQL_4171DPS_using_mrssparkSqlshow tables;3.2.7 MapReduce功能执行一个Map Reduce作业。参数描述在编辑页面,拖动MapReduce到画布并单击,查看和编辑MapReduce各配置项。MapReduce参数描述如表3-14所示。表3-14 参数描述参数名称MR集群名作业名Jar包路径Jar包参数输入数据参数文档版本 02 (2017-08-26)是否必选项是是是是否否描述活动名称MR集群名称作业名称Jar包路径MapReduce作业的Jar的路径输入数据路径使用示例(仅供参考)MapReduce_4171DPS_using_mrsMRs3a://kaka/program/dcounts3a://kaka/input21华为专有和保密信息版权所有 © 华为技术有限公司

数据调度服务用户指南3 配置参考参数输出数据参数日志路径

是否必选项否是描述输出数据路径日志路径使用示例(仅供参考)s3a://kaka/outputs3a://kaka/log3.2.8 Sqoop功能将存储在HDFS中的数据导入到RDS的数据表中,将存储在RDS中的数据导出到HDFS中,从而实现HDFS和RDS的数据互导。参数描述在编辑页面,拖动Sqoop到画布并单击,查看和编辑Sqoop各配置项。数据源和活动流程版块参考如表3-15所示。表3-15 数据源和活动流程活动版块名称Sqoop数据源和活动流程HDFS -> Sqoop -> RDSRDS -> Sqoop -> HDFS

说明RDS -> Sqoop -> HDFS活动流程中,HDFS的“HDFS路径”必须是新创建的文件夹。举例说明:如果DPS提供的“HDFS路径”为“/user/omm”,用户需要在该目录下创建一个文件夹“yourpath”,并设置“HDFS路径”为“/user/omm/yourpath”。Sqoop参数描述如表3-16所示。表3-16 参数描述参数名称MR集群名作业名参数日志路径表名文档版本 02 (2017-08-26)是否必选项是是是是是是描述活动名称MR集群名称作业名称参数日志路径数据库表名称使用示例(仅供参考)Sqoop_4171DPS_using_mrssqoop-m 1(起一个Map进程执行任务)s3a://dps/logtablename22华为专有和保密信息版权所有 © 华为技术有限公司

数据调度服务用户指南3 配置参考参数Jar包路径是否必选项是描述Jar包路径,参见配置Jar Path前操作使用示例(仅供参考)s3a://dps/program/文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司23

数据调度服务用户指南4 常见问题44.1 什么是Data Pipeline Service?4.2 DPS可以调度哪些服务?DPS可以调度以下服务:lllOBSMRSRDS 常见问题Data Pipeline Service是华为云的一项基础服务,可以帮助用户轻松地创建和调度数据管道任务。Data Pipeline Service集成了多种华为云基础服务,可以帮助用户轻松地使用和移动存放在OBS和RDS中的数据。Data Pipeline Service也可以帮助用户轻松地创建和调度基于华为弹性大数据服务的数据处理和分析任务。4.3 我从Data Pipeline Service用户界面最多可以创建多少个Pipeline?目前默认每个用户最多可以创建10个Pipeline,同时系统支持用户根据实际需求调整最大配额。4.4 Data Pipeline Service可以做什么?l使用Data Pipeline Service,用户可以通过简单的拖拽操作来定制数据管道;用户可以设置定时参数执行数据管道;用户可以定义任务成功或失败后需要执行脚本策略。Data Pipeline Service提供多种数据采集和处理,可以将用户从复杂的数据流编制过程中解放出来,让用户专注于数据处理逻辑而不是编程工作。l文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司24

数据调度服务用户指南4 常见问题4.5 什么是Pipeline?Pipeline是由一系列的activities,Data Source互相关联构成,其中activity表示对数据的处理操作,Data Source表示数据来源和存放位置。相关联的activities表示前一个activity执行完毕后,下一个activity才能开始执行。4.6 什么是Data Source?Data Source表示数据管道操作中被处理的数据,举例来说,一个OBS data source表示存放在OBS中的数据,它的path属性,表示了数据的存放路径。4.7 为什么数据管道的订单到期时间显示不一致?为即将到期的数据管道续费后,在“Renewal Management”页面中显示该数据管道的到期时间为续费后的时间,可是在数据调度服务的页面中查看该数据管道的到期时间为续费前的。原因是:用户完成续费后, 用户中心将会为此数据管道分配新的订单号(此处称为续订订单号),并在“续费管理”中显示续费后的有效期限。当数据管道当前的订单号过期时,用户中心将向数据调度服务系统传递此数据管道的续订订单号信息,此时数据调度服务系统将在详细信息页面中刷新该数据管道的有效期限为续费后的。由于在数据调度服务系统中,此数据管道当前的订单号还未到期,所以页面显示的是当前订单号的有效期限,即续费前的有效期限。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司25

数据调度服务用户指南A 修订记录A发布日期2017-08-26修改说明第二次正式发布。2017-07-28第一次正式发布。 修订记录l修改数据管道列表简介中的数据管道列表参数说明以及按钮说明。l修改监控数据管道中进入监控页面的方式。l修改终止数据管道中允许被终止的数据管道的状态类型。文档版本 02 (2017-08-26)华为专有和保密信息版权所有 © 华为技术有限公司26

发布评论

评论列表 (0)

  1. 暂无评论