博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析
阅读量:6506 次
发布时间:2019-06-24

本文共 1166 字,大约阅读时间需要 3 分钟。

通过DataWorks归档日志服务数据至MaxCompute

官方指导文档:

但是会遇到大家在分区上或者DataWorks调度参数配置问题,具体拿到真实的case模拟如下:
image

创建数据源:

步骤1      进入数据集成,点击作业数据源,进入Tab页面。

image

步骤2      点击右上角

新增数据源,选择消息队列 loghub。

image

image

步骤3 编辑LogHub数据源中的必填项,包括数据源名称、LogHub

Endpoint、Project、AK信息等,并点击 测试连通性。
image

创建目标表:

步骤1      在左侧tab也中找到临时查询,并右键>新建ODPS SQL节点。

image

步骤2      编写建表DDL。

步骤3      点击
执行 按钮进行创建目标表,分别为ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。

步骤4      直到日志打印成本,表示三条DDL语句执行完毕。

image

步骤5      可以通过desc 查看创建的表。

image

其他两张表也可以通过desc 进行查询。确认数据表的存在情况。

创建数据同步任务

数据源端以及在DataWorks中的数据源连通性都已经配置好,接下来就可以通过数据同步任务进行采集数据到MaxCompute上。

操作步骤
步骤1      点击
新建业务流程 并 确认提交,名称为 直播日志采集。
image

步骤2      在业务流程开发面板中依次创建如下依赖并命名。

image

依次配置数据同步任务节点配置:web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。

步骤3      双击

web_tracking_log_syn 进入节点配置,配置项包括数据源(数据来源和数据去向)、字段映射(源头表和目标表)、通道控制。
image
image

根据采集的时间窗口自定义参数为:

当然其消费点位也可以按照自定义设置5分钟调度一次,从00:00到23:59,startTime=$[yyyymmddhh24miss-10/24/60]系统前10分钟到

endTime=$[yyyymmddhh24miss-5/24/60]系统前5分钟时间(注意与上图消费数据定位不同),那么应该配置为ds=[yyyymmdd-5/24/60],hr=[hh24-5/24/60],min=[mi-5/24/60]。
步骤4      可以点击高级运行进行测试。
image

可以分别手工收入自定义参数值进行测试。

image

步骤3      使用SQL脚本确认是否数据已经写进来。如下图所示:

image

日志服务的日志正式的被采集入库,接下来就可以进行数据加工。

比如可以通过上述来统计热门房间、地域分布和卡顿率,如下所示:
image

具体SQL逻辑不在这里展开,可以根据具体业务需求来统计分析。依赖关系配置如上图所示。

欢迎入群进行产品资料获取以及获取帮助:

image

转载地址:http://oszfo.baihongyu.com/

你可能感兴趣的文章
字符串匹配基础上
查看>>
【挥舞JS】JS实现继承,封装一个extends方法
查看>>
Logstash 参考指南(目录)
查看>>
深入浅出Node.js
查看>>
go语言学习初探(一)
查看>>
多线程 start 和 run 方法到底有什么区别?
查看>>
ES学习笔记(10)--ES6中的函数和数组补漏
查看>>
Go 语言编译器的 "//go:" 详解
查看>>
Java反射-动态类加载和重新加载
查看>>
【许晓笛】 EOS 智能合约案例解析(3)
查看>>
isset在php5.6-和php7.0+的一些差异
查看>>
优秀架构师必须掌握的架构思维
查看>>
一些css基础学习笔记
查看>>
新版博客前端前瞻
查看>>
Redis字符串类型内部编码剖析
查看>>
MySQL数据库运维之数据恢复
查看>>
探索 JS 中的模块化
查看>>
一起来学SpringBoot | 第三篇:SpringBoot日志配置
查看>>
LeetCode541. Reverse String II -- 按步长反转字符串
查看>>
JS字符串转数字方法总结
查看>>