基于MaxCompute InformationSchema进行血缘关系分析

  • 时间:
  • 浏览:0
  • 来源:大发彩神在线计划—大发彩神计划怎么来的

本文为云栖社区原创内容,未经允许不得转载,如需转载请发送邮件至yqeditor@list.alibaba-inc.com;可能性您发现本社区所含涉嫌抄袭的内容,欢迎发送邮件至:yqgroup@service.aliyun.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

一、需求场景分析

在实际的数据平台运营管理过程中,数据表的规模往往随着更多业务数据的接入以及数据应用的建设而逐渐增长到非常大的规模,数据管理人员往往希望不需要 利用元数据的分析来更好地掌握不同数据表的血缘关系,从而分易挥发数据的上下游依赖关系。

本文将介绍怎么能能去根据MaxCompute InformationSchema中作业ID的输入输出表来分易挥发某张表的血缘关系。

二、方案设计思路

MaxCompute Information_Schema提供了访问表的作业明细数据tasks_history,该表所含作业ID、input_tables、output_tables字段记录表的上下游依赖关系。根据这另一5个 字段统计分易挥发表的血缘关系

1、根据某1天的作业历史,通过获取tasks_history表里的input_tables、output_tables