中小型数仓快速实施三件套流程介绍

今天主要介绍中小型数仓快速实施的技术流程。

simple-warehouse

图示的整体思路沿用 ELT,在EL过程中可以有简单 t ,所以 E(t)LT 也将是未来的主流的操作思路。

请出Apache全家桶之:Apache SeaTunnelApache DorisApache DolphinScheduler ,我愿意称之为现代化的中小型数仓的三剑客。

这里以 T-1 离线分析做例子,表数量20左右且表数据在千万级的情况下单机即可轻松支撑。

1、使用 SeaTunnel 进行数据 E(t)L ,相比 DataX 配置更简单,可单机可集群(还可搭配Flink(CDC)、Spark使用)

2、使用 Doris 做数据仓库,单台机器(推荐 16+32)即可使用,多机器集群可以更好释放性能

3、使用 DolphinScheduler 做任务调度,可视化操作简单可靠,同样可单机可集群。单机需要注意配置数据库持久化

剩余的事情交给 BI 系统,开源BI有很多、收费的也不错,适合自己就是最好的。

上一次数仓及数据中心分享关联文章: 小型数据中心进化演变 – JeeInn的技术分享

Author: thinkwei

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注