hive使用动态CBO:在执行计划生成的过程中动态优化的方式 数据源通过离线的方式导入到离线数仓中 业务实时性要求不断提高,实时处理从次要部分变成主要部分 不足 不足 处理方式 整个架构中实时计算一般是Spark+Flink配合文章目录
1.什么是大数据平台?
2.数仓和数据库的区别
项目
Hive
RDBMS
查询语言
HQL
SQL
数据存储
HDFS
本地磁盘
索引
无
有
执行
MapReduce
Executor
执行延时
高
低
数据规模
大
小
3.大数据技术栈
4.数仓的分层
5.离线数仓架构和实时数仓架构
离线数仓架构
数据分层架构:ODS、DWD、DM
下游应用根据业务需求选择直接读取DM实时数仓架构
Lambda架构:在离线大数据架构基础上加了一个加速层,使用流处理技术完成实时性较高的计算
Kappa架构:一实时事件处理为核心,统一数据处理对比
数仓类型
准确性
实时性
稳定性
离线数仓
准确度高
时延一般在一天
稳定性好,方便重算
实时数仓
准确度低
分钟级延迟
稳定性差,需考虑数据回溯
6.数仓架构发展
Lambda架构
Kappa 架构
7.实时数仓建设案例
8.实时数仓建设
消息队列Kafka一家独大,配合HBase、ES、Mysql进行数据落盘
OLAP领域Presto、Druid、Clickhouse、Greenplum等等层出不穷
本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器 下载并得到。
ImovieBox网页视频下载器 下载地址: ImovieBox网页视频下载器-最新版本下载
本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.
阅读和此文章类似的: 全球云计算