数据仓库、数据湖、湖仓一体,究竟有什么区别?

一、基本概念1.1数仓发展历史
数据湖是以集中方式存储各种类型数据,提供弹性的 容量和吞吐能力 , 能够覆盖广泛的数据源 , 支持多种计算与处理分析引擎直接对数据进行访问的统一存储平台 。它 能够实现数据分析、机器学习 , 数据访问和管理等细粒度的授权、审计等功能 。
数据湖对存取的数据没有格式类型的限制,数据产生后,可以按照数据的原始内容和属性,直接存储到数据湖,无需在数据上传之前对数据进行任何的结构化处理 。数据湖可以存储结构化数据和Koalas 。
2、融资情况
2021-6-25美股上市,市值143.64亿美元 。
3、商业化产品
商业化产品有3大类:
主营产品:Confluent Platform,Confluent Cloud支撑产品:无法单独购买 , 主要用来给楼上引流,例如应用市场中的各种插件咨询服务类:例如专家服务,培训等
4、不同实时计算工具的对比
Spark 做批处理、Flink 做流处理、Clickhouse 做交互分析 , 这是最简单的一套 。再复杂一点,可能还要部署 HBase 做 KV 查询,用 ElasticSearch 做文本检索 。
产品
Spark streaming
不是特别适合于做秒级甚至亚秒级的计算
Kafka streaming
很难满足我们对大体量的复杂计算的需求
Storm
没有批处理能力
Flink
批流结合
8.2产品架构
Confluent是用来管理和组织不同数据源的流媒体平台,可以实时地把不同源和位置的数据集成到一个中心的事件流平台 。而且还强调了这个平台很可靠、性能很高,总之就是很好用 , 很强大 。Confluent目前提供了社区版和商业版两个版本,社区版永久免费,商业版面向企业收费 。
社区版提供了Connectors、REST Proxy、KSQL、Schema-Registry等基础服务 。商业版为企业提供了控制面板、负载均衡 , 跨中心数据备份、安全防护等高级特性 。
Confluent Auto Data Balancer(解决负载均衡),随着集群的增长,topic和partition以不同的速度增长,随着时间的推移,添加和删除会导致跨数据中心资源的工作负载不平衡 。有一些brokers是空闲的(数据倾斜) , 而其他brokers则对大量或多个partitions负载,从而减慢了消息传递的速度 。当执行时 , Confluent Auto Data Balancer会监控您的群集中的broker数量,partition大?。?partition数量以及群集中的broker数量 。它允许我们转移数据以在整个群集中创建均匀的工作负载,同时限制重新平衡流量,以最大限度地减少重新平衡时对生产工作负载的影响 。
(4)Confluent JMS Client , Confluent Platform包含适用于Kafka的JMS兼容客户端 。通过用Kafka替换旧的JMS消息代理,现有的应用程序可以与我们的现代流式平台集成,而无需重新编写应用程序 。
(5)Confluent Security Plugins,目前,有一个可用于Confluent REST Proxy的插件,它有助于验证传入的请求并将经过身份验证传到kafka请求 。
Kafka Brokers(开源) 。构成Kafka的消息,数据持久性和存储层 。
Kafka Java Clients(开源) 。Java 库,写消息到kafka 或者从kafka 读消息 。
Kafka Streams(开源) 。Kafka Streams是一个库使kafka转换成功能齐全的流处理系统 。
Kafka Connect(开源) 。一种可扩展的和可靠的连接Kafka框架与外部系统(如数据库 , 键值存储,搜索索引和文件系统)的框架 。
除了Kafka以外,Confluent Platform 包括更多的工具和服务,使构建和管理数据流平台更加容易 。
Confluent Control Center(闭源) 。管理和监控Kafka最全面的GUI驱动系统 。
Confluent Kafka Connectors(开源) 。连接SQL数据库/Hadoop/Hive
Confluent Kafka Clients(开源) 。对于其他编程语言,包括C/C++,Python
Confluent Kafka REST Proxy(开源) 。允许一些系统通过HTTP和kafka之间发送和接收消息 。
Confluent Schema Registry(开源) 。帮助确定每一个应用使用正确的schema当写数据或者读数据到kafka中 。
总的来说,Confluent Platform平台的组件给你的团队朝着建立统一而灵活的方式建立一个企业范围的数据流平台 。
【数据仓库、数据湖、湖仓一体,究竟有什么区别?】以上就是朝夕生活(www.30zx.com)关于“数据仓库、数据湖、湖仓一体 , 究竟有什么区别?”的详细内容,希望对大家有所帮助!

猜你喜欢