列存储格式Parquet浅析

mac2024-05-18  41

1. 简介

Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。

2. 示例

example:

以下这张表有A、B、C三个字段:

A B C A1 B1 C1 A2 B2 C2 A3 B3 C3 行存储:

A1 B1 C1 A2 B2 C2 A3 B3 C3 列存储

A1 A2 A3 B1 B2 B3 C1 C2 C3

3. python使用

读取数据

df = pd.read_parquet("/data/df.parquet")

参考: 作者:Jeffbond 链接:https://www.jianshu.com/p/47b39ae336d5

最新回复(0)