列存储格式Parquet浅析

mac2024-05-18 50

Apache Parquet是Hadoop生态圈中一种新型列式存储格式，它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等)，被多种查询引擎支持(Hive、Impala、Drill等)，并且它是语言和平台无关的。

example：

以下这张表有A、B、C三个字段：

A B C A1 B1 C1 A2 B2 C2 A3 B3 C3 行存储：

A1 B1 C1 A2 B2 C2 A3 B3 C3 列存储

A1 A2 A3 B1 B2 B3 C1 C2 C3

读取数据

df = pd.read_parquet("/data/df.parquet")

参考：作者：Jeffbond 链接：https://www.jianshu.com/p/47b39ae336d5

最新回复(0)