1. 简介
Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。
2. 示例
example:
以下这张表有A、B、C三个字段:
A B C A1 B1 C1 A2 B2 C2 A3 B3 C3 行存储:
A1 B1 C1 A2 B2 C2 A3 B3 C3 列存储
A1 A2 A3 B1 B2 B3 C1 C2 C3
3. python使用
读取数据
df
= pd
.read_parquet
("/data/df.parquet")
参考: 作者:Jeffbond 链接:https://www.jianshu.com/p/47b39ae336d5