文件格式
文件格式按面向的存储形式不同,分为面向行和面向列两大类文件格式。
面向行、列类型 类型名称是否可切割计算优点缺点适用场景面向行文本文件(.txt)YES查看编辑简单无压缩占空间大,传输
压力大,数据解析开销大
学习练习使用面向行SequenceFile序列
文件格式(.seq)
YES自支持、二进制KV
存储,支持行和块的
压缩
本地查看不方便,小文件合并
成KV格式后不易查看内部数据
生产环境使用
map输出的默认
文件格式
面向列rcfile文件格式(.rc)YES数据加载快,查询快,
空间利用率高,高负
载能力
每一项都不是最高学习生产均可面向列orcfile文件格式(.orc)YES兼具rcfile优点、进一步
提高了读取、存储效率、
新数据类型的支持
每一项都不是最高学习生产均可 压缩格式压缩格式按其可切分性,分成可切分和不可切分两种
可切分性类型名称是否Hadoop原生支持优点缺点适用场景可切分lzo(.lzo)NO压缩、解压速度快,
合理的压缩率
压缩率比gzip低
不原生、需要native
安装
单个文件越大,lzo
优点越越明显。压
缩完成后>=200M为宜
可切分
bzip2(.bz2)YES高压缩率超过gzip,原生
支持,用linux bzip可解压操作
压缩、解压速率慢处理速度要求不高,需
要高压缩率
不可切分gzip(.gz)YES压缩解压速率快
原生、native都支持使用方便
不可切分,对cpu要
求高
压缩后文件<=130MB
适宜
不可切分snappy(.snappy)NO高速压缩/解压速度,合理的
压缩率
压缩率比gzip低,不原生,
需要native安装
适合作为map->reduce
或是job数据流的中间数
据传输格式
