`
923723914
  • 浏览: 635879 次
文章分类
社区版块
存档分类
最新评论

hive的几种文件格式

 
阅读更多

hive文件存储格式
1.textfile
textfile为默认格式
存储方式:行存储
磁盘开销大 数据解析开销大
压缩的text文件 hive无法进行合并和拆分

2.sequencefile
二进制文件,以<key,value>的形式序列化到文件中
存储方式:行存储
可分割 压缩
一般选择block压缩
优势是文件和hadoop api中的mapfile是相互兼容的。


3.rcfile
存储方式:数据按行分块 每块按照列存储
压缩快 快速列存取
读记录尽量涉及到的block最少
读取需要的列只需要读取每个row group 的头部定义。
读取全量数据的操作 性能可能比sequencefile没有明显的优势

4.orc

存储方式:数据按行分块 每块按照列存储

压缩快 快速列存取

效率比rcfile高,是rcfile的改良版本

5.自定义格式
用户可以通过实现inputformat和 outputformat来自定义输入输出格式。


总结:
textfile 存储空间消耗比较大,并且压缩的text 无法分割和合并 查询的效率最低,可以直接存储,加载数据的速度最高
sequencefile 存储空间消耗最大,压缩的文件可以分割和合并 查询效率高,需要通过text文件转化来加载
rcfile 存储空间最小,查询的效率最高 ,需要通过text文件转化来加载,加载的速度最低

个人建议:text,seqfile能不用就尽量不要用 最好是选择orc

分享到:
评论

相关推荐

    Hive用户指南(Hive_user_guide)_中文版.pdf

    (” n”)以及读取文件数据的方法( Hive 中默认有三个文件格式 TextFile , SequenceFile 以及 RCFile )。由于在加载数据的过程中,不需要从用户数据格式到 Hive 定义的数据格式的转换,因此, Hive 在加载的...

    Spark SQL常见4种数据源详解

    通用load/write方法 ...数据源为Parquet文件时,Spark SQL可以方便的执行所有的操作。 修改配置项spark.sql.sources.default,可修改默认数据源格式。 scala&gt; val df = spark.read.load(hdfs://hadoop001:9000/nam

    大数据之运维.pptx

    Hive设计特征 Hive 是一种底层封装了Hadoop 的数据仓库处理工具,使用类SQL 的HiveQL 语言实现数据查询,所有Hive 的数据都存储在Hadoop 兼容的文件系统(例如,Amazon S3、HDFS)中。Hive 在加载数据过程中不会对...

    Hadoop硬实战 [(美)霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载 带书签目录 高清完整版.rar )

    8.1 比较R 和MapReduce 集成的几种方法 8.2 R 基础知识 8.3 R 和Streaming 8.3.1 Streaming 和map-only R 技术点57 计算股票日平均值 8.3.2 Streaming、R 和完整的MapReduce 技术点58 计算股票的...

    【专题四】Rootkit的学习与研究

    │ 1)获取ntoskrnl.exe模块地址的几种办法.doc │ ├─2)驱动感染技术扫盲 │ 2)驱动感染技术扫盲.doc │ InfectDriver.rar │ ├─3)shadow ssdt学习笔记 │ 3)shadow ssdt学习笔记.doc │ ├─4)...

    Hadoop实战(第2版)

    技术点16 使用Thrift3.3.5 Avro技术点17 MapReduce 的下一代数据序列化技术3.4 自定义文件格式3.4.1 输入输出格式技术点18 输入和输出格式为CSV 的文件3.4.2 output committing 的重要性 3.5 本章小...

    狙剑V2008-0224

     和其它安全工具一样,“狙剑”中也有一个注册表编辑器,这个编辑器是直接解析HIVE文件来实现注册表数据的读取与修改的,这相对于注册表来说已经是最底层的操作了,可以对最隐蔽的启动项进行查看与清除,同时也可以...

    新版Hadoop视频教程 段海涛老师Hadoop八天完全攻克Hadoop视频教程 Hadoop开发

    07-MR程序的几种提交运行模式.avi 08-YARN的通用性意义.avi 09-yarn的job提交流程.avi 第四天 常见mr算法实现和shuffle的机制 01-复习.avi 02-hadoop中的序列化机制.avi 03-流量求和mr程序开发.avi 04-...

    javaweb书店源码-MTN-API-BongoHive-Session:BongoHive上MTNAPI会话的代码和注释

    java web书店源码#MTN-API-BongoHive-Session Bongo Hive 上 MTN API 会话的代码和注释 因此,Bongo Hive 非常慷慨地为开发人员设置了一个...格式的文件,如 SOAP 消息,但是它们定义了要使用的 Web 服务,它们是某种

    Spark学习笔记—Spark计算模型

    1.RDD的几种创建方式: (1).从hadoop文件系统输入创建如HDFS,也可以是其他与hadoop兼容的持久化存储系统如Hive,Hbase创建。 (2).从父RDD转换得到新的RDD。 (3).调用SparkContext的parallelize

    大数据中台架构栈.doc

    目前市面针对日志采集的有 Flume,Logstash,Filebeat,Fluentd ,rsyslog 几种常见的框架,我们挑应用较广泛的前两者介绍下: 1.1 Flume 和 Logstash Flume 是一款由 Cloudera 开发的实时采集日志引擎,主打高并发...

    Hadoop实战中文版.PDF

    24212.4.4 小结 24912.4.5 参考文献 250附录A HDFS文件命令 251构建hadoop运算坚实的平台编辑百度构建了超大规模的服务器集群来运行Hadoop,其中日志处理与分析占到了全部hadoop集群的80%,处理数据量从几个G...

    大数据基础知识入门.pdf

    麦肯锡全球研究所给出的定义是:一 种规模大到在获取、存储、管理、分 析方面大大超出了传统数据库软件工 具能力范围的数据集合,具有海量的 数据规模、快速的数据流转、多样的 数据类型和价值密度低四大特征。...

    EasyBDI

    支持几个已经测试过的数据源,例如MySQL,PostgreSQL,Hive,Cassandra,MongoDB和原始文件(csv,tsv,txt)。 使用拖放界面创建分析查询。 查询可以保存并再次使用,并且可以导出查询结果。 系统要求和安装方法...

    antlr4权威指南

    Hadoop生态系统中的Hive、Pig、数据仓库和分析系统所使用的语言都用到了ANTLR;Lex Machina将ANTLR用于分析法律文本;Oracle公司在SQL开发者IDE和迁移工具中使用了ANTLR;NetBeans公司的IDE使用ANTLR来解析C++;...

Global site tag (gtag.js) - Google Analytics