hive的几种文件格式 - 923723914 - ITeye博客

`

923723914

浏览: 635879 次

最近访客更多访客>>

rattersnake

u012363178

jiefengwen

wanghaojava

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (1376)

社区版块

存档分类

最新评论

涛声依旧是：怎么提示掉线，怎么才能在线
基于Tomcat7、Java、WebSocket的服务器推送聊天室
dcode：楼主写的不错，正好遇到点问题，看着你的文章解决了，感谢分享。。 ...
在 Visual Studio 2010 中配置SharpPcap

hive的几种文件格式

阅读更多

hive文件存储格式
1.textfile
textfile为默认格式
存储方式：行存储
磁盘开销大数据解析开销大
压缩的text文件 hive无法进行合并和拆分

2.sequencefile
二进制文件,以<key,value>的形式序列化到文件中
存储方式：行存储
可分割压缩
一般选择block压缩
优势是文件和hadoop api中的mapfile是相互兼容的。

3.rcfile
存储方式：数据按行分块每块按照列存储
压缩快快速列存取
读记录尽量涉及到的block最少
读取需要的列只需要读取每个row group 的头部定义。
读取全量数据的操作性能可能比sequencefile没有明显的优势

4.orc

存储方式：数据按行分块每块按照列存储

压缩快快速列存取

效率比rcfile高,是rcfile的改良版本

5.自定义格式
用户可以通过实现inputformat和 outputformat来自定义输入输出格式。

总结：
textfile 存储空间消耗比较大，并且压缩的text 无法分割和合并查询的效率最低,可以直接存储，加载数据的速度最高
sequencefile 存储空间消耗最大,压缩的文件可以分割和合并查询效率高，需要通过text文件转化来加载
rcfile 存储空间最小，查询的效率最高，需要通过text文件转化来加载，加载的速度最低

个人建议：text,seqfile能不用就尽量不要用最好是选择orc

分享到：

Sipdroid的封装 | Android 性能优化、内存优化

2014-01-20 14:31
浏览 329
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive用户指南(Hive_user_guide)_中文版.pdf: （” n”）以及读取文件数据的方法（ Hive 中默认有三个文件格式 TextFile ， SequenceFile 以及 RCFile ）。由于在加载数据的过程中，不需要从用户数据格式到 Hive 定义的数据格式的转换，因此， Hive 在加载的...

Spark SQL常见4种数据源详解: 通用load/write方法 ...数据源为Parquet文件时，Spark SQL可以方便的执行所有的操作。修改配置项spark.sql.sources.default，可修改默认数据源格式。 scala> val df = spark.read.load(hdfs://hadoop001:9000/nam

大数据之运维.pptx: Hive设计特征 Hive 是一种底层封装了Hadoop 的数据仓库处理工具，使用类SQL 的HiveQL 语言实现数据查询，所有Hive 的数据都存储在Hadoop 兼容的文件系统（例如，Amazon S3、HDFS）中。Hive 在加载数据过程中不会对...

Hadoop硬实战 [（美）霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载带书签目录高清完整版.rar ): 8．1　比较R 和MapReduce 集成的几种方法 8．2　R 基础知识 8．3　R 和Streaming 8．3．1　Streaming 和map-only R 技术点57　计算股票日平均值 8．3．2　Streaming、R 和完整的MapReduce 技术点58　计算股票的...

【专题四】Rootkit的学习与研究: │ 1）获取ntoskrnl.exe模块地址的几种办法.doc │ ├─2）驱动感染技术扫盲 │ 2）驱动感染技术扫盲.doc │ InfectDriver.rar │ ├─3）shadow ssdt学习笔记 │ 3）shadow ssdt学习笔记.doc │ ├─4）...

Hadoop实战(第2版): 技术点16　使用Thrift3．3．5　Avro技术点17　MapReduce 的下一代数据序列化技术3．4　自定义文件格式3．4．1　输入输出格式技术点18　输入和输出格式为CSV 的文件3．4．2　output committing 的重要性 3．5　本章小...

狙剑V2008-0224: 　和其它安全工具一样，“狙剑”中也有一个注册表编辑器，这个编辑器是直接解析HIVE文件来实现注册表数据的读取与修改的，这相对于注册表来说已经是最底层的操作了，可以对最隐蔽的启动项进行查看与清除，同时也可以...

新版Hadoop视频教程段海涛老师Hadoop八天完全攻克Hadoop视频教程 Hadoop开发: 07-MR程序的几种提交运行模式.avi 08-YARN的通用性意义.avi 09-yarn的job提交流程.avi 第四天常见mr算法实现和shuffle的机制 01-复习.avi 02-hadoop中的序列化机制.avi 03-流量求和mr程序开发.avi 04-...

javaweb书店源码-MTN-API-BongoHive-Session:BongoHive上MTNAPI会话的代码和注释: java web书店源码#MTN-API-BongoHive-Session Bongo Hive 上 MTN API 会话的代码和注释因此，Bongo Hive 非常慷慨地为开发人员设置了一个...格式的文件，如 SOAP 消息，但是它们定义了要使用的 Web 服务，它们是某种

Spark学习笔记—Spark计算模型: 1.RDD的几种创建方式： (1).从hadoop文件系统输入创建如HDFS，也可以是其他与hadoop兼容的持久化存储系统如Hive，Hbase创建。 (2).从父RDD转换得到新的RDD。 (3).调用SparkContext的parallelize

大数据中台架构栈.doc: 目前市面针对日志采集的有 Flume，Logstash，Filebeat，Fluentd ，rsyslog 几种常见的框架，我们挑应用较广泛的前两者介绍下： 1.1 Flume 和 Logstash Flume 是一款由 Cloudera 开发的实时采集日志引擎，主打高并发...

Hadoop实战中文版.PDF: 24212.4.4　小结　24912.4.5　参考文献　250附录A　HDFS文件命令　251构建hadoop运算坚实的平台编辑百度构建了超大规模的服务器集群来运行Hadoop，其中日志处理与分析占到了全部hadoop集群的80%，处理数据量从几个G...

大数据基础知识入门.pdf: 麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。...

EasyBDI: 支持几个已经测试过的数据源，例如MySQL，PostgreSQL，Hive，Cassandra，MongoDB和原始文件（csv，tsv，txt）。使用拖放界面创建分析查询。查询可以保存并再次使用，并且可以导出查询结果。系统要求和安装方法...

antlr4权威指南: Hadoop生态系统中的Hive、Pig、数据仓库和分析系统所使用的语言都用到了ANTLR；Lex Machina将ANTLR用于分析法律文本；Oracle公司在SQL开发者IDE和迁移工具中使用了ANTLR；NetBeans公司的IDE使用ANTLR来解析C++；...

Global site tag (gtag.js) - Google Analytics