Parquet相关文章

pyspark操作hive分区表及.gz.parquet和part-00000文件压缩问题
时间：2022-03-24 22:57:01
这篇文章主要介绍了pyspark操作hive分区表及.gz.parquet和part-00000文件压缩问题,针对问题整理了spark操作hive表的几种方式，需要的朋友可以参考下
标签：分区表 hive pyspark Parquet
scala读取parquet文件
时间：2022-01-18 14:17:41
importorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.spark.sql.SQLContextobjectstartScala{defmain(args:Array[String]):U...
为什么我们选择parquet
时间：2021-11-10 02:58:36
说明：此方案已经我们已经运行1年。1、场景描述：我们对客户登录日志做了数据仓库，但实际业务使用中有一些个共同点，A 需要关联维度表B 最终仅取某个产品一段时间内的数据C只关注其中极少的字段基于以上业务，我们决定每天定时统一关联维度表，对关联后的数据进行另外存储。各个业务直接使用关联后的数据进行离线计...
从NSM到Parquet：存储结构的衍化
时间：2021-09-04 13:52:58
http://blog.csdn.net/dc_726/article/details/41777661为了优化MapReduce及MR之前的各种工具的性能，在Hadoop内建的数据存储格式外，又涌现了一批各种各样的存储方式。如优化Hive性能的RCFile，以及配合Impala实现出GoogleD...

pyspark操作hive分区表及.gz.parquet和part-00000文件压缩问题