Apache Parquet

Apache Parquet

[2] Parquet Files - Spark 3.5.1 Documentation, , https://spark.apache.org/docs/latest/sql-data-sources-parquet.html

[1] Parquet | Databricks () https://www.databricks.com/jp/glossary/what-is-parquet

Apache Parquet は、効率的なデータの保存と検索のために設計された、オープンソースの列指向データファイル形式です。複雑なデータを一括処理するための効率的なデータ圧縮と符号化方式を提供し、パフォーマンスを向上させます。Apache Parquet は、バッチとインタラクティブの両方のワークロードで共通の交換形式となるように設計されており、Hadoop で利用可能な他の列指向ストレージファイル形式である RCFile や ORC に似ています。

[3] 42.parquet – A Zip Bomb for the Big Data Age - DuckDB, Hannes Mühleisen, , https://duckdb.org/2024/03/26/42-parquet-a-zip-bomb-for-the-big-data-age.html