1. ホーム
  2. python

[解決済み] ParquetファイルをPandas DataFrameに読み込むには?

2022-03-04 09:24:30

質問

HadoopやSparkのようなクラスタコンピューティングのインフラを構築せずに、適度なサイズのParquetデータセットをインメモリのPandas DataFrameに読み込むにはどうすればよいでしょうか。ラップトップ上の簡単なPythonスクリプトでインメモリに読み込みたい、程度のデータ量です。データはHDFS上には存在しません。ローカルファイルシステムか、おそらくS3にあります。Hadoop、Hive、Sparkのような他のサービスを立ち上げて設定することは望んでいません。

OdoのドキュメントではParquetについて触れていますが、その例はすべて外部のHiveランタイムを経由しているように見えます。

解決方法は?

pandas 0.21を導入しました。 Parquet の新関数 :

pd.read_parquet('example_pa.parquet', engine='pyarrow')

または

pd.read_parquet('example_fp.parquet', engine='fastparquet')

上記リンク先で説明しています。

<ブロッククオート

これらのエンジンは非常によく似ており、ほぼ同一のparquetフォーマットファイルを読み書きできるはずです。これらのライブラリは、異なる依存関係(fastparquetはnumbaを使用し、pyarrowはc-libraryを使用する)を持っている点で異なります。