[解決済み] ParquetファイルをPandas DataFrameに読み込むには？

2022-03-04 09:24:30

質問

HadoopやSparkのようなクラスタコンピューティングのインフラを構築せずに、適度なサイズのParquetデータセットをインメモリのPandas DataFrameに読み込むにはどうすればよいでしょうか。ラップトップ上の簡単なPythonスクリプトでインメモリに読み込みたい、程度のデータ量です。データはHDFS上には存在しません。ローカルファイルシステムか、おそらくS3にあります。Hadoop、Hive、Sparkのような他のサービスを立ち上げて設定することは望んでいません。

OdoのドキュメントではParquetについて触れていますが、その例はすべて外部のHiveランタイムを経由しているように見えます。

解決方法は？

pandas 0.21を導入しました。 Parquet の新関数 :

pd.read_parquet('example_pa.parquet', engine='pyarrow')

または

pd.read_parquet('example_fp.parquet', engine='fastparquet')

上記リンク先で説明しています。

<ブロッククオート

これらのエンジンは非常によく似ており、ほぼ同一のparquetフォーマットファイルを読み書きできるはずです。これらのライブラリは、異なる依存関係（fastparquetはnumbaを使用し、pyarrowはc-libraryを使用する）を持っている点で異なります。

[解決済み] ParquetファイルをPandas DataFrameに読み込むには？

質問

解決方法は？

関連

[解決済み】ImportError: PILという名前のモジュールがない

[解決済み】インポートエラー。モジュール名 urllib2 がない

[解決済み】IndexError: invalid index to scalar variableを修正する方法

[解決済み] PandasでDataFrameの行を反復処理する方法

[解決済み] 列の値に基づいてDataFrameから行を選択するにはどうすればよいですか？

[解決済み] Pandas DataFrameからカラムを削除する

[解決済み] Pandasのデータフレームで複数の列を選択する

[解決済み] Pandas DataFrameの行数を取得する方法は？

[解決済み] 一行ずつ追加してPandas Dataframeを作成する

[解決済み】Pandas DataFrameのカラムヘッダからリストを取得する。

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

Python 人工知能人間学習描画機械学習モデル作成

PythonでECDSAを実装する方法知っていますか？

[解決済み】TypeError: re.findall()でバイトのようなオブジェクトに文字列パターンを使用することはできません。）

[解決済み】 AttributeError: モジュール 'matplotlib' には属性 'plot' がない。

[解決済み】TypeError: 系列を <class 'float'> に変換することができません。

[解決済み】Pythonでgoogle APIのJSONコードを読み込むとエラーになる件

[解決済み】LogisticRegression: Pythonでsklearnを使用して、未知のラベルタイプ： '連続'を使用しています。

[解決済み】Python: OverflowError: 数学の範囲エラー

[解決済み】 'numpy.float64' オブジェクトは反復可能ではない

[解決済み】django インポートエラー - core.managementという名前のモジュールがない