[解決済み] ParquetファイルをPandas DataFrameに読み込むには?
2022-03-04 09:24:30
質問
HadoopやSparkのようなクラスタコンピューティングのインフラを構築せずに、適度なサイズのParquetデータセットをインメモリのPandas DataFrameに読み込むにはどうすればよいでしょうか。ラップトップ上の簡単なPythonスクリプトでインメモリに読み込みたい、程度のデータ量です。データはHDFS上には存在しません。ローカルファイルシステムか、おそらくS3にあります。Hadoop、Hive、Sparkのような他のサービスを立ち上げて設定することは望んでいません。
OdoのドキュメントではParquetについて触れていますが、その例はすべて外部のHiveランタイムを経由しているように見えます。
解決方法は?
pandas 0.21を導入しました。 Parquet の新関数 :
pd.read_parquet('example_pa.parquet', engine='pyarrow')
または
pd.read_parquet('example_fp.parquet', engine='fastparquet')
上記リンク先で説明しています。
<ブロッククオートこれらのエンジンは非常によく似ており、ほぼ同一のparquetフォーマットファイルを読み書きできるはずです。これらのライブラリは、異なる依存関係(fastparquetはnumbaを使用し、pyarrowはc-libraryを使用する)を持っている点で異なります。
関連
-
[解決済み】ImportError: PILという名前のモジュールがない
-
[解決済み】インポートエラー。モジュール名 urllib2 がない
-
[解決済み】IndexError: invalid index to scalar variableを修正する方法
-
[解決済み] PandasでDataFrameの行を反復処理する方法
-
[解決済み] 列の値に基づいてDataFrameから行を選択するにはどうすればよいですか?
-
[解決済み] Pandas DataFrameからカラムを削除する
-
[解決済み] Pandasのデータフレームで複数の列を選択する
-
[解決済み] Pandas DataFrameの行数を取得する方法は?
-
[解決済み] 一行ずつ追加してPandas Dataframeを作成する
-
[解決済み】Pandas DataFrameのカラムヘッダからリストを取得する。
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
Python 人工知能 人間学習 描画 機械学習モデル作成
-
PythonでECDSAを実装する方法 知っていますか?
-
[解決済み】TypeError: re.findall()でバイトのようなオブジェクトに文字列パターンを使用することはできません。)
-
[解決済み】 AttributeError: モジュール 'matplotlib' には属性 'plot' がない。
-
[解決済み】TypeError: 系列を <class 'float'> に変換することができません。
-
[解決済み】Pythonでgoogle APIのJSONコードを読み込むとエラーになる件
-
[解決済み】LogisticRegression: Pythonでsklearnを使用して、未知のラベルタイプ: '連続'を使用しています。
-
[解決済み】Python: OverflowError: 数学の範囲エラー
-
[解決済み】 'numpy.float64' オブジェクトは反復可能ではない
-
[解決済み】django インポートエラー - core.managementという名前のモジュールがない