[解決済み] pandasの大規模かつ永続的なDataFrame
2023-01-23 16:05:34
質問
長年SASを使っていたため、pythonとpandasへの乗り換えを検討しています。
しかし、今日いくつかのテストを実行したとき、私はpythonがメモリ不足になったことに驚きました。
pandas.read_csv()
128mb の csv ファイルを試みたとき、python がメモリ不足になったことに驚きました。 それは、約 200,000 行と 200 列のほとんど数値データでした。
SAS では、csv ファイルを SAS データセットにインポートすることができ、それは私のハードドライブと同じ大きさにすることができます。
に類似したものはありますか?
pandas
?
私は定期的に大きなファイルを扱う仕事をしていますが、分散コンピューティングネットワークにアクセスすることはできません。
どのように解決するのですか?
原理的にはメモリ不足になることはないはずですが、現在、メモリの問題があるのは
read_csv
でのメモリの問題があります (これは漠然としていますが、長い間知られていました。
http://github.com/pydata/pandas/issues/407
).
今のところ、完璧な解決策はありません(面倒ですが、ファイルを行ごとに、あらかじめ割り当てられているNumPyの配列またはメモリマップドファイルに書き出すことができます)。
np.mmap
) ですが、これは私が近い将来取り組むことになるものです。もう一つの解決策は、ファイルを小さく分割して読み込むことです。
iterator=True, chunksize=1000
を使う)、そしてそれを
pd.concat
. 問題は、テキストファイル全体をメモリに一挙に取り込むときに発生します。
関連
-
[解決済み] PandasでDataFrameの行を反復処理する方法
-
[解決済み] 列の値に基づいてDataFrameから行を選択するにはどうすればよいですか?
-
[解決済み] Pandasのカラム名のリネーム
-
[解決済み] Pandas DataFrameからカラムを削除する
-
[解決済み] Pandasのデータフレームで複数の列を選択する
-
[解決済み] Pandas DataFrameの行数を取得する方法は?
-
[解決済み] 既存のDataFrameに新しい列を追加する方法は?
-
[解決済み] 一行ずつ追加してPandas Dataframeを作成する
-
[解決済み] pandasを使った "大量データ "ワークフロー【終了しました
-
[解決済み】Pandas DataFrameのカラムヘッダからリストを取得する。
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み] Pythonのキャッシュライブラリはありますか?
-
[解決済み] Flaskで1時間ごとに関数を実行するようにスケジュールするには?
-
[解決済み] DataFrameに日付間の日数カラムを追加する pandas
-
[解決済み] python-requests モジュールからのすべてのリクエストをログに記録します。
-
[解決済み] スペースがないテキストを単語のリストに分割する方法
-
[解決済み] 範囲指定された浮動小数点数のランダムな配列を生成します。
-
[解決済み] pandasのタイムゾーンに対応したDateTimeIndexを、特定のタイムゾーンに対応したナイーブなタイムスタンプに変換する。
-
[解決済み] djangoフレームワークでフォームフィールドから値を取得するには?
-
[解決済み] Pythonの文字列の前にあるbという接頭辞は何を意味するのですか?
-
[解決済み] 認証プラグイン 'caching_sha2_password' はサポートされていません。