[解決済み] メモリ効率の良い組み込み SqlAlchemy イテレータ/ジェネレータ?
質問
私は SqlAlchemy を使ってインタフェースしている、約 10M レコードの MySQL テーブルを持っています。 このテーブルの大きなサブセットに対するクエリは、データセットの一口サイズのチャンクをインテリジェントにフェッチする組み込みジェネレータを使用しているつもりでも、メモリを過剰に消費することがわかりました。
for thing in session.query(Things):
analyze(thing)
これを避けるために、私はチャンクで噛み砕いた独自のイテレータを構築する必要があることに気づきました。
lastThingID = None
while True:
things = query.filter(Thing.id < lastThingID).limit(querySize).all()
if not rows or len(rows) == 0:
break
for thing in things:
lastThingID = row.id
analyze(thing)
これは普通なのでしょうか、それともSA組み込みのジェネレータに関して何か見落としていることがあるのでしょうか?
の答えは この質問 は、メモリ消費量が想定外であることを示しているようです。
どのように解決するのですか?
ほとんどの DBAPI 実装は、行を取得する際に完全にバッファリングします。そのため、通常、 SQLAlchemy ORM が一つの結果を取得する前に、結果セット全体がメモリ内にあります。
しかし、それでは
Query
が動作する方法は、オブジェクトを返す前に、デフォルトで与えられた結果セットを完全にロードすることです。 ここでの根拠は、単純な SELECT ステートメント以上のクエリに関するものです。たとえば、1 つの結果セットで同じオブジェクト ID を複数回返す可能性のある他のテーブルへの結合 (イーガーローディングと共通) では、正しい結果を返すことができるように、行のフルセットがメモリ内にある必要があり、そうしないとコレクションなどが一部しか読み込まれていない可能性があります。
そのため
Query
には、この動作を変更するためのオプションが用意されています。
yield_per()
. この呼び出しによって
Query
がバッチで行を生成するようになります。ここでバッチサイズを指定します。 ドキュメントにあるように、これはコレクションのイーガーローディングを行っていない場合にのみ適切で、基本的には自分が何をしているかを本当に知っている場合のみです。 また、基礎となる DBAPI が行をプリバッファリングする場合、メモリ オーバーヘッドが発生するため、このアプローチはそれを使用しない場合よりもわずかに良好にスケールするだけです。
私はほとんど
yield_per()
代わりに、ウィンドウ関数を使用して、上記で提案された LIMIT アプローチのより良いバージョンを使用しています。 LIMIT と OFFSET には、OFFSET の値が非常に大きいと、N の OFFSET を使用すると N 行をページングするため、クエリがどんどん遅くなってしまうという大きな問題があります。 ウィンドウ関数のアプローチでは、選択したいテーブルのチャンクを参照する一連のquot;window"値をあらかじめフェッチしておくのです。 そして、一度にこれらのウィンドウの 1 つから取得する個々の SELECT ステートメントを発行します。
ウィンドウ関数のアプローチは にあるように であり、私はそれを使って大きな成功を収めています。
また、すべてのデータベースがウィンドウ関数をサポートしているわけではないことに注意してください:Postgresql、Oracle、またはSQL Serverが必要です。 IMHO では、少なくとも Postgresql を使用することは間違いなく価値があります。
関連
-
[解決済み] SQLAlchemy の行オブジェクトを Python の dict に変換するには?
-
[解決済み] オブジェクトの現在のプロパティと値をすべて表示する組み込み関数はありますか?
-
[解決済み] 組込み開関数におけるモードa、a+、w、w+、r+の違い?
-
[解決済み] 基本的なイテレータを作るには?
-
[解決済み] SQLAlchemy ORDER BY DESCENDING?
-
[解決済み] SQLAlchemy: flush() と commit() の違いは何ですか?
-
[解決済み】SQLAlchemyのfilterとfilter_byの違いについて
-
[解決済み】SQLAlchemyでORを使用する場合
-
[解決済み】SQLAlchemyのIN句
-
[解決済み] 新しいpip backtrackingの実行時問題の解決
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み] SQLAlchemy の式から、コンパイルされた生の SQL クエリを得るにはどうしたらいいですか?
-
[解決済み] SQLAlchemy: セッションの作成と再利用
-
[解決済み] Pythonの構文に新しいステートメントを追加することはできますか?
-
[解決済み] Django のテストデータベースをメモリ上だけで動作させるには?
-
[解決済み] Spyderを仮想環境で動作させるには?
-
[解決済み] Python 2.7サポート終了?
-
[解決済み] ファブリック経由でデプロイユーザとしてvirtualenvを有効化する
-
[解決済み] pandasのタイムゾーンに対応したDateTimeIndexを、特定のタイムゾーンに対応したナイーブなタイムスタンプに変換する。
-
[解決済み] Pandasのデータフレーム内の文字列を'date'データ型に変換するにはどうしたらいいですか?
-
[解決済み] virtualenvsはどこに作成するのですか?