1. ホーム
  2. python

[解決済み] ダグランを埋め戻す際の気流を防ぐには?

2022-02-17 12:30:17

質問内容

例えば、バックフィルを行う意味がないエアフローDAGがあるとします。つまり、一度実行した後、何度も素早く実行しても全く意味がないのです。

例えば、1時間ごとにしか更新されないデータを何らかのソースからデータベースにロードしている場合、連続して行われるバックフィルは、同じデータを何度もインポートしていることになります。

これは特に、新しい時間単位のタスクをインスタンス化し、それが N 指定した間隔で実行される前に、1時間ごとに何回も冗長な作業を行います。

で具体的にアドバイスされているような解決策しか思いつきません。 ドキュメントのFAQ

start_date として動的な値を使用することはお勧めしません。 datetime.now() というのは、かなり混乱する可能性があるからです。

DAGのバックフィルを無効にする方法はありますか、それとも上記を行うべきですか?

解決方法は?

airflowのバージョンを1.8にアップグレードし、airflow.cfgでcatchup_by_default=Falseを使用するか、各ダグにcatchup=Falseを適用してください。

https://github.com/apache/incubator-airflow/blob/master/UPDATING.md#catchup_by_default