1. ホーム
  2. machine-learning

[解決済み] なぜFメジャーはPrecisionとRecallの算術平均ではなく調和平均なのですか?

2022-05-17 13:22:32

質問

PrecisionとRecallの両方を考慮したF-Measureを計算する場合、単純な算術平均ではなく、2つの尺度の調和平均をとります。

単純な平均ではなく、調和平均を取ることの直感的な理由は何ですか?

どのように解決するのですか?

ここでは、すでにいくつかの詳細な回答がありますが、私はそれについてのいくつかのより多くの情報は、深く掘り下げたい人のために役立つだろうと思った(特になぜFメジャー)。

測定の理論によると、複合尺は以下の6つの定義を満たす必要があります。

  1. 連結性(2つの組が順序付けられる)および推移性(もしe1 >= e2およびe2 >= e3なら、e1 >= e3)
  2. 独立性:2つの成分が独立して効果に寄与する。
  3. トムセン条件。一定のリコール(精度)において、2つの値の精度(リコール)に対して有効性に差があるとすると、この差は一定の値を変えることによって取り除いたり、元に戻したりすることはできない。
  4. 制限された解決可能性。
  5. 各コンポーネントは必須です。他を一定にしたまま、一方を変化させることで、効果に変化を与える。
  6. 各コンポーネントのアルキメデス的性質。これは単に、コンポーネント上の間隔が同等であることを保証するものです。

次に、私たちは を導出し の関数を得ることができる。

また、通常は有効性ではなく、より単純なFスコアを使用します。

Fは1-Eであるため :

さて、ここでF測定の一般式をとります。

ここで、βを設定することで再現性や精度をより重視することができますが、βは以下のように定義されるからです。

もし私たちが精度よりもリコールを重要視するならば(すべての関連するものが選択される)、ベータを2として設定することができ、F2メジャーを得ることができます。また、逆にして、精度を想起よりも高く評価する場合 (たとえば、次のような文法エラー修正シナリオでは、選択された要素ができるだけ多く関連します)、ベータを 2 に設定することができます。 CoNLL のような文法エラー修正シナリオのように)ベータを0.5として設定し、F0.5指標を得ます。そして、明らかに、最も使用されるF1指標(精度とリコールの調和平均)を得るために、ベータを1に設定することができます。

なぜ算術平均を使用しないか、ある程度はすでに答えられたと思います。

調和平均の3Dプロットを見てみましょう。調和平均は最低値に対して敏感であることがわかります。特に調和平均は少なくとも1つが0であれば0となり、単純な算術平均では成り立たないことがわかります。

このトピックの可視化については、こちらの記事を参照してください。 F1スコアの説明 .

参考文献を紹介します。

  1. https://en.wikipedia.org/wiki/F1_score
  2. Fメジャーの真偽
  3. 情報の取得
  4. ファイル:調和平均の3Dプロット(0から100まで).png