1. ホーム
  2. validation

[解決済み] Wekaにおけるクロスバリデーション

2022-02-26 19:02:58

質問

クロスバリデーションはこのように行うものだと本で読んだ限りでは思っていたのですが。

k-フォールド・クロスバリデーションでは、元のサンプルをランダムに k個のサブサンプルに分割される。k個のサブサンプルのうち、1個のサブサンプル を検証用データとして保持し、残りのデータについては 残りのk - 1個のサブサンプルは学習データとして使用される。この その後、クロスバリデーション処理をk回(フォールド)繰り返し、その中で k個のサブサンプルのそれぞれを検証データとして正確に1回ずつ使用した。このとき フォールドの結果は、平均化することができます(または、組み合わせることができます)。 1つの推定値を生成するために

つまり、k個のモデルが構築され、最終的にそれらの平均が算出されるわけです。 Wekaのガイドには、各モデルは常にすべてのデータセットを使って構築されると書かれています。では、Wekaのクロスバリデーションはどのように行われるのでしょうか?モデルはすべてのデータから構築され、quot;クロスバリデーション"は、k個のフォールドが作成され、それぞれのフォールドで評価され、最終出力結果は単にフォールドの平均結果ということでしょうか?

どのように解決するのですか?

そこで、もう一度シナリオを考えてみましょう。

トレーニングセットを使用する

  • wekaはラベル付きデータを100個取得します。
  • この100個のデータから分類器を構築するためのアルゴリズムを適用します。
  • その分類器をもう一度適用する これらの100個のデータ
  • のパフォーマンスを提供します。 クラシファイアの元となった同じ100個のデータに適用されます。 開発)

10倍速の履歴書を使用

  • Wekaは100個のラベル付きデータを受け取る

  • で、同じ大きさのセットを10個生成する。各集合は2つのグループに分けられ、90個のラベル付きデータがトレーニングに、10個のラベル付きデータがテストに使用される。

  • 90個のラベル付きデータからアルゴリズムによる分類器を生成し、それをセット1の10個のテストデータに適用します。

  • セット2から10まで同じことを行い、さらに9つの分類器を生成します。

  • 10個の同じ大きさ(90個のトレーニングセットと10個のテストセット)から生成された10個の分類器の性能を平均化します。

質問の答えになっているかどうか教えてください。