1. ホーム
  2. machine-learning

ラベル付きデータとラベルなしデータの違いは何ですか?

2023-10-02 11:34:23

質問

この のビデオでは、教師あり学習はラベル付きデータで動作し、教師なし学習はラベルなしデータで動作すると言っています。これはどういう意味なのでしょうか?ラベル付きデータ vs 非ラベル付きデータ」でググると、このトピックに関する学術論文がたくさん出てきます。基本的な違いを知りたいだけなのです。

どのように解決するのですか?

典型的な例です。 無標識 データは、世の中から比較的簡単に入手できる、自然または人間が作成した人工物のサンプルで構成されています。ラベル付けされていないデータの例としては、写真、音声記録、ビデオ、ニュース記事、ツイート、X線(医療用アプリケーションに取り組んでいる場合)などがあります。ラベル付けされていないデータの各ピースには、何の説明もなく、ただデータが含まれているだけで他には何もありません。

ラベル付き データは通常、ラベル付けされていないデータのセットを取り、そのラベル付けされていないデータの各ピースを、何らかの情報または知ることが望ましい何らかの意味のあるタグ、ラベル、またはクラスで補強します。例えば、上記のようなラベルのないデータに対するラベルは、この写真には馬と牛のどちらが写っているか、この音声記録ではどの言葉が発せられたか、このビデオではどのような動作が行われているか、このニュース記事の話題は何か、このツイートの全体の感情は何か、このX線の点は腫瘍であるか、などであるかもしれません。

データのラベルは、多くの場合、与えられたラベルのないデータについて人間に判断を求めることで得られ(例:quot;この写真には馬が写っているか牛が写っているか)、ラベルのない生のデータよりも取得にかなりコストがかかります。

ラベル付きデータセットを取得した後、機械学習モデルをデータに適用することで、新しいラベルなしデータをモデルに提示し、そのラベルなしデータの一部に対して可能性の高いラベルを推測または予測することができるようになります。

機械学習の分野では、ラベルのないデータとラベルのあるデータを統合して、より正確な世界のモデルを構築することを目的とした研究が活発に行われています。半教師付き学習は、ラベルの付いていないデータとラベルの付いたデータ(または、より一般的には、一部のデータ点のみにラベルが付いているラベルの付いていないデータのセット)を組み合わせて、統合されたモデルを構築しようとするものです。ディープニューラルネットワークと特徴学習は、ラベルのないデータだけでモデルを構築し、ラベルからの情報をモデルの興味深い部分に適用しようとする研究分野である。