1. ホーム
  2. java

[解決済み] Apple(Inc.)に関するツイートとリンゴ(果物)に関するツイートを区別するモデルはどのように構築できますか?

2023-05-09 17:03:53

質問

apple.quot;に関する50のツイートは以下をご覧ください。それらは以下のように1としてマークされています。

ここにいくつかの行があります。

1|“@chrisgilmer: Apple targets big business with new iOS 7 features http://bit.ly/15F9JeF ”. Finally.. A corp iTunes account!
0|“@Zach_Paull: When did green skittles change from lime to green apple? #notafan” @Skittles
1|@dtfcdvEric: @MaroneyFan11 apple inc is searching for people to help and tryout all their upcoming tablet within our own net page No.
0|@STFUTimothy have you tried apple pie shine?
1|#SuryaRay #India Microsoft to bring Xbox and PC games to Apple, Android phones: Report: Microsoft Corp... http://dlvr.it/3YvbQx  @SuryaRay

これが全データセットです。 http://pastebin.com/eJuEb4eB

私は、"Apple" (Inc.)とそれ以外を分類するモデルを構築する必要があります。

私は機械学習の一般的な概要を求めているのではなく、むしろコードで実際のモデルを探しています ( Python が望ましい)。

どのように解決するのですか?

私なら次のようにします。

  1. 文章を単語に分割し、正規化し、辞書を構築します。
  2. 各単語について、会社に関するツイートで何回出現したか、果物に関するツイートで何回出現したかを保存する - これらのツイートは人間によって確認する必要がある
  3. 新しいツイートが来たら、ツイートの中のすべての単語を辞書で探し、加重スコアを計算する - 会社に関連して頻繁に使用される単語は、会社のスコアが高くなり、その逆も同様である - ほとんど使われない単語や、会社とフルーツの両方で使われる単語は、あまりスコアを持たない。