• ステマーとレマティザーの比較

    質問 自然言語処理 (NLP) は、特に英語の場合、完璧なレムマターが存在すれば、ステミングが古風な技術になる段階にまで発展しています。それは、ステマーが単語/トークンの表面的な形を意味のないステムに変えてしまうからです。 なぜなら、異なる NLP タスクでは、異なるレベルのレムマタイズが必要とされるからです。たとえば 動詞/名詞/形容詞の形間の単語を変換する . ステマ

    2023-08-22 07:54:35
  • [解決済み] Did you mean "を実装するには?重複

    質問 この質問はすでにここに回答があります : 閉じる 9 年前 . 重複の可能性があります。 Googleの "あなたは意味しましたか?"アルゴリズムはどのように動作しますか?アルゴリズムはどうなっているのか? あなたのWebサイトにすでに検

    2022-05-16 04:07:07
  • [解決済み] 単語中の音節を検出する

    質問 単語中の音節を検出する効率的な方法を探しています。例えば インビジブル -> インビシブ-ル 五十音順のルールもあるようです。 V CV VC CVC CCV CCCV CVCC *ここで、Vは母音、Cは子音です。 例 発音(5 Pro-nun-ci-a-tion; CV-CVC-CV-V-CVC)。 正規表現(音節を数える場合のみ有効)やハードコードさ

    2022-05-08 11:30:30
  • [解決済み] lemmatizationとstemmingの違いは何ですか?

    質問 それぞれどのような場合に使用するのですか? また、NLTKのレムマター化は品詞に依存しているのでしょうか? そうであれば、より精度が高くなるのではないでしょうか? どのように解決するのですか? 短く、濃く。 http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html

    2022-04-21 02:34:35
  • [解決済み】2つのテキスト文書間の類似性を計算する方法は?

    質問 私はNLPプロジェクトに携わっています。プログラミング言語は問いません(ただし、Pythonを希望します)。 2つの文書を取り出して、どの程度似ているかを判断したいのですが。 どのように解決するのですか? 一般的な方法は、文書をTF-IDFベクトルに変換し、その間の余弦類似度を計算することである。情報検索(IR)の教科書には必ず載っています。特に参照。 情報検索入門

    2022-04-16 15:10:31
  • pyhanlpレポートについて FileNotFoundError: [Errno 2] No such file or directory: '/usr/lib/jvm' エラー解決法

    pyhanlpのFileNotFoundErrorに対する解決策です。[Errno 2] そのようなファイルやディレクトリはありません: '/usr/lib/jvm' エラー 最近、HanLPを使って単語を分割することを覚え、pythonのpip経由でpyhanlpをインストールしましたが、単語を分割するためにpyhanlpをインポートしたり、hanlpコマンドを使用するとFileNotF

    2022-03-01 08:35:49
  • BERT事前学習に基づく中国語名前付き固有表現認識のTensorFlow実装

    <パス BERT-BiLSMT-CRF-NER NERタスクのTensorflowソリューション Google BERT微調整付きBiLSTM-CRFモデル使用 GitHub https://github.com/macanv/BERT-BiLSTM-CRF-NER この記事は、機関のカタログです。 自分でモデルを学習する 説明 結果

    2022-02-28 13:06:37
  • TypeError: zip 引数 #1 は反復をサポートしなければならない 解決策。

    x=[1,2,3,4] y=[2,3,4,5] z=zip(x[0],y[0])とする。 エラー、メソッド変更 z=zip(str(x[0]),str(y[0]))

    2022-02-18 20:51:34
  • [解決済み] Stupid Backoffの実装の明確化

    質問 こんにちは。 バカなバックオフ (2ページ目、式5)の平滑化手法を担当しているプロジェクトで、その実装について質問させてください。これはNLPで使用される平滑化アルゴリズムで、Good-Turingは最もよく知られた類似のアルゴリズムだと思います。 アルゴリズムを簡単に説明すると ある文に単語が出現する確率を求める場合、まずn-gramレベルでその単語の文脈を探し、そのサイズ

    2022-02-05 22:34:47