1. ホーム
  2. nlp

[解決済み] 単語中の音節を検出する

2022-05-08 11:30:30

質問

単語中の音節を検出する効率的な方法を探しています。例えば

インビジブル -> インビシブ-ル

五十音順のルールもあるようです。

V CV VC CVC CCV CCCV CVCC

*ここで、Vは母音、Cは子音です。 例

発音(5 Pro-nun-ci-a-tion; CV-CVC-CV-V-CVC)。

正規表現(音節を数える場合のみ有効)やハードコードされたルール定義(ブルートフォースアプローチで、非常に非効率的であることが判明)、最終的には有限状態オートマトン(役に立つ結果をもたらさない)を使用するなど、いくつかの方法を試してみました。

私のアプリケーションの目的は、与えられた言語のすべての音節の辞書を作成することです。この辞書は、後にスペルチェックのアプリケーション(ベイズ分類器を使用)や音声合成に使用される予定です。

この問題を解決するために、私のこれまでのアプローチ以外の方法について、どなたかヒントをいただければ幸いです。

私はJavaで仕事をしていますが、C/C++、C#、Python、Perl...のどんなヒントも私のために働くでしょう。

どのように解決するのですか?

ハイフネーションを目的としたこの問題に対するTeXのアプローチについてお読みください。特に、Frank Liangの 学位論文 コムピューターによるワードハイフェンアーション . 彼のアルゴリズムは非常に正確で、さらにアルゴリズムが機能しない場合のために小さな例外辞書を含んでいます。