[解決済み] 単語中の音節を検出する
2022-05-08 11:30:30
質問
単語中の音節を検出する効率的な方法を探しています。例えば
インビジブル -> インビシブ-ル
五十音順のルールもあるようです。
V CV VC CVC CCV CCCV CVCC
*ここで、Vは母音、Cは子音です。 例
発音(5 Pro-nun-ci-a-tion; CV-CVC-CV-V-CVC)。
正規表現(音節を数える場合のみ有効)やハードコードされたルール定義(ブルートフォースアプローチで、非常に非効率的であることが判明)、最終的には有限状態オートマトン(役に立つ結果をもたらさない)を使用するなど、いくつかの方法を試してみました。
私のアプリケーションの目的は、与えられた言語のすべての音節の辞書を作成することです。この辞書は、後にスペルチェックのアプリケーション(ベイズ分類器を使用)や音声合成に使用される予定です。
この問題を解決するために、私のこれまでのアプローチ以外の方法について、どなたかヒントをいただければ幸いです。
私はJavaで仕事をしていますが、C/C++、C#、Python、Perl...のどんなヒントも私のために働くでしょう。
どのように解決するのですか?
ハイフネーションを目的としたこの問題に対するTeXのアプローチについてお読みください。特に、Frank Liangの 学位論文 コムピューターによるワードハイフェンアーション . 彼のアルゴリズムは非常に正確で、さらにアルゴリズムが機能しない場合のために小さな例外辞書を含んでいます。
関連
-
[解決済み] Stupid Backoffの実装の明確化
-
TypeError: zip 引数 #1 は反復をサポートしなければならない 解決策。
-
BERT事前学習に基づく中国語名前付き固有表現認識のTensorFlow実装
-
pyhanlpレポートについて FileNotFoundError: [Errno 2] No such file or directory: '/usr/lib/jvm' エラー解決法
-
[解決済み】2つのテキスト文書間の類似性を計算する方法は?
-
[解決済み] lemmatizationとstemmingの違いは何ですか?
-
[解決済み] 単語中の音節を検出する
-
[解決済み] Did you mean "を実装するには?重複
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み] Stupid Backoffの実装の明確化
-
TypeError: zip 引数 #1 は反復をサポートしなければならない 解決策。
-
BERT事前学習に基づく中国語名前付き固有表現認識のTensorFlow実装
-
pyhanlpレポートについて FileNotFoundError: [Errno 2] No such file or directory: '/usr/lib/jvm' エラー解決法
-
[解決済み】2つのテキスト文書間の類似性を計算する方法は?
-
[解決済み] lemmatizationとstemmingの違いは何ですか?
-
[解決済み] 単語中の音節を検出する
-
[解決済み] Did you mean "を実装するには?重複