1. ホーム
  2. c#

[解決済み】テキストファイルのエンコーディング/コードページを検出する方法

2022-03-29 13:06:38

質問

私たちのアプリケーションでは、テキストファイル ( .txt , .csv など)を様々なソースから入手しています。これらのファイルは、異なるコードページで作成されているため、読み込むとゴミを含むことがあります。

テキストファイルのコードページを(自動的に)検出する方法はありますか?

detectEncodingFromByteOrderMarks にある StreamReader のコンストラクタで動作します。 UTF8 といったユニコードでマークされたファイルを検出する方法を探しています。 ibm850 , windows1252 .


ご回答ありがとうございます、こんな感じです。

私たちが受け取るファイルはエンドユーザーからのもので、彼らはコードページについて何も知らない。受信者もエンドユーザーであり、コードページについて知っているのはこのようなことです。コードページは存在し、そして迷惑な存在なのです。

解決策

  • 受信したファイルをメモ帳で開き、文字化けしている部分を見てください。もし誰かがフランソワとかいう名前だったら、あなたの人間的な知性でこれを推測することができます。
  • 私は、ユーザーがファイルを開くのに使える小さなアプリを作りました。正しいコードページが使われたときに、そのファイルに表示されることが分かっているテキストを入力します。
  • すべてのコードページをループし、ユーザーが提供したテキストで解決策を与えるものを表示します。
  • 複数のコードページが表示された場合は、さらにテキストを指定するようにユーザーに要求します。

解決方法は?

コードページがわからない、教えてほしい。バイトを解析して推測することはできますが、その場合、奇妙な(時には面白い)結果が得られることがあります。今は見つけられませんが、メモ帳を騙して英語のテキストを中国語で表示させることができるはずです。

とにかく、これを読めばいいんです。 ソフトウェア開発者が絶対に、絶対に知っておくべき、ユニコードと文字セットについての最低限事項(言い訳禁止!)。 .

具体的にはジョエルが言う。

エンコーディングに関する唯一で最も重要な事実

もし、今説明したことをすっかり忘れてしまったら、1つだけ極めて重要な事実を思い出してください。文字列がどのようなエンコーディングを使っているかを知らずに文字列を持つことは意味がありません。もう砂の中に頭を突っ込んで、"plain"テキストがASCIIであるかのように装うことはできないのです。 プレーンテキストというものは存在しないのです。

メモリ内、ファイル内、電子メールメッセージ内に文字列がある場合、それがどのようなエンコーディングであるかを知っておかなければ、それを解釈したり、ユーザーに正しく表示したりすることができないのです。