1. ホーム
  2. python

[解決済み] PythonでUTF-8文字列をデコードする

2022-03-01 12:42:55

質問

Pythonでウェブクローラーを書いているのですが、ウェブサイトからヘッドラインを取得する必要があります。

見出しの一つは、「そしてヒップもやってくる」と読むべきでした。

しかし、代わりにこう書かれていた。そしてヒップもやってくる

どうしたんだろう?

どうすればいいですか?

ソーステキストを正しくデコードする必要があります。ほとんどの場合、ソーステキストはASCIIではなくUTF-8形式です。

ご質問の背景やコードが記載されていないため、直接お答えすることはできません。

Pythonでunicodeと文字エンコーディングがどのように行われるかを勉強することをお勧めします。

http://docs.python.org/2/howto/unicode.html