1. ホーム
  2. python

[解決済み] Python HTML Encoding \xc2xa0

2022-02-17 22:01:32

質問

以前から悩んでいたことなのですが。HTMLに文字列を書こうとしているのですが、一度クリーニングした後の書式に問題があります。以下はその例です。

paragraphs = ['Grocery giant and household name Woolworths is battered and bruised. ', 
'But behind the problems are still the makings of a formidable company']

x = str(" ")
for item in paragraphs:
    x = x + str(item)
x

出力します。

"Grocery giant and household name\xc2\xa0Woolworths is battered and\xc2\xa0bruised. 
But behind the problems are still the makings of a formidable\xc2\xa0company"

希望する出力

"Grocery giant and household name Woolworths is battered and bruised. 
But behind the problems are still the makings of a formidable company"

なぜこのようなことが起こるのか、どうすれば修正できるのか、説明していただけると幸いです。ありがとうございました。

解決方法を教えてください。

\ЂЂЂとは 0xC2 0xA0 は、いわゆる

ノン・ブレイキング・スペース

UTF-8エンコーディングの不可視制御文字の一種です。詳しくはウィキペディアをご覧ください。 https://en.wikipedia.org/wiki/Non-breaking_space

質問で貼り付けたものをコピーして、期待通りの出力が得られました。