1. ホーム
  2. python

python リクエストを解決する 中国の雑多なコード

2022-02-20 15:46:15
<パス
import requests

# Crawl Sunshine Movie
html = requests.get("https://www.ygdy8.com/index.html")

print(html.text)


実行すると、文字化けしたコードが表示されることがわかります。

IMDBÆÀ-Ö8-Ö×óÓÒӰƬ400Óಿ

2020Äêϲ¾ç¡¶Ôã¸â×Éѯ/²"Á¼ÂÉ
2019Äê "ñ½±¾çÇéÒôÀÖ¡¶ÃÛ-äÓë
2019Ä궯×÷ÔÖÄÑ¡¶¼"ÏÞÌÓÉú¡-B
2008Äê¸ß-ÖÐüÒÉ¡¶ÏÓÒÉÈËXµÄÏ×
2020Äê¿Æ "ÃÐüÒÉ¡¶"úе "Ƥ¡-H
2020Äê¿Æ "ÃÐüÒÉ¡¶"úе "Ƥ¡-H
2020ÄêÆæ "á¶ÏÉÊéÆæÌ-/×½ÏɼÇ
2020Äê¾çÇé-¸×¶ñÃû/ÄÏ-½Ö®

どのように修正するのですか?多くの答えは、オンライン、それはutf - 8を設定すると言うことです誤解させるのは簡単です。ここで私はあなたを教えたい方法は、まず我々は、サイトがエンコードされているかを確認する必要があると使用するこの時間です。 文字セット 私たちは

charset=gb2312



この時点で、次の行を追加する必要があります。 html.encoding = "gb2312" で終わりです。

import requests

# Crawl Sunshine Movie
html = requests.get("https://www.ygdy8.com/index.html")
html.encoding = "gb2312"
print(html.text)