1. ホーム
  2. python

[解決済み] Pythonはリダイレクトをたどってからページをダウンロードするのですか?

2022-03-11 07:42:05

質問

以下のようなPythonスクリプトがあり、見事に動作しています。

import urllib2

url = 'http://abc.com' # write the url here

usock = urllib2.urlopen(url)
data = usock.read()
usock.close()

print data

しかし、私が与えたURLの中には、2回以上リダイレクトされるものがあります。どうすれば python にリダイレクトが完了するのを待ってからデータをロードさせることができるでしょうか。 例えば、上記のコードに

http://www.google.com/search?hl=en&q=KEYWORD&btnI=1

というのは、google検索でim luckyボタンを押すのと同じ意味ですね、わかります。

>>> url = 'http://www.google.com/search?hl=en&q=KEYWORD&btnI=1'
>>> usick = urllib2.urlopen(url)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 126, in urlopen
    return _opener.open(url, data, timeout)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 400, in open
    response = meth(req, response)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 513, in http_response
    'http', request, response, code, msg, hdrs)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 438, in error
    return self._call_chain(*args)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 372, in _call_chain
    result = func(*args)
  File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 521, in http_error_default
    raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
urllib2.HTTPError: HTTP Error 403: Forbidden
>>> 

Iveは、(URL、データ、タイムアウト)を試してみましたしかし、私はそこに置くために不明である。

EDIT リダイレクトせずに、最初のリンクのヘッダーだけを使用する場合、次のリダイレクトの場所を取得し、それを最終的なリンクとして使用することができることを実際に発見しました。

解決方法は?

リダイレクト処理を制御するためのより良いAPIを持つRequestsライブラリを使用する方がよいかもしれません。

https://requests.readthedocs.io/en/master/user/quickstart/#redirection-and-history

リクエスト

https://pypi.org/project/requests/ (人間用のurllibの置き換え)