1. ホーム
  2. python

pythonとbeautifulsoupを使用してログインを必要とするウェブサイトをスクレイプする方法は?

2023-11-27 15:30:30

質問

私は最初にパスワードでログインする必要があるウェブサイトをスクレイピングしたい場合、私は美しいスープ4ライブラリを使用してパイソンでそれをスクラップを開始するにはどうすればよいですか?以下は、ログインを必要としないWebサイトに対して私が行うことです。

from bs4 import BeautifulSoup    
import urllib2 
url = urllib2.urlopen("http://www.python.org")    
content = url.read()    
soup = BeautifulSoup(content)

ログインに対応するために、コードはどのように変更すればよいでしょうか?スクレイピングしたいサイトが、ログインを必要とするフォーラムだと仮定します。例としては http://forum.arduino.cc/index.php

どのように解決するのですか?

メカナイズを使用することができます。

import mechanize
from bs4 import BeautifulSoup
import urllib2 
import cookielib ## http.cookiejar in python3

cj = cookielib.CookieJar()
br = mechanize.Browser()
br.set_cookiejar(cj)
br.open("https://id.arduino.cc/auth/login/")

br.select_form(nr=0)
br.form['username'] = 'username'
br.form['password'] = 'password.'
br.submit()

print br.response().read()

または urllib - urllib2 を使ってウェブサイトにログインする