1. ホーム
  2. python

[解決済み] PythonとBeautifulSoupを使ってWebページからリンクを取得する [終了しました]。

2022-04-28 10:35:20

質問

Pythonを使ってウェブページのリンクを取得し、リンクのURLをコピーするにはどうすればよいですか?

どのように解決するのですか?

BeautifulSoupのSoupStrainerクラスを使った簡単なスニペットを紹介します。

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])

BeautifulSoupのドキュメントは非常に優れており、典型的なシナリオを数多くカバーしています。

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

編集:SoupStrainerクラスを使ったのは、何をパースするのかが事前に分かっていれば、(メモリとスピードの面で)少し効率的だからであることに注意してください。