1. ホーム
  2. python

[解決済み] PythonでHTMLのhref属性からURLを抽出するRegex [重複]。

2023-05-13 04:02:09

質問

重複の可能性があります。

文字列が有効なURLであるかどうかを確認するための最良の正規表現は何ですか?

以下のような文字列を考えてみます。

string = "<p>Hello World</p><a href="http://example.com">More Examples</a><a href="http://example2.com">Even More Examples</a>"

Pythonを使って、アンカータグのhrefの中にあるURLを抽出するにはどうしたらよいでしょうか?のようなものです。

>>> url = getURLs(string)
>>> url
['http://example.com', 'http://example2.com']

ありがとうございます。

どのように解決するのですか?

import re

url = '<p>Hello World</p><a href="http://example.com">More Examples</a><a href="http://example2.com">Even More Examples</a>'

urls = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', url)

>>> print urls
['http://example.com', 'http://example2.com']