[解決済み] PythonでHTMLのhref属性からURLを抽出するRegex [重複]。

2023-05-13 04:02:09

質問

重複の可能性があります。

文字列が有効なURLであるかどうかを確認するための最良の正規表現は何ですか？

以下のような文字列を考えてみます。

string = "<p>Hello World</p><a href="http://example.com">More Examples</a><a href="http://example2.com">Even More Examples</a>"

Pythonを使って、アンカータグのhrefの中にあるURLを抽出するにはどうしたらよいでしょうか？のようなものです。

>>> url = getURLs(string)
>>> url
['http://example.com', 'http://example2.com']

ありがとうございます。

どのように解決するのですか？

import re

url = '<p>Hello World</p><a href="http://example.com">More Examples</a><a href="http://example2.com">Even More Examples</a>'

urls = re.findall('https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', url)

>>> print urls
['http://example.com', 'http://example2.com']

[解決済み] PythonでHTMLのhref属性からURLを抽出するRegex [重複]。

質問

どのように解決するのですか？

関連

[解決済み] pipでPythonの全パッケージをアップグレードする方法

[解決済み] Pythonの辞書からキーを削除するにはどうしたらいいですか？

[解決済み] Pythonでオブジェクトが属性を持つかどうかを知る方法

[解決済み] なぜC++はPythonよりもstdinからの行の読み込みが遅いのですか？

[解決済み] Pythonでファイル名から拡張子を抽出する

[解決済み] virtualenvで異なるバージョンのPythonを使用する

[解決済み] os/path 形式に関係なく、パスからファイル名を抽出します。

[解決済み] JavaScriptで文字列からベースURLを抽出する方法は？

[解決済み] Pandasを使って、既存のExcelファイルに新しいシートを保存する方法は？

[解決済み] データクラスとtyping.NamedTupleの主な使用例

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

[解決済み] SQLAlchemy: セッションの作成と再利用

[解決済み] Pythonでコード行間にかかる時間を測定するには？

[解決済み] Django のテストデータベースをメモリ上だけで動作させるには？

[解決済み] SQLAlchemy: 日付フィールドをフィルタリングする方法は？

[解決済み] SQLAlchemy - テーブルのリストを取得する

[解決済み] tensorflowのCPUのみのインストールでダイナミックライブラリ 'cudart64_101.dll' を読み込めなかった

[解決済み] Python Logging でログメッセージが2回表示される件

[解決済み] Pythonでランダムなファイル名を生成する最良の方法

[解決済み] Django filter queryset __in for every item in list

[解決済み] Alembicアップグレードスクリプトでインサートやアップデートを実行するにはどうすればよいですか？