[解決済み] 正規表現にマッチした部分を抽出する

2022-03-03 20:03:02

質問

HTMLページからタイトルを抽出するための正規表現が欲しい。現在、私はこれを持っています。

title = re.search('<title>.*</title>', html, re.IGNORECASE).group()
if title:
    title = title.replace('<title>', '').replace('</title>', '')

タグを削除しなくてもいいように、<title>の中身だけを抽出する正規表現はないでしょうか？

使用方法 ( ) を正規表現に、そして group(1) をpythonで実行して、キャプチャした文字列を取得します。 re.search が返されます。 None というように、結果が見つからなければ は使わないでください。 group() 直接 ):

title_search = re.search('<title>(.*)</title>', html, re.IGNORECASE)

if title_search:
    title = title_search.group(1)