1. ホーム
  2. python

[解決済み] データフレーム列の </p&gt を置換する。

2022-02-18 09:32:17

質問事項

データフレームのカラムの説明文があります。データフレーム列から "<p> "& "<br> " というテキストを削除して、テキストだけを残したいのですが、どうすればよいですか?

     Description
     "&lt;p&gt;ID being used for RPA testing&lt;/p&gt;"
     "This NUID is used for User Acceptance Testing of the RPA solutions for mainframe provisioning (ACF2 NP10 and all IDMS lower environments)&lt;br&gt;"
     &lt;p>ID being used for RPA testing&lt;/p>
     This NUID is used for User Acceptance Testing of the RPA solutions for mainframe provisioning (ACF2 NP10 and all IDMS lower environments)&lt;br>

期待される出力

        Description
      ID being used for RPA testing
      This NUID is used for User Acceptance Testing of the RPA solutions for mainframe provisioning (ACF2 NP10 and all IDMS lower environments)
      ID being used for RPA testing
     This NUID is used for User Acceptance Testing of the RPA solutions for mainframe provisioning (ACF2 NP10 and all IDMS lower environments)



     

解決方法は?

テキストが複雑でない場合は、正規表現を使って &lt;&gt;

df = pd.DataFrame({
    "Description": [
        "&lt;p&gt;ID being used for RPA testing&lt;/p&gt;",
        "This NUID is used for User Acceptance Testing of the RPA solutions for mainframe provisioning (ACF2 NP10 and all IDMS lower environments)&lt;br&gt;"
    ]
})

pattern = re.compile('&lt;.+?(&gt;|>)')
df["Description"] = df["Description"].str.replace(pattern, "")

より複雑な要件については、BeautifulSoupのような適切なHTMLパーサーに飛び込んで、プレーンテキストを抽出する必要があります。