1. ホーム
  2. java

[解決済み] タグ間のテキストを抽出するJava正規表現

2023-05-19 18:15:36

質問

カスタムタグを含むファイルがあり、タグ間の文字列を抽出する正規表現を書きたいと思っています。 例えば、私のタグが

[customtag]String I want to extract[/customtag]

タグの間の文字列だけを抽出するための正規表現をどのように書けばよいでしょうか。 このコードは、その一歩手前のような気がします。

Pattern p = Pattern.compile("[customtag](.+?)[/customtag]");
Matcher m = p.matcher("[customtag]String I want to extract[/customtag]");

次に何をすればいいのかわかりません。 何かアイデアはありますか? ありがとうございます。

どのように解決するのですか?

あなたは正しい道を歩んでいます。あとは、以下のように目的のグループを抽出するだけです。

final Pattern pattern = Pattern.compile("<tag>(.+?)</tag>", Pattern.DOTALL);
final Matcher matcher = pattern.matcher("<tag>String I want to extract</tag>");
matcher.find();
System.out.println(matcher.group(1)); // Prints String I want to extract

複数のヒットを抽出したい場合は、こちらをお試しください。

public static void main(String[] args) {
    final String str = "<tag>apple</tag><b>hello</b><tag>orange</tag><tag>pear</tag>";
    System.out.println(Arrays.toString(getTagValues(str).toArray())); // Prints [apple, orange, pear]
}

private static final Pattern TAG_REGEX = Pattern.compile("<tag>(.+?)</tag>", Pattern.DOTALL);

private static List<String> getTagValues(final String str) {
    final List<String> tagValues = new ArrayList<String>();
    final Matcher matcher = TAG_REGEX.matcher(str);
    while (matcher.find()) {
        tagValues.add(matcher.group(1));
    }
    return tagValues;
}

しかし、ここで正規表現がベストアンサーでないことに同意します。私ならXPathを使って、興味のある要素を探します。参照 Java XPath API を参照してください。