1. ホーム
  2. r

[解決済み] Rを使ってテキストから句読点を削除する

2022-01-29 20:58:17

質問

テキストから句読点を削除したいのですが、どうすればよいですか?私はtmパッケージを使用していますが、キャッチがあります。

例:テキストはこのようなものです。

data <- "I am a, new comer","to r,"please help","me:out","here"

を実行すると

library(tm)
data<-removePunctuation(data)

私のコードでは、結果は:

I am a new comerto rplease helpmeouthere 

が、私が期待するのは

I am a new comer to r please help me out here

解決方法は?

以下は、あなたの質問の受け止め方と、上のコメントにある @David Arenburg の答えに非常に近いものです。

 data <- '"I am a, new comer","to r,"please help","me:out","here"'
 gsub('[[:punct:] ]+',' ',data)
 [1] " I am a new comer to r please help me out here "

punct:]の後の余分なスペースは、文字列にスペースを追加するためで、+は正規表現の1つまたは複数の連続した項目にマッチします。これは、場合によっては望ましい副次的効果として、連続した空白を一つの空白に短縮することができます。