1. ホーム
  2. javascript

[解決済み】文字列から英数字でない文字を削除する

2022-02-18 23:23:47

質問

次のような文字列を、指定された出力に変換したい。

Input:  "\\test\red\bob\fred\new"
Output: "testredbobfrednew"

のような特殊文字を処理するソリューションは見つかっていません。 \r , \n , \b など。

基本的には英数字以外を取り除きたいだけです。以下は、私が試したことです...

Attempt 1: "\\test\red\bob\fred\new".replace(/[_\W]+/g, "");
Output 1:  "testedobredew"

Attempt 2: "\\test\red\bob\fred\new".replace(/['`~!@#$%^&*()_|+-=?;:'",.<>\{\}\[\]\\\/]/gi, "");
Output 2:  "testedobred [newline] ew"

Attempt 3: "\\test\red\bob\fred\new".replace(/[^a-zA-Z0-9]/, "");
Output 3:  "testedobred [newline] ew"

Attempt 4: "\\test\red\bob\fred\new".replace(/[^a-z0-9\s]/gi, '');
Output 4:  "testedobred [newline] ew"

もう一つの試みは、複数のステップで

function cleanID(id) {
    id = id.toUpperCase();
    id = id.replace( /\t/ , "T");
    id = id.replace( /\n/ , "N");
    id = id.replace( /\r/ , "R");
    id = id.replace( /\b/ , "B");
    id = id.replace( /\f/ , "F");
    return id.replace( /[^a-zA-Z0-9]/ , "");
}

結果とともに

Attempt 1: cleanID("\\test\red\bob\fred\new");
Output 1: "BTESTREDOBFREDNEW"

何かお手伝いいただけると幸いです。

ワーキングソリューションです。

Final Attempt 1: return JSON.stringify("\\test\red\bob\fred\new").replace( /\W/g , '');
Output 1: "testredbobfrednew"

解決方法は?

英数字以外の文字を削除する

入力文字列から英数字以外の文字を取り除く正しい正規表現は次のとおりです。

input.replace(/\W/g, '')

なお \W は、次のものと同等です。 [^0-9a-zA-Z_] - はアンダースコア文字を含んでいます。アンダースコアも削除したい場合は、次のようにします。

input.replace(/[^0-9a-z]/gi, '')

入力が不正です

テスト文字列には英数字ではない様々なエスケープ文字が含まれているため、それらを削除します。

文字列中のバックスラッシュは、文字通りに解釈するならば、エスケープする必要があります。

"\\test\\red\\bob\\fred\\new".replace(/\W/g, '')
"testredbobfrednew" // output

不正な文字列の処理

入力文字列を正しくエスケープできない場合(なぜできないのか)、あるいは入力文字列が何らかの信頼できない/設定されていないソースから来る場合 - このようにすることができます。

JSON.stringify("\\test\red\bob\fred\new").replace(/\W/g, '')
"testredbobfrednew" // output

文字列のjson表現には引用符が含まれることに注意してください。

JSON.stringify("\\test\red\bob\fred\new")
""\\test\red\bob\fred\new""

しかし、これらは置換正規表現によっても削除されます。