[解決済み] Python、文字列からアルファベット以外の文字をすべて取り除く
2022-11-05 08:10:10
質問
PythonのMapReduceで単語数カウントのプログラムを書いています。問題は、データ中に多くの非アルファベット文字が散らばっていることです。 Pythonで文字列から英数字以外を取り除く という投稿があり、正規表現を使った良い解決策が紹介されているのですが、どのように実装すれば良いのかわかりません。
def mapfn(k, v):
print v
import re, string
pattern = re.compile('[\W_]+')
v = pattern.match(v)
print v
for w in v.split():
yield w, 1
ライブラリの使い方がよくわからないのですが
re
をどのように使用するのか、あるいはそれどころか正規表現を使用するのか、よくわかりません。入力された文字列 (本の行) に正規表現パターンを適用する方法がわかりません。
v
を適切に適用して、英数字以外の文字がない新しい行を取得する方法がわかりません。
提案ですか?
どのように解決するのですか?
使用方法
re.sub
import re
regex = re.compile('[^a-zA-Z]')
#First parameter is the replacement, second parameter is your input string
regex.sub('', 'ab3d*E')
#Out: 'abdE'
あるいは、特定の文字のセットだけを削除したい場合(入力にアポストロフィがあってもいいように...)には
regex = re.compile('[,\.!?]') #etc.
関連
-
[解決済み] Pythonには文字列の'contains'サブストリングメソッドがありますか?
-
[解決済み] Pythonで文字列の部分文字列を取得するにはどうすればよいですか?
-
[解決済み] pipでPythonの全パッケージをアップグレードする方法
-
[解決済み] Pythonの辞書からキーを削除するにはどうしたらいいですか?
-
[解決済み] Pythonで文字列を小文字にするには?
-
[解決済み] インデックスを指定してリストから要素を削除する方法
-
[解決済み] Pythonで文字列を反転させる
-
[解決済み] 文字列中の空白をすべて削除する
-
[解決済み] 文字列からダッシュ以外のすべての英数字を削除するには?
-
[解決済み】オブジェクトからプロパティを削除する(JavaScript)
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み】Pythonで文字列から英数字以外を削除する方法
-
[解決済み] Pythonのマルチプロセッシングプールimap_unorderedの呼び出しの進捗を表示しますか?
-
[解決済み] googletransがエラー 'NoneType' オブジェクトに 'group' 属性がない、と言って動かなくなった。
-
[解決済み] Djangoで2つの日付の間を選択する
-
[解決済み] django.db.migrations.exceptions.InconsistentMigrationHistory
-
[解決済み] 辞書のキーと値を交換するにはどうすればよいですか?
-
[解決済み] なぜ(0-6)は-6=偽なのか?重複
-
[解決済み] データフレームをソートした後にインデックスを更新する
-
[解決済み] 異なる順序で同じ要素を持つ2つのJSONオブジェクトを等しく比較するには?
-
[解決済み] virtualenv の `--no-site-packages` オプションを元に戻す。