[解決済み] データファイルから非ASCII文字を削除する
2023-07-09 18:11:55
質問
私は、たくさんの
csv
ファイルを R に読み込ませ、package/data フォルダで
.rdata
形式で保存します。残念ながら、データ中の非ASCII文字はチェックに失敗します。そのため
tools
パッケージには、非 ASCII 文字をチェックするための関数が 2 つあります (
showNonASCII
と
showNonASCIIfile
) を削除/クリーニングするためのものが見つからないようです。
私が他の UNIX ツールを探索する前に、私が生データから最終製品までの完全なワークフローを維持できるように、これをすべて R で行うことは素晴らしいことです。非 ASCII 文字を除去するのに役立つ既存のパッケージ/関数はありますか?
どのように解決するのですか?
単純に
を削除します。
を削除するには、ベースRの
iconv()
を設定します。
sub = ""
. このようにするとうまくいくはずです。
x <- c("Ekstr\xf8m", "J\xf6reskog", "bi\xdfchen Z\xfcrcher") # e.g. from ?iconv
Encoding(x) <- "latin1" # (just to make sure)
x
# [1] "Ekstrøm" "Jöreskog" "bißchen Zürcher"
iconv(x, "latin1", "ASCII", sub="")
# [1] "Ekstrm" "Jreskog" "bichen Zrcher"
には 探す 非 ASCII 文字を見つけるため、またはファイル内にまったく存在しないかどうかを確認するために、次のアイデアを採用することができます。
## Do *any* lines contain non-ASCII characters?
any(grepl("I_WAS_NOT_ASCII", iconv(x, "latin1", "ASCII", sub="I_WAS_NOT_ASCII")))
[1] TRUE
## Find which lines (e.g. read in by readLines()) contain non-ASCII characters
grep("I_WAS_NOT_ASCII", iconv(x, "latin1", "ASCII", sub="I_WAS_NOT_ASCII"))
[1] 1 2 3
関連
-
[解決済み] (grep) 非 ASCII 文字にマッチする正規表現ですか?
-
R - ユークリッド距離の計算を簡単にする方法
-
データボックス内の行/列の削除/追加を行うR言語
-
[解決済み] ggplot2 の軸ラベルを回転させ、間隔を空ける
-
[解決済み] 情報を損なわずに因数を整数値に変換するには?
-
[解決済み】非ASCII文字を半角スペースで置換する方法
-
[解決済み】文字列から非ASCII文字を取り除くにはどうすればよいですか?(C#の場合)
-
[解決済み】ASCII以外の文字をすべてgrepする方法とは?
-
[解決済み] セッションが作成されません。このバージョンのChromeDriverはChromeバージョンにしか対応していません ChromeDriver ChromeでSeleniumを使用した場合の74エラー
-
[解決済み] ピリオドとスペースを残して非ASCII文字を削除するにはどうすればよいですか?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
R 描画エラー plot.new() : 図形の余白が大きすぎる
-
Rでファイルを読み込む際に、そのようなファイルまたはディレクトリが見つかりません。
-
R言語です。「接続を開くことができません」解決策
-
Rのexpand.grid()コマンド
-
[解決済み] Rの二乗偏差の総和の算出
-
[解決済み] "エラーです。Rでテーマの書式を保存する際に「Don't know how to add RHS to the theme object」(テーマオブジェクトにRHSを追加する方法がわかりません)と表示されます。
-
[解決済み] Rでcは何をするのですか?重複] [重複
-
[解決済み] R および RStudio のコンソールをクリアする関数
-
[解決済み] パッケージ 'xxx' は利用できません (for R version x.y.z) 」という警告にどのように対処したらよいですか?
-
[解決済み】エラー:Rで関数が見つかりませんでした。