[解決済み] awk を使ってバイトオーダーマークを削除する
2022-10-27 23:07:33
質問
どのように
awk
を削除するスクリプト (おそらくワンライナー) はどうなるでしょうか。
BOM
のように見えますか?
仕様書です。
-
最初の行の次の行を表示する (
NR > 1
) -
で始まる場合、最初の行は で始まる場合
#FE #FF
または#FF #FE
であれば、それらを削除し、残りを印刷します。
どのように解決するのですか?
これを試してみてください。
awk 'NR==1{sub(/^\xef\xbb\xbf/,"")}{print}' INFILE > OUTFILE
最初のレコード(行)で、BOM 文字を削除します。すべてのレコードを印刷します。
あるいは、awk のデフォルトの動作がレコードを印刷することであるという知識を使って、少し短くします。
awk 'NR==1{sub(/^\xef\xbb\xbf/,"")}1' INFILE > OUTFILE
1
は常に真と評価される最短の条件であるため、各レコードが出力されます。
お楽しみに
-- ADDENDUM --
Unicode バイトオーダーマーク (BOM) FAQ には、各エンコーディングの正確な BOM バイトをリストした以下の表があります。
Bytes | Encoding Form
--------------------------------------
00 00 FE FF | UTF-32, big-endian
FF FE 00 00 | UTF-32, little-endian
FE FF | UTF-16, big-endian
FF FE | UTF-16, little-endian
EF BB BF | UTF-8
このように
\xef\xbb\xbf
に対応する
EF BB BF
UTF-8
上表のBOMバイト。
関連
-
[解決済み] 時間」を表すUnicodeの文字は?
-
[解決済み] 人を表すユニコード記号は?
-
[解決済み] 真ん中の大きな弾丸を表すユニコード文字は何になるのでしょうか?
-
[解決済み] Pythonのunicode文字列のアクセントを除去(正規化)する最良の方法は何ですか?
-
[解決済み] UTF-8とUnicodeの違いは何ですか?
-
[解決済み] awk を使って n 番目から最後までのすべての列を表示する
-
[解決済み] Windowsのコマンドラインでunicode文字を使うには?
-
[解決済み】Markdownの構文でディレクトリとファイル構造を表現する【終了しました
-
[解決済み】UnicodeとUTF-8の違いは何ですか?重複
-
[解決済み] 実際に使われている非BMPのUnicode文字で最も多いものは何ですか?[クローズド]
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み】このUnicode結合文字はどうなっているのか、どうすればフィルタリングできるのか?
-
[解決済み] 次の Unicode 文字列 \xe9 は何ですか。
-
[解決済み] ノンチャラクターU+FDD0~U+FDEFは何のためにあるのですか?
-
[解決済み] テキストがボックスで表示されるのはどういう意味ですか?
-
[解決済み] UTF-8とBOMなしUTF-8の違いは何ですか?
-
[解決済み] PHPで「Header already sent」エラーを修正する方法
-
[解決済み] UTF-8とUnicodeの違いは何ですか?
-
[解決済み】UnicodeとUTF-8の違いは何ですか?重複
-
[解決済み] ファイルの先頭からï "¿を削除するにはどうすればよいですか?
-
[解決済み] 実際に使われている非BMPのUnicode文字で最も多いものは何ですか?[クローズド]