「労働者が自分の仕事をうまくやりたいなら、まず自分の道具を研ぎ澄まさなければなりません。」 - 孔子、「論語。陸霊公」
表紙 > プログラミング > BOM プレフィックス付き UTF-8 ファイルを効率的に見つける方法: 洗練されたアプローチ

BOM プレフィックス付き UTF-8 ファイルを効率的に見つける方法: 洗練されたアプローチ

2024 年 11 月 14 日公開
ブラウズ:463

How to Efficiently Locate BOM-Prefixed UTF-8 Files: A Refined Approach

BOM プレフィックス付き UTF-8 ファイルを見つけるためのよりエレガントなアプローチ

デバッグ目的で、UTF-8 バイト オーダー マーク (BOM) で始まるファイルを識別しますディレクトリ内にあることが重要です。ただし、既存の方法は複雑になる可能性があり、改行を含むファイル名で問題が発生する可能性があります。この記事では、より合理化されたソリューションについて詳しく説明します。

元のコマンドから始めて、find を使用してディレクトリを再帰的に走査し、ファイルをフィルタリングし、それらの名前を while ループにパイプします。ループ内で、head は各ファイルの最初の 3 バイトを抽出し、それらを予期される BOM シーケンス ($'\xef\xbb\xbf') と比較します。この条件を満たすファイルが強調表示されます。

このアプローチの潜在的な欠点の 1 つは、ファイル名の改行に対する脆弱性です。この問題を回避するために、BOM プレフィックス付きファイルを見つけるだけでなく、それらを削除する代替コマンド

find . -type f -exec sed '1s/^\xEF\xBB\xBF//' -i {} \;

このコマンドは sed を利用して、各 BOM シーケンスの最初の行を空の文字列に置き換えます。一致するファイル。ただし、この操作により、これらの文字を含むバイナリ ファイルが変更されることに注意してください。

非破壊的なアプローチを求める場合は、次のコマンドをお勧めします:

grep -rl $'\xEF\xBB\xBF' .

このコマンドは grep を使用して、内容を変更せずに BOM シーケンスを含むファイルを検索してリストします。

最終的に、ソリューションの選択は、望ましい結果と性質によって異なります。検査されているファイルの数。

最新のチュートリアル もっと>

免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。

Copyright© 2022 湘ICP备2022001581号-3