1. ホーム
  2. linux

[解決済み】複数のpdfファイルの内容を検索する方法は?

2022-04-01 20:01:42

質問

ディレクトリ/サブディレクトリ内のPDFファイルの内容を検索するにはどうしたらよいでしょうか?私はいくつかのコマンドラインツールを探しています。それは、次のように思われます。 grep はPDFファイルを検索することができません。

どうすればいいですか?

ディストリビューションには pdftotext :

find /path -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename --label="{}" --color "your pattern"' \;

pdftotextをファイルではなく標準出力に出力させるためには、"-"が必要です。 また --with-filename--label= オプションは、grepの出力にファイル名を入れます。 オプションの --color フラグは、ターミナルの色を使用して出力するように grep に指示します。

(Ubuntuの場合。 pdftotext は次のパッケージで提供されます xpdf-utils または poppler-utils .)

このメソッドでは pdftotextgrep に対して優位性があります。 pdfgrep GNUの機能を使いたい場合 grep その pdfgrep はサポートしていません。 備考 pdfgrep-1.3.x が対応しています。 -C オプションで、コンテキストの行を表示することができます。