[解決済み】複数のpdfファイルの内容を検索する方法は?
2022-04-01 20:01:42
質問
ディレクトリ/サブディレクトリ内のPDFファイルの内容を検索するにはどうしたらよいでしょうか?私はいくつかのコマンドラインツールを探しています。それは、次のように思われます。
grep
はPDFファイルを検索することができません。
どうすればいいですか?
ディストリビューションには
pdftotext
:
find /path -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename --label="{}" --color "your pattern"' \;
pdftotextをファイルではなく標準出力に出力させるためには、"-"が必要です。
また
--with-filename
と
--label=
オプションは、grepの出力にファイル名を入れます。
オプションの
--color
フラグは、ターミナルの色を使用して出力するように grep に指示します。
(Ubuntuの場合。
pdftotext
は次のパッケージで提供されます
xpdf-utils
または
poppler-utils
.)
このメソッドでは
pdftotext
と
grep
に対して優位性があります。
pdfgrep
GNUの機能を使いたい場合
grep
その
pdfgrep
はサポートしていません。
備考
pdfgrep-1.3.x が対応しています。
-C
オプションで、コンテキストの行を表示することができます。
関連
-
[解決済み】リモートLinuxマシンでC++をコンパイルする - "clock skew detected "の警告が表示される
-
[解決済み] 共有メモリページとフォーク
-
[解決済み] sshpass: コマンドが見つからないエラー
-
[解決済み] sudo mv home/* *」というコマンドは何をするのですか?[クローズド]
-
[解決済み] Linuxで特定のテキストを含むすべてのファイルを検索するにはどうすればよいですか?
-
[解決済み] Vim 直前の検索ハイライトをクリアする
-
[解決済み] フォルダとそのサブフォルダ/ファイルのパーミッションを一括で変更する方法
-
[解決済み] find .コマンドでディレクトリを除外する方法
-
[解決済み] 特定のファイル/フォルダを除外してディレクトリをtarするシェルコマンド
-
[解決済み] grep --exclude/--include構文を使って特定のファイルをgrepしないようにする
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み】 readChar(con, 5L, useBytes = TRUE) のエラー : 接続を開くことができません。
-
[解決済み】makeでビルドした後の.dファイルとは?
-
[解決済み】Apacheサーバーがクラッシュし続ける。"caught SIGTERM, shutting down"
-
[解決済み] at&tアセンブリの「push」と「pushq」の違いは何ですか?
-
[解決済み] rm -rfを元に戻すには?[クローズド]
-
[解決済み] Linuxで.dllを使用することは可能です [重複].
-
[解決済み] LinuxでXcodeを動かせるか?
-
[解決済み] アセンブリの制約
-
[解決済み] sudo: must be setuid root" というメッセージが出るが、sudo は既に root が所有している [closed] 。
-
[解決済み] Grep ディレクトリ内のすべてのファイルを文字列1および文字列2で検索します。