[解決済み] pdfからページをjpegとして抽出する

2022-06-18 19:12:52

質問

Python コードで、pdf の特定のページを jpeg ファイルとして効率的に保存する方法を教えてください。(使用例。私はpythonのflaskのWebサーバーを持っていて、pdfがアップロードされ、各ページに対応するjpegが保存されます)。

このソリューションは近いですが、問題はページ全体をJPEGに変換していないことです。

どのように解決するのですか？

pdf2image ライブラリを使用することができます。

を使って簡単にインストールすることができます。

pip install pdf2image

インストールが完了したら、以下のコードで画像を取得することができます。

from pdf2image import convert_from_path
pages = convert_from_path('pdf_file', 500)

JPEG形式でのページ保存

for page in pages:
    page.save('out.jpg', 'JPEG')

編集：Githubのレポ pdf2image を使用していることにも言及しています。 pdftoppm を使用していること、他のインストールが必要であることにも触れています。

pdftoppm は、実際のマジックを行うソフトウェアの一部です。という大きなパッケージの一部として配布されています。ポプラ . Windows ユーザは Windows版ポプラ . Mac ユーザーは、以下のものをインストールしてください。 Mac版ポプラ . Linux ユーザーは pdftoppm がディストロにプレインストールされています (Ubuntu と Archlinux でテスト済み)。 sudo apt install poppler-utils .

することで、Windowsでanacondaを使って最新版をインストールすることができます。

conda install -c conda-forge poppler

note: 0.67 までの Windows 版は、以下のサイトで入手可能です。 http://blog.alivate.com.au/poppler-windows/ にありますが、0.68 はは2018年8月にリリースされたであるため、最新の機能やバグフィックスを得ることはできません。

[解決済み] pdfからページをjpegとして抽出する

質問

どのように解決するのですか？

関連

[解決済み】numpyの配列連結。"ValueError:すべての入力配列は同じ次元数でなければならない"

[解決済み】Pythonでgoogle APIのJSONコードを読み込むとエラーになる件

[解決済み】Python - "ValueError: not enough values to unpack (expected 2, got 1)" の修正方法 [閉店].

[解決済み] 列の値に基づいてDataFrameから行を選択するにはどうすればよいですか？

[解決済み] Pythonの辞書からキーを削除するにはどうしたらいいですか？

[解決済み] PDFファイルの適切なMIMEメディアタイプ

[解決済み] HTMLにPDFを埋め込むおすすめの方法とは？

[解決済み] os/path 形式に関係なく、パスからファイル名を抽出します。

[解決済み] Pythonでタイムゾーンを意識したdatetimeオブジェクトを作るには？

[解決済み】iPhone/iPad/iOS用の高速で無駄のないPDFビューア - ヒントとヒント？

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

PicgoのイメージベッドツールをPythonで実装する

Python機械学習Githubが8.9Kstarsに達したモデルインタープリタLIME

パッケージングツールPyinstallerの使用と落とし穴の回避

Pythonの@decoratorsについてまとめてみました。

PythonでECDSAを実装する方法知っていますか？

[解決済み】TypeError: unhashable type: 'numpy.ndarray'.

[解決済み】ImportError: sklearn.cross_validation という名前のモジュールがない。

[解決済み】socket.error: [Errno 48] アドレスはすでに使用中です。

[解決済み】TypeError: 系列を <class 'float'> に変換することができません。

[解決済み】「SyntaxError.Syntax」は何ですか？Missing parentheses in call to 'print'」はPythonでどういう意味ですか？