1. ホーム
  2. python

[解決済み] pdfからページをjpegとして抽出する

2022-06-18 19:12:52

質問

Python コードで、pdf の特定のページを jpeg ファイルとして効率的に保存する方法を教えてください。(使用例。私はpythonのflaskのWebサーバーを持っていて、pdfがアップロードされ、各ページに対応するjpegが保存されます)。

このソリューション は近いですが、問題はページ全体をJPEGに変換していないことです。

どのように解決するのですか?

pdf2image ライブラリを使用することができます。

を使って簡単にインストールすることができます。

pip install pdf2image

インストールが完了したら、以下のコードで画像を取得することができます。

from pdf2image import convert_from_path
pages = convert_from_path('pdf_file', 500)

JPEG形式でのページ保存

for page in pages:
    page.save('out.jpg', 'JPEG')


編集:Githubのレポ pdf2image を使用していることにも言及しています。 pdftoppm を使用していること、他のインストールが必要であることにも触れています。

pdftoppm は、実際のマジックを行うソフトウェアの一部です。という大きなパッケージの一部として配布されています。 ポプラ . Windows ユーザは Windows版ポプラ . Mac ユーザーは、以下のものをインストールしてください。 Mac版ポプラ . Linux ユーザーは pdftoppm がディストロにプレインストールされています (Ubuntu と Archlinux でテスト済み)。 sudo apt install poppler-utils .

することで、Windowsでanacondaを使って最新版をインストールすることができます。

conda install -c conda-forge poppler

note: 0.67 までの Windows 版は、以下のサイトで入手可能です。 http://blog.alivate.com.au/poppler-windows/ にありますが、0.68 は は2018年8月にリリースされた であるため、最新の機能やバグフィックスを得ることはできません。