[解決済み] pdfからページをjpegとして抽出する
質問
Python コードで、pdf の特定のページを jpeg ファイルとして効率的に保存する方法を教えてください。(使用例。私はpythonのflaskのWebサーバーを持っていて、pdfがアップロードされ、各ページに対応するjpegが保存されます)。
このソリューション は近いですが、問題はページ全体をJPEGに変換していないことです。
どのように解決するのですか?
pdf2image ライブラリを使用することができます。
を使って簡単にインストールすることができます。
pip install pdf2image
インストールが完了したら、以下のコードで画像を取得することができます。
from pdf2image import convert_from_path
pages = convert_from_path('pdf_file', 500)
JPEG形式でのページ保存
for page in pages:
page.save('out.jpg', 'JPEG')
編集:Githubのレポ
pdf2image
を使用していることにも言及しています。
pdftoppm
を使用していること、他のインストールが必要であることにも触れています。
pdftoppm は、実際のマジックを行うソフトウェアの一部です。という大きなパッケージの一部として配布されています。 ポプラ . Windows ユーザは Windows版ポプラ . Mac ユーザーは、以下のものをインストールしてください。 Mac版ポプラ . Linux ユーザーは pdftoppm がディストロにプレインストールされています (Ubuntu と Archlinux でテスト済み)。
sudo apt install poppler-utils
.
することで、Windowsでanacondaを使って最新版をインストールすることができます。
conda install -c conda-forge poppler
note: 0.67 までの Windows 版は、以下のサイトで入手可能です。 http://blog.alivate.com.au/poppler-windows/ にありますが、0.68 は は2018年8月にリリースされた であるため、最新の機能やバグフィックスを得ることはできません。
関連
-
[解決済み】numpyの配列連結。"ValueError:すべての入力配列は同じ次元数でなければならない"
-
[解決済み】Pythonでgoogle APIのJSONコードを読み込むとエラーになる件
-
[解決済み】Python - "ValueError: not enough values to unpack (expected 2, got 1)" の修正方法 [閉店].
-
[解決済み] 列の値に基づいてDataFrameから行を選択するにはどうすればよいですか?
-
[解決済み] Pythonの辞書からキーを削除するにはどうしたらいいですか?
-
[解決済み] PDFファイルの適切なMIMEメディアタイプ
-
[解決済み] HTMLにPDFを埋め込むおすすめの方法とは?
-
[解決済み] os/path 形式に関係なく、パスからファイル名を抽出します。
-
[解決済み] Pythonでタイムゾーンを意識したdatetimeオブジェクトを作るには?
-
[解決済み】iPhone/iPad/iOS用の高速で無駄のないPDFビューア - ヒントとヒント?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
PicgoのイメージベッドツールをPythonで実装する
-
Python機械学習Githubが8.9Kstarsに達したモデルインタープリタLIME
-
パッケージングツールPyinstallerの使用と落とし穴の回避
-
Pythonの@decoratorsについてまとめてみました。
-
PythonでECDSAを実装する方法 知っていますか?
-
[解決済み】TypeError: unhashable type: 'numpy.ndarray'.
-
[解決済み】ImportError: sklearn.cross_validation という名前のモジュールがない。
-
[解決済み】socket.error: [Errno 48] アドレスはすでに使用中です。
-
[解決済み】TypeError: 系列を <class 'float'> に変換することができません。
-
[解決済み】「SyntaxError.Syntax」は何ですか?Missing parentheses in call to 'print'」はPythonでどういう意味ですか?