1. ホーム
  2. python

[解決済み] PDFからテキストに変換するPythonモジュール【終了しました

2022-03-24 23:27:20

質問

PDFファイルをテキストに変換するpythonモジュールはありますか?私は試してみました コード一本 Activestateにpypdfを使用したものがありましたが、生成されたテキストにはスペースがなく、使い物になりませんでした。

解決方法は?

試す PDFMiner . PDFファイルからHTML、SGML、またはquot;Tagged PDF"形式でテキストを抽出することができます。

タグ付きPDFのフォーマットが一番きれいなようで、XMLタグを取り除くと、素のテキストだけになります。

Python3バージョンは以下で入手可能です。