[解決済み] PDFからテキストに変換するPythonモジュール【終了しました

2022-03-24 23:27:20

質問

PDFファイルをテキストに変換するpythonモジュールはありますか？私は試してみましたコード一本 Activestateにpypdfを使用したものがありましたが、生成されたテキストにはスペースがなく、使い物になりませんでした。

試す PDFMiner . PDFファイルからHTML、SGML、またはquot;Tagged PDF"形式でテキストを抽出することができます。

タグ付きPDFのフォーマットが一番きれいなようで、XMLタグを取り除くと、素のテキストだけになります。

Python3バージョンは以下で入手可能です。