1. ホーム
  2. java

Javaを使用してPDFファイルを読み込むには?[クローズド]

2023-08-29 11:51:34

質問

Javaを使ってPDFファイルからテキストデータを読み込みたい。どうすればいいでしょうか?

どのように解決するのですか?

PDFBox は、この目的のために私が見つけた最高のライブラリです。これは包括的で、基本的なテキスト抽出を行うだけなら本当に簡単に使うことができます。以下に例を示します。 はこちらです。 .

ページで説明していますが、気をつけなければならないのは、setStartPage()とsetEndPage()を使うときの開始インデックスと終了インデックスが の両方が を含むことです。私は最初のラウンドでその説明をスキップして、それから、各コールで複数のページが返される理由を理解するのに時間がかかりました!

テキスト も C# で動作する別の選択肢ですが、私は個人的には使ったことがありません。これは PDFBox よりも低レベルなので、基本的なテキスト抽出だけが必要な場合はあまり適していません。