1. ホーム
  2. ruby

[解決済み] Ruby で PDF 文書を解析する

2022-02-19 11:09:49

質問

あるフォルダに、ある構造を持つ複数のPDF文書があります。

今度は、PDFから情報を解析できるようにしたいと思います。段落の長さがバラバラなことに注意してください。

もちろん、問題を解決してくれとは言いませんが、どうすれば実現できるのか、いくつかのポイントが必要です。

以前nokogiriを使用したことがあり、技術的にはそのようなものが必要ですが、PDFのためです。

つまり、私の例の擬似的な結果は、次のようになります。

- ItemA
  - Title: ItemA
  - File: 123456789.pdf
  - Image: ImageA.png (the image was stored on disk)
  - Subtitle1: Content for subtitle 1
  - Subtitle2: Content for subtitle 2
  - Subtitle3: Content for subtitle 3
- TitleB
  - [...]

解決方法は?

pdf-reader は解決策の一つです。しかし、それは時々それが適切な形式でテキストを与えることができない問題があります。私はそれを使用しています。

を使用することをお勧めします。 ドックスプリット . pdf-reader」と「docsplit」については、以下のページで詳しく説明しています。 このブログの記事 .

お役に立てれば幸いです。何か説明が必要な場合は、遠慮なくコメントください。