[解決済み] PDFファイルの構造を把握したままデータを抽出するには?
2022-03-07 05:53:20
質問
PDFファイルの構造を解析しながら、テキストと画像を抽出することが目的です。構造を解析する範囲は、網羅的ではなく、見出しと段落を識別できればよいのです。
いろいろと試してみたのですが、どれもあまりうまくいきませんでした。
- PDFをテキストに変換する。画像やドキュメントの構造が失われるため、私にはうまくいきません。
- PDFをHTMLに変換する。これを助けてくれるツールをいくつか見つけたのですが、今のところ一番いいのはpdftohtmlです。このツールはプレゼンテーション的にはとても良いのですが、HTMLをうまくパースできていません。
- PDFからXMLに変換する。上記と同じです。
どなたか、この問題に取り組む方法をご存じですか?
どのように解決するのですか?
PDFは構造にあまり興味がないため、基本的に簡単にカット&ペーストできる解決策はありません。このサイトには、もっと詳しく説明している回答がたくさんありますが、この回答が主なポイントになるでしょう。
PDF文書内のテキスト構造を識別するのがそれほど難しいのなら、PDFリーダーはどうしてそんなにうまくできるのですか?
PDF自体でこれを行う場合(このプロセスに対するコントロールの大部分を持つことになる)、ページ上のすべてのテキストをループして、そのテキストのプロパティ(使用されているフォント、ページ上の他のテキストに対するサイズなど)を見てヘッダーを識別しなければならないでしょう。
さらに、テキストの断片の位置、ページ上の空白、特定の文字、単語、行の近さなどを調べて段落を識別する必要があります...。PDF自体には、quot;word"はもちろん、quot;line"やquot;paragraphs"という概念すらないのですから。
さらに物事を複雑にするのは、テキストがページに描かれる方法(したがってPDFファイル自体に表示される順序)は、正しい読み順(あるいは私たち人間が考える正しい読み順)である必要さえないことです。
関連
-
[解決済み] OCSP レスポンスを一意にする
-
[解決済み] Latexに画像を含めるとエラーになる【非公開
-
[解決済み] PDFファイルの構造を把握したままデータを抽出するには?
-
[解決済み] PDFに埋め込まれたフォントを有効なフォントファイルとして取り出すにはどうしたらよいですか?
-
[解決済み] ImageMagickを使用してPDFをPNGに変換する
-
[解決済み] PDFファイルの適切なMIMEメディアタイプ
-
[解決済み] LaTeXでPDFファイルを挿入する
-
[解決済み】PDFを高解像度で画像に変換する。
-
[解決済み】PDFにアニメーションGIFを埋め込むことは可能ですか?[クローズド]
-
[解決済み] 有効なPDFの最小値は?
最新
-
nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)
-
htmlページでギリシャ文字を使うには
-
ピュアhtml+cssでの要素読み込み効果
-
純粋なhtml + cssで五輪を実現するサンプルコード
-
ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード
-
タイピング効果を実現するピュアhtml+css
-
htmlの選択ボックスのプレースホルダー作成に関する質問
-
html css3 伸縮しない 画像表示効果
-
トップナビゲーションバーメニュー作成用HTML+CSS
-
html+css 実装 サイバーパンク風ボタン
おすすめ
-
[解決済み] OCSP レスポンスを一意にする
-
[解決済み] Latexに画像を含めるとエラーになる【非公開
-
[解決済み] PDFファイルの構造を把握したままデータを抽出するには?
-
[解決済み] PDFに埋め込まれたフォントを有効なフォントファイルとして取り出すにはどうしたらよいですか?
-
[解決済み] ImageMagickを使用してPDFをPNGに変換する
-
[解決済み] PDFの`UserUnit`プロパティは誰が使うのですか?
-
[解決済み] PDFファイルの適切なMIMEメディアタイプ
-
[解決済み] LaTeXでPDFファイルを挿入する
-
[解決済み】PDFを高解像度で画像に変換する。
-
[解決済み】PDFにアニメーションGIFを埋め込むことは可能ですか?[クローズド]