1. ホーム
  2. python

[解決済み] TesseractとOpenCVのどちらを選べばよいですか?[クローズド]

2023-01-29 07:43:18

質問

最近、私は テッセラクト OpenCV . Tesseractは本格的なOCRエンジンで、OpenCVはOCRアプリケーション/サービスを作成するためのフレームワークとして利用できるようです。

私はいくつかの画像でTesseractを使ってみましたが、その精度はまずまずのようです。その後、私は非常にシンプルな チュートリアル を見つけ、感銘を受けました。数分で、私はシステムのトレーニングを終え、その精度は良好でした。しかし、もちろん、このアプローチを取ることは、大規模なトレーニング セットを使用してシステムを広範囲にわたってトレーニングする必要があることを意味します。

私の具体的な質問は次のとおりです。

  • カスタム OCR アプリケーションを構築するために、Tesseract と OpenCV のどちらを選ぶべきでしょうか?
  • Tesseractには、様々な言語のトレーニングデータセットがあります。OpenCVには同様のものがあり、OCRを実現するためにゼロから始める必要はないのでしょうか?
  • 商用アプリケーションを考えているのですが、どちらが良いでしょうか?

何か提案はありますか?

どのように解決するのですか?

  • Tesseract は OCR エンジンです。画像からテキストを読み取り、基本的なドキュメントのセグメンテーションを行い、特定の画像入力 (単一の単語、行、段落、ページ、限られた辞書など) で操作するために使用、作業、そして Google によって特別な資金提供が行われています。

  • 一方、OpenCV はコンピュータビジョンのライブラリで、いくつかの特徴抽出とデータ分類を実行できる機能を含んでいます。基本的な OCR を実行する簡単な文字セグメンターと分類器を作成できますが、あまり優れた OCR エンジンではありません (以前 Python で一から作成したことがあります。学習データから逸脱した入力に対しては本当に不正確です)。

OCRがどれだけ難しいか、基本的なことを理解したいのであれば、OpenCVを試してみてください。Tesseractは OCRです。