[解決済み] テキストを抽出する OpenCV

2022-04-25 04:34:51

質問

私は画像内のテキストのバウンディングボックスを見つけようとしており、現在この方法を使用しています。

// calculate the local variances of the grayscale image
Mat t_mean, t_mean_2;
Mat grayF;
outImg_gray.convertTo(grayF, CV_32F);
int winSize = 35;
blur(grayF, t_mean, cv::Size(winSize,winSize));
blur(grayF.mul(grayF), t_mean_2, cv::Size(winSize,winSize));
Mat varMat = t_mean_2 - t_mean.mul(t_mean);
varMat.convertTo(varMat, CV_8U);

// threshold the high variance regions
Mat varMatRegions = varMat > 100;

このような画像が与えられた場合

を表示させると varMatRegions こんな画像が出ます。

ご覧のように、左側のテキストブロックとカードのヘッダーを多少結合しています。ほとんどのカードではこの方法はうまくいきますが、忙しいカードでは問題が発生する可能性があります。

これらの輪郭がつながるとまずい理由は、輪郭のバウンディングボックスがカード全体をほぼ占拠してしまうからです。

テキストを適切に検出するために、別の方法を提案できる方はいらっしゃいますか？

この2つのカードの上にあるテキストを見つけられた人には200ポイントを進呈します。

解決方法は？

近いエッジ要素を見つけることでテキストを検出することができます（LPDからヒントを得ました）。

#include "opencv2/opencv.hpp"

std::vector<cv::Rect> detectLetters(cv::Mat img)
{
    std::vector<cv::Rect> boundRect;
    cv::Mat img_gray, img_sobel, img_threshold, element;
    cvtColor(img, img_gray, CV_BGR2GRAY);
    cv::Sobel(img_gray, img_sobel, CV_8U, 1, 0, 3, 1, 0, cv::BORDER_DEFAULT);
    cv::threshold(img_sobel, img_threshold, 0, 255, CV_THRESH_OTSU+CV_THRESH_BINARY);
    element = getStructuringElement(cv::MORPH_RECT, cv::Size(17, 3) );
    cv::morphologyEx(img_threshold, img_threshold, CV_MOP_CLOSE, element); //Does the trick
    std::vector< std::vector< cv::Point> > contours;
    cv::findContours(img_threshold, contours, 0, 1); 
    std::vector<std::vector<cv::Point> > contours_poly( contours.size() );
    for( int i = 0; i < contours.size(); i++ )
        if (contours[i].size()>100)
        { 
            cv::approxPolyDP( cv::Mat(contours[i]), contours_poly[i], 3, true );
            cv::Rect appRect( boundingRect( cv::Mat(contours_poly[i]) ));
            if (appRect.width>appRect.height) 
                boundRect.push_back(appRect);
        }
    return boundRect;
}

使用方法

int main(int argc,char** argv)
{
    //Read
    cv::Mat img1=cv::imread("side_1.jpg");
    cv::Mat img2=cv::imread("side_2.jpg");
    //Detect
    std::vector<cv::Rect> letterBBoxes1=detectLetters(img1);
    std::vector<cv::Rect> letterBBoxes2=detectLetters(img2);
    //Display
    for(int i=0; i< letterBBoxes1.size(); i++)
        cv::rectangle(img1,letterBBoxes1[i],cv::Scalar(0,255,0),3,8,0);
    cv::imwrite( "imgOut1.jpg", img1);  
    for(int i=0; i< letterBBoxes2.size(); i++)
        cv::rectangle(img2,letterBBoxes2[i],cv::Scalar(0,255,0),3,8,0);
    cv::imwrite( "imgOut2.jpg", img2);  
    return 0;
}

結果

a. element = getStructuringElement(cv::MORPH_RECT, cv::Size(17, 3) );

b. element = getStructuringElement(cv::MORPH_RECT, cv::Size(30, 30) );

前述の他の画像でも同様の結果です。

[解決済み] テキストを抽出する OpenCV

質問

解決方法は？

関連

[解決済み】クラステンプレートの引数リストがない

[解決済み】デバッグアサーションに失敗しました。C++のベクトル添え字が範囲外

[解決済み] 既に.objで定義されている-二重包含はない

[解決済み] 式はクラス型を持つ必要があります。

[解決済み】ファイルから整数を読み込んで配列に格納する C++ 【クローズド

[解決済み】CMakeエラー at CMakeLists.txt:30 (project)。CMAKE_C_COMPILER が見つかりませんでした。

[解決済み】浮動小数点数の乱数生成

[解決済み] Linuxで特定のテキストを含むすべてのファイルを検索するにはどうすればよいですか？

[解決済み] MySQLです。大きなVARCHARとTEXTの比較？

[解決済み】画像処理。コカ・コーラ缶」認識のためのアルゴリズム改良

最新

nginxです。[emerg] 0.0.0.0:80 への bind() に失敗しました (98: アドレスは既に使用中です)

htmlページでギリシャ文字を使うには

ピュアhtml+cssでの要素読み込み効果

純粋なhtml + cssで五輪を実現するサンプルコード

ナビゲーションバー・ドロップダウンメニューのHTML+CSSサンプルコード

タイピング効果を実現するピュアhtml+css

htmlの選択ボックスのプレースホルダー作成に関する質問

html css3 伸縮しない画像表示効果

トップナビゲーションバーメニュー作成用HTML+CSS

html+css 実装サイバーパンク風ボタン

おすすめ

[解決済み] テスト

[解決済み] エラーが発生する。ISO C++は型を持たない宣言を禁じています。

[解決済み】C++ - 解放されるポインタが割り当てられていないエラー

[解決済み] error: 'ostream' does not name a type.

[解決済み】Cygwin Make bash コマンドが見つかりません。

[解決済み] error: 'if' の前に unqualified-id を期待した。

[解決済み】「corrupted size vs. prev_size」glibc エラーを理解する。

[解決済み】'cout'は型名ではない

[解決済み】指定範囲内の乱数で配列を埋める(C++)

[解決済み] 変数サイズのオブジェクトが初期化されないことがある c++