Aktualności

Zwycięzca bierze (i binaryzuje) wszystko … - międzynarodowy sukces zespołu z Katedry Przetwarzania Sygnałów i Inżynierii Multimedialnej WE ZUT 02.06.2022 15:32

W dniach 22-25 maja 2022 r. w portowym francuskim mieście La Rochelle odbyła się 15. edycja konferencji DAS (15th IAPR International Workshop on Document Analysis Systems). Podczas obrad przedstawiono m.in. podsumowanie ewaluacji metod binaryzacji obrazów biorących udział w kilku ostatnich konkursach zorganizowanych podczas wiodących konferencji z zakresu wizyjnej analizy dokumentów.

Binaryzacja, czyli konwersja obrazu do postaci binarnej, zawierającej wyłącznie informacje dotyczące kształtu znaków, jest zwykle wykonywana w pierwszym etapie rozpoznawania tekstu (OCR) przez proste metody „wbudowane” w ten system, co często powoduje błędy w rozpoznawaniu poszczególnych liter i cyfr. Prawidłowa binaryzacja zdjęcia dokumentu, warunkująca poprawność rozpoznawania tekstu, powinna być wykonywana niezależnie, przed uruchomieniem procedury OCR.

Wśród 61 metod, porównywanych pod kątem czasu przetwarzania oraz wyników rozpoznawania tekstu uzyskiwanych dla fotografii dokumentów tekstowych, znalazły się 4 propozycje zgłoszone przez naszych naukowców. Ich autorami są mgr inż. Hubert Michalak, realizujący doktorat z zakresu przetwarzania wstępnego obrazów w Katedrze Przetwarzania Sygnałów i Inżynierii Multimedialnej Wydziału Elektrycznego ZUT, oraz jego promotor dr hab. inż. Krzysztof Okarma, prof. ZUT.

Zgodnie z metodologią przyjętą przez autorów opracowania, dwie metody zaproponowane przez nasz zespół uzyskały zdecydowanie najlepsze wyniki dla wszystkich urządzeń w każdej z trzech kategorii: „best for printing”, „best for OCR” oraz „global winner”. Metody te są znacznie szybsze od pozostałych, co umożliwia ich efektywną implementację, w szczególności w urządzeniach mobilnych. Dzięki ich zastosowaniu uzyskać można dokładniejsze rozpoznawanie znaków nie tylko na zdjęciach dokumentów wykonanych za pomocą telefonów komórkowych, ale także np. dla znaków wytłoczonych na tabliczkach znamionowych różnych urządzeń. Jak zauważyli autorzy publikacji przedstawionej na konferencji DAS, obrazy uzyskane za pomocą smartfonów są znacznie trudniejsze do binaryzacji niż dokumenty skanowane, m.in. ze względu na ich nierównomierne oświetlenie, czy obecność cieni.

Badania skuteczności metod binaryzacji przeprowadzono dla zdjęć dokumentów, uzyskiwanych za pomocą czterech urządzeń (Motorola G9 Plus, iPhone SE 2, Samsung A10S, Samsung S20), stanowiących część bazy IAPR DIB.

Ze szczegółowymi wynikami można się zapoznać w publikacji pt. The Winner Takes It all: Choosing the "best" Binarization Algorithm for Photographed Documents - dostęp Open Access po przejściu przez stronę konferencji DAS jest aktywny do połowy czerwca 2022 r.

 Gratulujemy sukcesu!