Chociaż łatwo jest zabrać dokument na komputer i uzyskać fizyczną kopię za pomocą drukarki, ogólnie trudniej jest przejść w drugą stronę. Chociaż skanery istnieją i mogą zapisywać zeskanowane dokumenty jako obraz, nie jest to szczególnie przydatne, jeśli chcesz edytować dokument. Aby móc edytować dokument, chcesz skorzystać z technologii zwanej optycznym rozpoznawaniem znaków lub OCR.
Jak działa optyczne rozpoznawanie znaków?
OCR wykorzystuje szereg technik do dokładnego odczytywania dokumentów. Oprogramowanie OCR dopasowuje dokument, a potencjalnie nawet pojedyncze słowa, tak aby były odpowiednio wyrównane. Obraz jest konwertowany do czystego czarno-białego formatu, ponieważ jest to łatwiejsze niż rozróżnianie odcieni szarości. Przeprowadzana jest również analiza w celu zidentyfikowania i usunięcia wszelkich elementów nietekstowych.
Stosowane są dwa główne typy algorytmów OCR: dopasowanie macierzy i ekstrakcja cech. Dopasowanie matrycy pobiera obraz pojedynczego znaku, a następnie porównuje go z czcionkami skonfigurowanymi przez algorytmy piksel po pikselu. Ta technika wymaga prawidłowego odizolowania znaku od wszelkiej innej zawartości oraz włączenia czcionki do oprogramowania OCR. Ten typ OCR nie działa również w przypadku rozpoznawania pisma ręcznego.
Algorytmy wyodrębniania cech dzielą każdy znak na cechy, takie jak linie, krzywe i przecięcia linii. Ta technika znacznie zmniejsza zależność od algorytmu uczonego przy użyciu znanych czcionek. Ekstrakcja funkcji jest w stanie rozpoznać nowe czcionki i przepisać je, a także niektóre pismo ręczne, chociaż dokładność nie jest tak dobra, jak w przypadku znanych czcionek.
Niektóre bardziej zaawansowane oprogramowanie wykorzystuje kontekst otaczających liter, aby pomóc w identyfikacji liter, które nie są tak wyraźne. Na przykład, jeśli drukowane jest słowo „pies”, a algorytm OCR nie może stwierdzić na pewno, czy „o” to „a” czy „o”, może użyć słownika, aby sprawdzić, czy jakakolwiek kombinacja potencjalnych znaków tworzy znane słowo. W tym przypadku algorytm OCR zdyskontowałby możliwość wystąpienia „a”, ponieważ „dag” nie jest słowem, a „pies” tak.
Gdzie jest używany OCR?
Jednym z głównych zastosowań OCR jest system pocztowy. OCR służy do automatycznej identyfikacji adresu listów i paczek, co może wykonać znacznie szybciej niż ludzie. W przypadkach, gdy system OCR nie jest w stanie odczytać adresu etykiety, zostanie on oddzielony, aby człowiek mógł go przetworzyć ręcznie.
OCR jest przydatny jako narzędzie ułatwień dostępu dla osób z wadami wzroku w połączeniu z narzędziem zamiany tekstu na mowę. Google translate wdraża również OCR w ramach procesu tłumaczenia tekstu w obrazach.