Hoewel het gemakkelijk is om een document op uw computer te nemen en een fysieke kopie te maken met een printer, is het over het algemeen moeilijker om de andere kant op te gaan. Hoewel er scanners bestaan en gescande documenten als afbeelding kunnen opslaan, is dit niet erg handig als u het document wilt bewerken. Om een document te kunnen bewerken, wilt u een technologie gebruiken die Optical Character Recognition of OCR wordt genoemd.
Hoe werkt optische tekenherkenning?
OCR gebruikt een reeks technieken om documenten nauwkeurig te lezen. OCR-software past het document aan, en mogelijk zelfs afzonderlijke woorden, zodat ze correct worden uitgelijnd. De afbeelding wordt omgezet in een puur zwart-witformaat, omdat dat gemakkelijker is dan onderscheid te maken tussen grijstinten. Er wordt ook een analyse uitgevoerd om niet-tekstuele items te identificeren en te verwijderen.
Er worden twee hoofdtypen OCR-algoritmen gebruikt, matrixmatching en feature-extractie. Matrix-matching neemt een afbeelding van een enkel teken en vergelijkt deze vervolgens pixel voor pixel met de door algoritmen geconfigureerde lettertypen. Deze techniek vereist dat het teken correct is geïsoleerd van alle andere inhoud en dat het lettertype wordt opgenomen in de OCR-software. Dit type OCR werkt ook niet voor het herkennen van handschrift.
Functie-extractie-algoritmen splitsen elk teken op in kenmerken, zoals lijnen, bochten en lijnkruisingen. Deze techniek vermindert aanzienlijk de afhankelijkheid van het algoritme dat wordt getraind met bekende lettertypen. Functie-extractie is in staat om nieuwe lettertypen te herkennen en ze te transcriberen, evenals wat handschrift, hoewel de nauwkeurigheid niet zo goed is als voor bekende lettertypen.
Sommige meer geavanceerde software gebruikt de context van de omringende letters om letters te identificeren die niet zo duidelijk zijn. Als bijvoorbeeld het woord "hond" wordt afgedrukt en het OCR-algoritme kan niet zeker weten of de "o" een "a" of een "o" is, kan het een woordenboek gebruiken om te zien of een combinatie van mogelijke tekens maakt een bekend woord. In dit geval zou het OCR-algoritme de mogelijkheid van de "a" buiten beschouwing laten, aangezien "dag" geen woord is, terwijl "hond" dat wel is.
Waar wordt OCR gebruikt?
Een van de belangrijkste toepassingen van OCR is in het postsysteem. OCR wordt gebruikt om automatisch het adres van brieven en pakketten te identificeren, een taak die het aanzienlijk sneller kan dan mensen zouden kunnen. In gevallen waarin het OCR-systeem het adres van het label niet kan lezen, wordt het in plaats daarvan door een mens handmatig verwerkt.
OCR is handig als toegankelijkheidstool voor mensen met een visuele beperking in combinatie met een tekst-naar-spraaktool. Google translate implementeert ook OCR als onderdeel van het proces van het vertalen van de tekst in afbeeldingen.