Il riconoscimento ottico dei caratteri (OCR) si riferisce al software che crea una versione digitale di un documento stampato, digitato o scritto a mano che i computer possono leggere senza la necessità di digitare o inserire manualmente il testo.
L’OCR viene generalmente utilizzato su documenti scansionati in formato PDF , ma può anche creare una versione leggibile dal computer del testo all’interno di un file immagine.
Che cos’è l’OCR
L’OCR, noto anche come riconoscimento del testo, è una tecnologia software che trasforma caratteri come numeri, lettere e punteggiatura (chiamati anche glifi) da documenti stampati o scritti in un formato elettronico più facilmente riconoscibile e leggibile da computer e altri programmi software. Alcuni programmi OCR lo fanno quando un documento viene scansionato o fotografato con una fotocamera digitale e altri possono applicare questo processo a documenti che sono stati precedentemente scansionati o fotografati senza OCR. L’OCR consente agli utenti di eseguire ricerche all’interno di documenti PDF, modificare il testo e riformattare i documenti.
A cosa serve l’OCR?
Per le esigenze di scansione rapida e quotidiana, l’OCR potrebbe non essere un grosso problema. Se si esegue una grande quantità di scansioni, essere in grado di cercare all’interno dei PDF per trovare quello esatto di cui si ha bisogno può far risparmiare un po’ di tempo e rendere più importante la funzionalità OCR nel programma dello scanner. Ecco alcune altre cose con cui l’OCR aiuta:
- Elaborazione e inserimento dati automatizzati ( Esempio : sistemi di monitoraggio dei candidati per i curricula).
- Rendere ricercabili i libri scansionati.
- Conversione di scansioni scritte a mano in testo leggibile da computer.
- Rendere i documenti più utilizzabili dai programmi di lettura che assistono gli utenti ipovedenti.
- Preservare documenti storici e giornali, rendendoli anche ricercabili.
- Estrazione dati e trasferimento a programmi di contabilità (Esempio: Ricevute e fatture).
- Indicizzazione dei documenti per l’utilizzo da parte dei motori di ricerca .
- Riconoscimento delle targhe del conducente da parte di un software di autovelox e telecamera a semaforo rosso.
- Sintetizzatori vocali per persone che non possono parlare: il fisico teorico, Stephen Hawking, è forse l’utente più noto di un programma di sintesi vocale.
Perché usare l’OCR?
Perché non fare semplicemente una foto, giusto? Perché non saresti in grado di modificare nulla o cercare il testo perché sarebbe solo un’immagine. La scansione del documento e l’esecuzione del software OCR possono trasformare quel file in qualcosa che puoi modificare ed essere in grado di cercare.
Storia dell’OCR
Mentre il primissimo utilizzo del riconoscimento del testo risale al 1914, lo sviluppo e l’uso diffuso delle tecnologie relative all’OCR sono iniziati sul serio negli anni ’50, in particolare con la creazione di caratteri molto semplificati che erano più facili da convertire in testo leggibile digitalmente. Il primo di questi caratteri semplificati è stato creato da David Shepard e comunemente noto come OCR-7B. OCR-7B è ancora in uso oggi nel settore finanziario per il carattere standard utilizzato su carte di credito e carte di debito. Negli anni ’60, i servizi postali in diversi paesi hanno iniziato a utilizzare la tecnologia OCR per accelerare notevolmente lo smistamento della posta, inclusi Stati Uniti, Gran Bretagna, Canada e Germania. L’OCR è ancora la tecnologia di base utilizzata per smistare la posta per i servizi postali in tutto il mondo. Nel 2000, la conoscenza chiave dei limiti e delle capacità della tecnologia OCR è stata utilizzata per sviluppare il Programmi CAPTCHA utilizzati per bloccare bot e spammer.
Nel corso dei decenni, l’OCR è diventato più accurato e sofisticato grazie ai progressi nelle aree tecnologiche correlate come l’intelligenza artificiale , l’apprendimento automatico e la visione artificiale . Oggi, il software OCR utilizza il riconoscimento di modelli, il rilevamento delle funzionalità e l’estrazione di testo per trasformare i documenti in modo più rapido e accurato che mai.