
Il processo di estrazione dei contenuti testuali consiste nella trasformazione dei file immagine in testo “vivo”, cioè in elementi informaticamente manipolabili come stringhe di caratteri.
Il processo è realizzato mediante l’applicazione delle tecnologie di OCR e di analisi della struttura della pagina, tecnologie ormai mature per la produzione di risultati importanti, anche su documenti “difficili” con problemi di conservazione o dalla scarsa qualità di stampa.
La finalità è quella di ottenere una base di dati, testuali e/o di elementi informativi semantici (come ad esempio il titolo, il corpo del testo, la didascalia, l'autore, ecc.), necessaria per l’implementazione dei sistemi di ricerca (full-text o su campi specifici).
La piattaforma DLS impiega processi e software allo stato dell’arte in grado di ottenere livelli di accuratezza elevati.