Paperplane - Logo Opendoc

Soluzioni: Opendoc DLS

Estrazione contenuti testuali

Il processo di estrazione dei contenuti testuali consiste nella trasformazione dei file immagine in testo “vivo”, cioè in elementi informaticamente manipolabili come stringhe di caratteri.

Il processo è realizzato mediante l’applicazione delle tecnologie di OCR e di analisi della struttura della pagina, tecnologie ormai mature per la produzione di risultati importanti, anche su documenti “difficili” con problemi di conservazione o dalla scarsa qualità di stampa.

La finalità è quella di ottenere una base di dati, testuali e/o di elementi informativi semantici (come ad esempio il titolo, il corpo del testo, la didascalia, l'autore, ecc.), necessaria per l’implementazione dei sistemi di ricerca (full-text o su campi specifici).

La piattaforma DLS impiega processi e software allo stato dell’arte in grado di ottenere livelli di accuratezza elevati.

intro|1|2|3|4|5|6|continua >