Dai libri a Flickr: milioni di immagini liberamente accessibili on line
Circa 14 milioni di immagini contenute in 2 milioni di libri scannerizzati e custoditi presso l’Internet Archive sono state estratte dalle loro pagine e sono in via di caricamento sul database pubblico Flickr Commons. Questa operazione, particolarmente importante anche e soprattutto per il metodo che ha portato alla estrazione delle immagini, è frutto dell’encomiabile lavoro di un giovane ricercatore in forze alla Georgetown University. Kalev Leetaru il suo nome, e Yahoo, non a caso la società proprietaria del portale fotografico Flickr, la società che ha finanziato le attività di ricerca che, a detta di diversi esperti di archivistica e conservazione digitale, potrebbero rappresentare un salto quantico per ciò che concerne l’acquisizione e la gestione di grandi database di immagini contenuti in collezioni librarie.
Vero è che Leetaru ha potuto fare affidamento su ottime basi di partenza. L’Internet Archive ha infatti digitalizzato i libri che custodisce nei propri server con appositi software OCR, in grado di riconoscere il testo a partire dalle immagini scannerizzate, e quindi di renderli navigabili i documenti, una volta tradotti in digitale, servendosi di chiavi di ricerca testuali. Per velocizzare e rendere più efficace questo lavoro, questi software erano e sono tuttora addestrati nel riconoscimento dei disegni, delle foto e delle altre immagini contenute nelle pagine dei libri. In estrema sintesi, ogni volta che il software si imbatte in una figura è come se si trovasse in presenza di un’area “silente”, perché sprovvista di testo, e quindi non traducibile in parole digitali.
Ed è proprio per andare a caccia di queste “aree silenti” che è stato a sua volta progettato il nuovo software a cura di Leetaru. Laddove l’OCR non trova testo – è il succo del ragionamento che ne ha ispirato la progettazione – si è sicuramente in presenza di una immagine che può essere estrapolata, salvata in formato jpeg e pronta per essere caricata on line. Ma non finisce qui: grazie all’OCR infatti, ogni immagine può essere anche taggata con le parole chiave che compaiono nelle didascalia, oltre che con quelle relative al volume di provenienza, a sua volta consultabile sul sito dell’Internet Archive grazie ad un link diretto inserito in ogni scheda fotografica caricata su Flickr. Infine, sempre l’OCR permette di arricchire ulteriormente la scheda con le 500 parole che precedono l’immagine, e le 500 che la seguono, nella pagina del libro dalla quale viene estratta.
Non solo quindi si dispone di uno strumento che permette di ricavare in maniera estremamente agevole e veloce grandi quantità di immagini contenute in opere testuali, ma queste stesse immagini possono essere contestualizzate e classificate con una discreta precisione, rendendo così molto più facile il compito di chi vorrà consultarle per i più svariati scopi di ricerca e approfondimento. Una soluzione “molto brillante” – come ammesso alla BBC dall’archivista dell’Università di Cambridge Alison Pearn – per far fronte ad un compito notoriamente difficoltoso quale è quello di trovare immagini all’interno dei testi, e classificare grandi collezioni di figure. “Si tratta di un sistema intelligente sia per fornire immagini in grandi quantità sia per renderle ricercabili – sono state le sue parole a riguardo – ed è una gran cosa che esse siano anche a libera disposizione di chiunque interessato”.
2 dei 14 milioni di immagini estratte e classificate grazie all’intuizione di Leetaru sono infatti già disponibili su Flickr. La restante parte del “bottino” è a sua volta in via di progressivo caricamento, e andrà presto ad arricchire una sterminata collezione che corre dal 1500 fino primi decenni del secolo scorso, epoca in cui furono introdotte le prime forte di diritto d’autore e copyright. E si tratta comunque solo dell’inizio, perché l’Internet Archive continua a scannerizzare libri con il vorticoso ritmo di oltre 1.000 acquisizioni al giorno, e tutto il loro patrimonio iconografico sarà progressivamente e gradualmente aggiunto ai Commons.
D’ora in avanti, tutti potranno riutilizzare queste immagini per qualsiasi scopo o esigenza, fatta ferma la richiesta di diffonderle con la stessa licenza “no known copyright restrictions”, adottata per la loro pubblicazione su Flickr. E di riuso parla anche Leetaru, riferendosi al software sviluppato per il riconoscimento e l’estrazione delle immagini. “Ogni biblioteca potrebbe adottarlo per realizzare operazioni analoghe – ha dichiarato alla BBC – spero vivamente che ciò accada, affinché l’universo delle immagini ricavate dai libri digitalizzati possa espandersi costantemente”.