Fultonhistory.com, un archivio digitale amatoriale da 22 milioni di pagine
Come la più classica delle storie americane, quella raccontata da Reason.com si nutre delle “gesta” di un self-made man di successo. Il protagonista è Tom Tryniski, cittadino di Fulton, nello Stato di New York, che dopo avere scannerizzato e pubblicato su web alcune vecchie cartoline della propria città, ci prende gusto e va avanti, aggiungendo all’archivio Fultonhistory.com prima tutte le copie dell’Oswego Valley News, il quotidiano locale stampato dal 1946, e a seguire quelle di decine di altre testate pubblicate nei quattro angoli del proprio Stato, e quindi dell’intera nazione. Tutto questo con 3.500 dollari di investimento iniziale per l’acquisto di uno scanner automatico per microfilm salvato da un incendio, altre spese modiche per un software di riconoscimento automatico delle parole chiave e un server casalingo, e costi fissi di connessione e storage che ammontano a circa 800 dollari al mese. I microfilm dei quotidiani da scannerizzare Tryniski li riceve invece gratuitamente da piccole biblioteche e società storiche, che si vedono restituire in cambio le pagine digitalizzate e analizzabili per parole chiave. Un modello assolutamente efficace e vincente, che dal 2003 a oggi ha permesso di archiviare e rendere accessibili gratuitamente on line 22 milioni di pagine, e continua tuttora a crescere al ritmo strabiliante di 250.000 pagine al mese.
Numeri da capogiro, soprattutto se paragonati a quelli dei maggiori progetti per la digitalizzazione di quotidiani e testate promossi dalle istituzioni culturali degli Stati Uniti. Certo, l’archivio Newspaperarchive.com conta 130 milioni di pagine e il database Newspapers.com, realizzato dalla stessa società, ne annovera altri 34 milioni. Ma si tratta di portali accessibili a pagamento, che avevano provato a stringere accordi anche con Tryniski, senza riuscirci proprio a causa di questo dettaglio. Se però restiamo nel campo del no profit, si scopre che l’archivio Chronicling America, realizzato dalla Library of Congress, di pagine on line ne ha per ora 5 milioni, e ognuna di esse, precisa Reason.com, è finora costata ai contribuenti statunitensi circa 3 dollari. E anche in termini di accessi sembrerebbe non esserci partita: nel solo gennaio infatti, Fultonhistory.com ha catturato qualcosa come più di 6 milioni di visitatori unici, mentre l’archivio della Library of Congress non è arrivato a quota 3 milioni. Addirittura più impietoso appare poi il confronto con la Brooklyn Public Library, che ha speso 400.000 dollari, e impiegato 2 anni dal 2003 al 2005, per pubblicare on line i primi 62 anni di vita del quotidiano Brooklyn Daily Eagle, arrivando a scannerizzare circa 150.000 pagine prima di fermarsi per mancanza di fondi. Tryniski, nel frattempo, ha inserito nel proprio archivio tutti i 115 anni di storia della testata, per un totale di 750.000 pagine scannerizzate.
Tutto lascia insomma presagire che si tratti della classica storia del Davide che sconfigge il Golia governativo, storia molto americana appunto. Ma la lettura completa dell’articolo svela altri particolari che riequilibrano almeno in parte il verdetto, e nel farlo forniscono indicazioni molto interessanti per chi si occupa di conservazione digitale a livello professionale. Pur mantenendo tutti i crismi di un progetto esemplare, quello di Tryniski resta infatti un ottimo lavoro amatoriale, e come tale non è esente da qualche difetto. Amatoriale e bizzarra al 100% è ad esempio l’interfaccia che accoglie il visitatore quando accede al suo archivio, con tanto di animazioni di pesci in movimento e, sporadicamente, la diretta streaming del criceti di casa Tryniski che si nutrono di pannocchie. E se è vero che lo stesso interessato spiega che migliorare la grafica del sito significherebbe sacrificare tempo utile per scannerizzare altri quotidiani, è evidente anche ad una occhiata fugace che il suo prodotto non prenderebbe i massimi voti ad un esame di usabilità. Ma a prescindere dai dettagli estetici, lo scarto maggiore tra il suo progetto e quelli dei competitori pubblici va ricercato nel modo in cui i vengono trattati i contenuti pubblicati on line. L’articolo di Reason.com precisa ad esempio che l’archivio della Brooklyn Public Library restituisce molti errori in meno sul versante del riconoscimento delle parole chiave, e aggiunge che la ricerca dei contenuti è decisamente più agevole rispetto all’archivio di Tryniski.
E per quanto riguarda il database della Library of Congress, se è vero che ogni singola pagina caricata on line costa 3 dollari ai contribuenti, lo è anche che parte di questi costi copre la fornitura di borse di studio e altre spese di formazione nei confronti di piccole librerie locali, che contribuiscono alla scannerizzazione dei quotidiani e, facendolo, apprendono a farlo anche per analoghi, futuri progetti di digitalizzazione, nel rispetto degli standard “hi-tech” garantiti da questa autorevolissima istituzione. Come se non bastasse inoltre, le restanti spese, qualcosa in più di 2 dollari a pagina, sono destinate alle attività di classificazione, creazione dei metadati, revisione, controllo della qualità e interpretazione dei titoli che permettono di caricare on line materiali e contenuti nel pieno rispetto delle più avanzate ed efficaci regole di conservazione digitale. Esistono insomma sicuramente sprechi, e i costi potrebbero e dovrebbero essere razionalizzati, magari disperdendoli meno per garantire maggiori economie di scala. Ma il risultato finale, come ammettono diversi esperti chiamati in causa nell’articolo, è decisamente più professionale, e alla fine ad esempio, per scopi e finalità educative, il modello della Library of Congress e della Brooklyn Public Library sembra essere preferibile a quello amatoriale firmato Tryniski.
Che poi, nonostante questo, la sua rimanga una storia davvero fantastica ed eccezionale, lo testimoniano le trattative in corso, anche se al momento in stallo, per donare il suo archivio alla New York State Library. E ancora di più, le centinaia di e-mail di ringraziamento che continua a ricevere quotidianamente dai visitatori del suo sito.