America, 400 anni di documenti legali in open data
Presso l’Università statunitense di Harvard (Massachusetts), circa 6 milioni e mezzo di documenti ufficiali relativi a cause giudiziarie federali e statali, per un totale di oltre 40 milioni di pagine, sono stati digitalizzati e successivamente pubblicati in un database open data liberamente accessibile online. L’iniziativa, ribattezzata Caselaw Access Project, è stata realizzata dal Library Innovation Lab, struttura tecnologica attiva presso la biblioteca della facoltà di giurisprudenza del prestigioso ateneo statunitense (Law School Library): cinque gli anni necessari per completarla, al termine di uno sforzo tecnologico e logistico di particolare rilevanza.
Dalla testata Government Technology si apprende che tutte le operazioni sono avvenute presso la stessa Law School Library, dove erano custodite le migliaia di volumi oggetto di digitalizzazione: una vera e propria miniera di fonti giuridiche raccolte dal 1600 fino ai giorni nostri. Le pagine dei volumi sono state tagliate con un cutter idraulico, scansionate e quindi impacchettate sottovuoto, con una tecnologia normalmente usata nel settore della macellazione delle carni, prima di essere spedite presso una vecchia cava di pietra riadattata a struttura per la conservazione a lungo termine dei documenti. Una volta replicate in digitale, le pagine sono state infine elaborate da un software per il riconoscimento ottico dei caratteri, che ha permesso di tradurre le immagini in testi.
Sui futuri utilizzi dei dati, i promotori del progetto non pongono limiti. L’auspicio, dichiarano, è che tutti possano in qualche modo accedere a questo patrimonio di conoscenze, anche se ciò potrà significare “cose molto diverse a seconda delle varie tipologie di destinatari, che in alcuni casi al momento non siamo neanche in grado di immaginare”. Il riferimento è in particolare ai servizi tecnologici che soggetti specializzati nel campo dell’informazione giuridica potrebbero realizzare a partire dalla disponibilità dei dati, sviluppando nuove applicazioni a supporto e integrazione dell’API (application programming interface) ufficiale realizzata nell’ambito del progetto.
Quello che sembra essere certo, è che se finora il modello di business principale è stato e in alcuni casi continua ad essere la fornitura dell’accesso ai documenti legali previo pagamento, presto le cose potrebbero cambiare radicalmente. “Nell’era di Internet, fare profitti basandosi sulla scarsità delle informazioni non sembra essere più la strada maestra - spiega il direttore del Library Innovation Lab Adam Ziegler - il futuro consisterà piuttosto nello sviluppo di funzionalità di ricerca efficaci, competenze analitiche avanzate e applicazioni data based di particolare rilevanza”.