Mai più link rotti: l’Internet Archive “ripara” Wikipedia
Come ampiamente noto a chi si occupa di web archiving, il fenomeno dei link rotti, a causa dei quali i collegamenti ipertestuali a determinate risorse web smettono di funzionare, è uno dei principali limiti alla conservazione nel lungo periodo dei contenuti pubblicati sui media digitali. L’Internet Archive, da tempo particolarmente attivo nel contrasto a tale problema, ha annunciato di recente il ripristino di circa 9 milioni di link non più funzionanti sulle pagine di 22 versioni linguistiche di Wikipedia.
L’operazione è stata possibile grazie alla sistematica attività di archiviazione dei contenuti pubblicati sull’enciclopedia online. Da oltre 5 anni, sia in fase di prima pubblicazione, sia in occasione di ogni singola modifica, la quasi totalità delle URL create su circa 300 domini riconducibili a Wikipedia viene salvata e indicizzata sulla Wayback Machine, l’archivio digitale dell’Internet Archive. Negli ultimi 3 anni inoltre, un nuovo software chiamato IABot scandaglia sistematicamente 22 versioni linguistiche di Wikipedia, monitorando tutti i link contenuti in esse e individuando, tra le altre cose, quelli non più funzionanti.
Il ripristino automatico dei link rotti avviene grazie all’incrocio di queste due attività: quando lo IABot rileva un link non funzionante, ricostruisce il legame ipertestuale di partenza, reindirizzando il collegamento verso la copia del suo contenuto di destinazione originario, archiviata dalla Wayback Machine. Questo sistema di incrocio automatizzato ha finora permesso di riparare circa 6 milioni i link. I restanti 3 milioni sono stati a loro volta ripristinati “manualmente” da centinaia di membri della community di Wikipedia.
Un modo per capire se e quanto operazioni di questo tipo siano effettivamente utili, è misurare la frequenza con la quale i link esterni di Wikipedia indirizzino alle risorse salvate dall’Internet Archive. Di recente, nell’ambito di uno studio più ampio sul modo in cui gli utenti di Wikipedia utilizzano le citazioni e i link esterni, la Wikimedia Foundation ha effettuato un monitoraggio a riguardo. I primi risultati sembrano confermare l’assoluta efficacia di tali attività. La Wayback Machine è di gran lunga la destinazione esterna più ricorrente dalle pagine della galassia Wikipedia, con un rapporto di ben 3 link a 1 nei confronti della biblioteca digitale Google Books, seconda in questa particolare “classifica”. Citando un altro dato emerso dallo studio, dalla sola versione inglese di Wikipedia, ogni giorno circa 25.000 click indirizzano verso contenuti archiviati dalla Wayback Machine.
Annunciando iniziative e programmi per intensificare e migliorare questo tipo di attività, all’Internet Archive hanno anche stilato un elenco delle principali lezioni fin qui apprese. La prima è più che altro una conferma: al contrario di quello che ancora in troppi continuano a pensare, le risorse web sono fragili e tutt’altro che stabili. Nel 2013 ad esempio, uno studio aveva certificato che il 49% dei link contenuti nelle sentenze della Corte Suprema statunitense non era più funzionante. Un altro insegnamento fondamentale è che l’archiviazione dei contenuti web linkati da altre risorse deve essere effettuata con estrema tempestività, se possibile in tempo reale, di modo che nessun link abbia il tempo di “deteriorarsi”.
Il fenomeno dei link rotti, spiegano inoltre all’Internet Archive, è solo una parte del cosiddetto “content drift”, problema potenzialmente più ampio che può derivare da ogni singola modifica di un contenuto associato ad una URL. “Il problema è potenzialmente più ampio - si legge a riguardo - perché in questo caso sorgono rischi di affidabilità: anche in caso di link funzionanti, non c’è modo di sapere con certezza se il contenuto di destinazione sia effettivamente identico a quello originariamente previsto da chi aveva creato il collegamento”. L’ultima lesson learned, infine, e anche qui siamo nell’ambito delle conferme, è che l’unione fa la forza. Collaborando con lo staff della Wikimedia Foundation, i volontari di Wikpedia e altri esperti ed appassionati di web archiving, all’Internet Archive hanno potuto constatare che più si è e più si ottiene. Anche quando si tratta di rendere il web più affidabile e per questo autorevole e utile.