L'Archivio Internet
Gli antichi manoscritti della Biblioteca di Alessandria furono incendiati, gran parte dei primi prodotti della stampa non si salvarono e molti dei primi film furono riciclati per il loro contenuto d’argento.
Mentre il World Wide Web di Internet non ha precedenti nel diffondere la voce popolare di milioni di persone che prima non sarebbe mai stata resa pubblica, nessuno provvedeva a conservare questi documenti e immagini…L’Internet Archive è un’organizzazione che sta raccogliendo i materiali ad accesso pubblico presenti su Internet per costruire una biblioteca digitale….
Con queste parole, Brewster Kahle, studente modello del MIT (Massachussets Istitute of Technology), annunciava, nel 1997, dalle pagine della rivista “Scientific American”, l’avvio del suo “visionario” progetto: l’Internet Archive, ovvero la versione tecnologica dell’intramontabile mito della biblioteca universale.
D’altronde, con l’esplosione di Internet e il rapidissimo sviluppo del Web, era prevedibile che l’antica aspirazione ad immagazzinare, in qualche luogo e in qualche modo, l’intero scibile umano, si riaffacciasse in forma di progetti dove tecnica ed utopia si ricombinassero tra loro con prospettive nuove.
E quello di Brewster Kahle è sembrato subito avere il dono della migliore alchimia riproponendo gli echi provenienti dalla “Biblioteca di Babele” di borgesiana memoria ma con le potenzialità delle nuove tecnologie della comunicazione, dando l’eccitante impressione di poter ottenere il corrispettivo digitale di quel luogo illimitato comprendente tutti i libri scritti e quelli ancora da scrivere….
Ma,
con un concreto obiettivo: contrastare la naturale evanescenza del Web archiviandone
l’intero contenuto per conservare la testimonianza di Internet come
fenomeno storico complessivo a beneficio dei contemporanei e soprattutto
delle generazioni future.
Nel frattempo, il lavoro iniziato nel 1996 va avanti spedito con la cattura
del maggior numero possibile di siti senza alcun criterio selettivo e prescindendo
dai contenuti più o meno effimeri. Unica condizione: che facciano
parte dell’area Web ad accesso libero.
Dal punto di vista tecnico, per affrontare una sfida del genere sfida, l’Internet Archive, ha dispiegato un piccolo ma agguerrito schieramento hardware e software che ha al suo centro dei software-robot installati su circa 140 computer, chiamati “crawler Internet”, in grado di “strisciare Internet”, ovvero di passarla al setaccio 24 ore su 24.
Le pagine web così catturate sono poi duplicate ed immediatamente riversate su nastri magnetici che una volta pieni vengono prelevati e sostituiti con nuove cartucce da un sistema automatizzato di bracci meccanici.
I
dati memorizzati sono poi conservati in dozzine di server paralleli collocati
intenzionalmente lungo degli scaffali per ricreare, con questo semplice
accorgimento, all’interno della sede dell’Internet Archive,
un’atmosfera che ricordi l’ambiente della biblioteca.
Dal 1996 ad oggi è stata già archiviata una mole di dati corrispondente
all’incirca a 10 miliardi di pagine per un totale di 150 terabyte.
Inoltre, sono stati anche realizzati alcuni immagazzinamenti tematici: 200 milioni di pagine sulle ultime elezioni USA, 16 milioni di messaggi scambiati dai navigatori della rete Usenet, 5 mila pagine sulla storia della rete Arpanet, la gloriosa antenata di Internet.
E poi, come collezione speciale, 500 milioni di pagine dedicate all’11 settembre 2001 “September 11 web archive”, provenienti da circa 30 mila siti “strisciati” dall’11 al 1 dicembre 2001.
Una tale massa d’informazioni, man mano che si veniva formando, non poteva non porre, e anche in maniera pressante, il problema dell’accesso.
La
questione è stata risolta efficacemente nell’ottobre del 2001
con la messa online della “wayback
machine”, un motore di ricerca disponibile sul sito dell’Internet
Archive che consente di richiamare da remoto le pagine web archiviate utilizzando
sia la loro URL che la data di memorizzazione, e in più fa scoprire
il fascino di visitare siti che non esistono più o che sono ormai
radicalmente mutati, ribaltando anche in questo modo la logica effimera
del Web.
Ci sono però delle nubi che si stanno addensando sul miracolo fin
qui compiuto dall’Internet Archive, nubi che hanno il minaccioso profilo
della privacy e del copyright.
E se rispetto alla questione privacy, Kahle ha sempre affermato che il materiale raccolto è di dominio pubblico, che esistono dei programmi capaci di impedire il lavoro dei crawler e per di più ogni webmaster può far richiesta alla società di eliminare in qualsiasi momento i propri file dall’archivio, resta comunque la violazione del “Digital Millennium Copyright Act” (la legge statunitense sul diritto d’autore).
Per essere in regola l’Internet Archive dovrebbe corrispondere i diritti per ciascun documento copiato. Lo stesso Copyright Office si è reso conto delle immani difficoltà oggettive del caso, e ha così concesso a Kahle una deroga alla legge, ma soltanto fino al 2006…
Pubblicato su Tuttoscienze (La Stampa) il 20 ottobre 2004Cultura Digitale 2003 - ultimo aggiornamento: 5.03.2007
|
|
|||||||
|
|
|
|||||||
|
|
||||||||