\ NUOVE TECNOLOGIE WEB

Web archiving e ruolo della BNCF

In un precedente articolo “Conservare il futuro”, occupandomi delle iniziative di web archiving intraprese da diverse biblioteche nazionali per conservare i rispettivi spazi web, avevo messo in evidenza l’assenza, nell’elenco, dell’Italia.

Infatti, nonostante l’approvazione della nuova legge sul deposito legale (L.106/2004) in base alla quale le risorse elettroniche, ed in particolare i siti web, divenivano - per la prima volta - oggetto di deposito presso le biblioteche centrali, il web archiving nostrano si bloccava sul nascere causa una serie di perplessità di carattere amministrativo ed organizzativo intorno ai modi e ai tempi della sua attuazione.

Tuttavia, proprio all’indomani dell’entrata in vigore della legge, faceva la sua comparsa, all’interno del sito della Biblioteca Nazionale Centrale di Firenze, un comunicato dal titolo “Archiviazione dei siti web”, nel quale si poteva leggere: “…la legge prevede che venga emanato entro sei mesi un regolamento di applicazione, ma si può anticipare che le biblioteche nazionali stanno cooperando a livello internazionale e che concordemente indicano nell’harvesting la modalità più efficiente e sostenibile di deposito.”

E questo perché, la BNCF, precorrendo il legislatore, aveva già da un po’ iniziato a muoversi in quella direzione allacciando rapporti a livello internazionale con l’intenzione di approfondire le conoscenze su questo tipo di tecnologia.

In particolar modo nell’ambito dell’ IIPC, un consorzio la cui missione è “acquisire, preservare e rendere accessibile la conoscenza e l’informazione disponibile in Internet per le future generazioni”e che coordinato dalla Bibliotheque nationale de France e costituito da un gruppo di importanti biblioteche,  può soprattutto contare sull’apporto dell’Internet Archive,  associazione non profit americana ideata da Brewster Kahle per l’archiviazione dell’intero Web che dal “lontano” 1996 ad oggi ha messo ha segno un risultato davvero straordinario: ben 55 miliardi di pagine web catturate. 

“Performance” resa appunto possibile dall’harvesting automatico, cioè da quel sistema d’acquisizione basato su particolari software chiamati “crawler”che instancabilmente setacciano la Rete raccogliendo pagine web sotto forma d’istantanee dette “snapshots”. 

Mettendo a frutto le esperienze fin qui maturate, nel maggio scorso, la BNF è passata all’azione: con un breve comunicato indirizzato ai webmaster ha annunciato l’avvio di una prima sperimentazione, vale a dire di una prova di raccolta, affidata all’Internet Archive, per il dominio “.it”.

Nel frattempo, Giovanni Bergamin, responsabile dei servizi informatici dell’Istituto fiorentino,  rilasciava a  “Punto Informatico”, quotidiano di Internet,  alcune interessanti precisazioni.

Anzitutto, che l’operazione andava intesa come “primo assaggio” visto che lo spazio web italiano comprende – nella sua interezza – ovviamente numerosi domini non “.it”.

E poi, che si trattava di un’iniziativa - con riferimento alle attività previste dal Consorzio IIPC - fondamentalmente tesa “a sviluppare nuove conoscenze e metodologie per mettere a punto tecnologie in sintonia con le esigenze della Rete nonché a stimolare forme di cooperazione e coordinamento tra istituti e biblioteche con l’obiettivo di ottenere modelli di harvesting il più possibile condivisi”. 

Ed infine, che il tutto andava altresì inteso come un’estensione delle regole sul deposito legale, tenendo però ben presente il carattere esplorativo dell’iniziativa dovuto, nella circostanza, all’attesa approvazione del regolamento applicativo per la L.106.

Eseguita, come da programma, nei mesi di maggio e giugno la raccolta dei siti web “.it”, con la metà di agosto sembrava giunto a conclusione anche  il sospirato  iter normativo del deposito legale delle risorse elettroniche con la pubblicazione del regolamento applicativo.

Sennonché la lettura dell’atto smorzava subito i facili entusiasmi rivelandosi per niente incoraggiante riguardo l’harvesting. Tanto per cominciare, nel primo comma dell’articolo 37 si rinviava “la definizione delle modalità di deposito dei documenti diffusi tramite rete informatica”a successivo regolamento!

E così l’attesa conclusione dell’iter burocratico si configurava ancora una volta come un “al là da venire”. Ma soprattutto, alla modalità automatica di raccolta, era riservato, nel comma 2, soltanto un limitato cenno: …gli accordi definiscono le modalità tecniche di deposito prevedendo, ove possibile, anche forme automatiche di raccolta, secondo le migliori pratiche e conoscenze internazionali del settore”.

Tutto qui. Un po’ poco per chi si aspettava un diverso riconoscimento normativo per una tecnologia, sempre più incentivata a livello internazionale,  perché tra le poche in grado di offrire garanzie contro il rischio perdita di un patrimonio informativo  imprescindibile: la  “memoria del Web”.

Tuttavia, nell’attesa che, con successivo regolamento, la modalità di deposito dei documenti digitali trovi - finalmente – una sistemazione definitiva, un importante risultato è stato nel frattempo ottenuto: la conclusione del primo esperimento di  harvesting  sul web italiano.

Giovanni Bergamin, che dal 2003 segue per conto della BNCF il Consorzio internazionale di biblioteche per la conservazione di Internet e che si è occupato dell’iniziativa di raccolta del dominio “.it”,   ci ha gentilmente messo a disposizione i primissimi dati disponibili.

Il lavoro si è  svolto in un intervallo di quattro settimane, durante le quali l’Internet Archive ha setacciato, impiegando il crawler open source Heritix, il dominio “.it”, ottenendo i seguenti riscontri: più di 2 milioni di host visitati, circa 2 miliardi e mezzo di documenti analizzati, per un totale di informazioni processate pari a 7,22 terabyte, vale a dire più di 7 mila miliardi di byte.

Insomma, una porzione web catturata dalle dimensioni non indifferenti che, per dare un’idea, sono quasi equivalenti a quelle della più grande biblioteca del mondo: la Biblioteca del Congresso degli Stati Uniti, che secondo le stime possiede un patrimonio di  circa 10 terabyte di informazione.  

Certo, quelli sopra elencati sono, per il momento, soltanto dati grezzi: lo “scarno” profilo numerico dell’operazione. Profusione di byte senza contenuti.  Tuttavia, esprimono, per la prima volta, una parziale istantanea della forma web italiana.

Sicuramente, un primo passo fondamentale per la BNCF verso l’assunzione, al pari delle altre biblioteche nazionali di importanti paesi, del ruolo di garante  del “nostro” futuro da conservare.

Pubblicato su Biblioteche oggi n.2 2007


- Cultura Digitale 2003 -

 
CULTURA DIGITALE