Dal documento ai dati: la scomparsa del record bibliografico nel web

informaizoni_bibliograficheTutto ha inizio con Tim Berners Lee. È il 2001, quando l’inventore del Web scrive: “Le macchine diventeranno capaci di analizzare tutti i dati sul Web, il contenuto, i link e le transazioni tra persone e computer. La “Rete Semantica” che dovrebbe renderlo possibile deve ancora nascere, ma quando l’avremo i meccanismi quotidiani di commercio, burocrazia e vita saranno gestiti da macchine che parleranno a macchine, lasciando che gli uomini pensino soltanto a fornire l’ispirazione e l’intuito”.

È la visione di quello che oggi chiamiamo Web Semantico. A 16 di distanza, il web si sta via via trasformando in un ambiente dove i documenti pubblicati (pagine HTML, file, immagini, e così via) possono essere associati a informazioni e dati (metadati) che ne specificano il contesto semantico in un formato adatto all’interrogazione e l’interpretazione (es. tramite motori di ricerca) e, più in generale, all’elaborazione automatica.

Le biblioteche, dal canto loro, malgrado le ricorrenti rivoluzioni tecnologiche, hanno continuato a fare quello che hanno sempre fatto: favorire l’incontro tra informazioni e lettori. E l’hanno fatto, mettendo a punto sistemi informativi basati sull’indicizzazione dei documenti: i cataloghi. Tuttavia, a un certo punto, nella loro storia, si è ri-presentato il momento di ripensare ai processi catalografici in modalità automatizzata. Il nuovo inizio è in ambito anglosassone: si tratta di rendere più efficiente archiviazione e reperimento delle informazioni nelle università statunitensi.

Il nuovo approccio – siamo nel 1945 – è teorizzato da Vannevar Bush, che in un mondo ancora completamente analogico, progetta una sorta di computer  ante litteram capace non solo di archiviare meccanicamente i testi ma anche di collegarli tra loro anticipando anche l’ipertestualità: il Memex (Memory Expansion).

Il progetto Memex, anche se solo teorico, rappresenta un momento importante nello sforzo di immaginare nuove soluzioni per organizzare quantità sempre maggiori di informazioni. Anche perché, da quel punto in poi, comincerà a imporsi – grazie alla nascente rivoluzione informatica – l’idea di performance tecnologica come valore assoluto.  E soprattutto nell’ambito dei sistemi basati sulle tecnologie della comunicazione, la variabile “velocità d’accesso” diverrà via via in un certo senso equivalente  (se non addirittura prevalente) rispetto  ai significati delle informazioni veicolate, al punto da far addirittura affermare – sull’onda della prima rivoluzione informatica- al fisico americano Lewis M. Branscomb: “i documenti sono ormai solo sottoprodotti occasionali dell’accesso all’informazione e non la sua principale incarnazione”.

In pratica, dal progetto Memex in poi, la rivoluzione tecnologia ha avuto un abbrivio  esponenziale. Nel giro di qualche decennio, la società è mutata prima in “società dell’informazione” poi nel “pervasivo ecosistema digitale” nel quale attualmente siamo tutti immersi. Le biblioteche,  parte tradizionalmente importante del sistema d’accesso alla conoscenza, hanno assistito (per lo più passivamente) a un iper-potenziamento della performance tecnologica indotta da internet e poi dal web: connettività, velocità, ipertestualità, social media, web semantico ecc. Una rivoluzione tutta velocità e big e data sempre più lontana dalla forma-libro e dalla forma-documento, pilastri del vecchio sapere analogico strutturato.

Ma prima delle più recenti rivoluzioni, le biblioteche avevano già aperto all’informatica per quel che riguarda le procedure di catalogazione. La vecchia scheda cartacea, negli anni ’60 dello scorso secolo,  aveva cominciato la sua trasformazione in record bibliografico mediante il formato di conversione MARC: è stato il primo passo per le biblioteche verso la transizione dalla carta al bit. La descrizione bibliografica ha iniziato il suo processo di smaterializzazione, rimanendo però compatta e strutturata per quel che riguarda le informazioni veicolate: documento bibliografico e non ancora dati bibliografici. In pratica, continua a essere la versione elettronica della vecchia descrizione su scheda cartacea.

  È  con gli inizi del XXI secolo che il muro – nel frattempo alzatosi – tra biblioteche e il sapere globalizzato e immateriale della Rete, comincia a vacillare. Il bibliotecario statunitense – Roy Tennant – suscita scalpore con il suo artico “MARC must die”, nel quale invita il mondo delle biblioteche ha superare i vecchi standard che costringono i dati bibliografici in un mondo a parte. La prima cosa da fare – secondo Tennant – è abbandonare il vecchio MARC, e poi subito dopo lavorare  a nuovi standard che consentano ai cataloghi delle biblioteche di aprirsi alle tecnologie del web.

Mentre i bibliotecari lavorano a nuovi standard, le tecnologie del web però corrono. Viaggiano verso il web semantico. Le nuove tecnologie si chiamano: linked data e RDF (Resource Description Framework). È la ricerca della massima granularità:  ridurre tutta l’informazione del web in dati interoperabili e soprattutto processabili in maniera automatica dai computer connessi nella rete globale. Nello stesso tempo, la vecchia informazione analogica va convertita, frantumata e sminuzzata per essere anch’essa ridotta in dati.  Per le biblioteche tutto questo significa: destrutturazione del documento, destrutturazione del record bibliografico.

Si tratta per le biblioteche di cominciare ad attuare una sorta di “rivoluzione copernicana” nella concezione del record bibliografico, ovvero spostare il focus dall’oggetto al contenuto della risorsa catalogata. Andare, insomma, oltre la materialità dei documenti, oltre il supporto fisico, verso l’immaterialità del web. La chiave è il passaggio dalle descrizioni alle relazioni, o meglio: l’abbandono del modello basato su descrizioni e intestazioni che hanno dato forma ai dati bibliografici nell’epoca del libro a stampa,  e il passaggio al nuovo modello (proveniente dai database relazionali) entità – relazioni per il quale l’informazione è frazionata appunto in entità e poi definita dalle relazioni tra queste entità.

La prima realizzazione di questa “rivoluzione copernicana” è FRBR (Functional Requirements for Bibliographic Records): lo schema sviluppato, a partire dai primi anni del XX secolo, dall’IFLA (International Federation of Library Associations). Il modello entità – relazioni è rivisto, all’interno di FRBR,  in chiave bibliografica. Le entità assumono il valore di cose specifiche d’interesse per l’utente (opera, espressione, manifestazione, item,  persona, ente ecc.), mentre le relazioni tra queste entità consentono all’utente – tramite  ricerca –  di individuare i collegamenti tra le entità e quindi “navigare” tra i dati bibliografici.

Ma, per realizzare la funzione “navigare”,  i dati che rappresentano gli attributi delle entità devono essere connessi tra loro in un reticolo, e per rendere questa navigazione davvero efficace, esaustiva e soddisfacente per utenti sempre più tentati – nelle loro ricerche – dalla modalità “Google” , il reticolo dei dati bibliografici dovrebbe espandersi oltre il catalogo tradizionale ed essere in qualche modo parte del più vasto mondo del web.

Per questo, il ripensamento sul catalogo deve andare oltre la biblioteca. In questo senso, il modello FRBR può essere considerato già superato, in quanto basato su un’analisi ancora molto legata al mondo delle biblioteche. Si tratta, infatti, di non pensare più in termini di “dati prodotti dalle biblioteche” ma di “dati prodotti in generale delle istituzioni della memoria”.

Una riflessione importante che si concretizza –  a partire dal 2010 – nello sviluppo di un nuovo standard: RDA (Resource Description and Access).  Con RDA si compie un ulteriore salto concettuale e tecnologico verso la decostruzione (definitiva) del record bibliografico. Per raggiungere l’obiettivo di integrare il mondo delle istituzioni della memoria (biblioteche, musei e archivi) con quello del web, RDA è implementato come standard di contenuto: separazione netta e definitiva dal supporto. Infatti, fornisce solo istruzioni su come descrivere e registrare i dati individuati, ma non si occupa né della presentazione né della visualizzazione. Insomma, RDA può essere indifferentemente utilizzato a prescindere dai formati utilizzati.

Nel trattamento delle risorse, RDA riprende le entità individuate da FRBR: opera, espressione, manifestazione e item. Entità che poi sono rappresentate da un insieme di dati che corrispondono agli attributi delle identità stesse. La navigazione tra le entità descritte da RDA abbatte – finalmente – quel famoso muro che separa le biblioteche dal web. Grazie alla compatibilità di RDA con la nuova tecnologia linked data, la navigazione tra entità può procedere oltre e integrarsi nel web dei dati  avanzando verso la ricerca globale.

Come ha dichiarato Gordon Dunsire – responsabile del comitato per lo sviluppo di RDA“il lavoro da svolgere di qui in avanti per far crescere RDA e seguirlo nella sua evoluzione, consiste da una parte collaborare alla costruzione degli strumenti necessari, primi fra tutti vocabolari e ontologie, dall’altra nella conversione dei record che si trovano nei cataloghi delle biblioteche, archivi e musei in formati compatibili con RDA, che rappresenta la porta di accesso al web semantico”.

Questa voce è stata pubblicata in biblioteca digitale, big data, Formati, FRBR, futuro del libro, linked data, RDA, RDF, società dell'informazione, Standard, storia delle biblioteche, tecnologie digitali, web semantico e contrassegnata con , , , , , , , . Contrassegna il permalink.