Dal documento ai dati: la scomparsa del record bibliografico nel web

informaizoni_bibliograficheTutto ha inizio con Tim Berners Lee. È il 2001, quando l’inventore del Web scrive: “Le macchine diventeranno capaci di analizzare tutti i dati sul Web, il contenuto, i link e le transazioni tra persone e computer. La “Rete Semantica” che dovrebbe renderlo possibile deve ancora nascere, ma quando l’avremo i meccanismi quotidiani di commercio, burocrazia e vita saranno gestiti da macchine che parleranno a macchine, lasciando che gli uomini pensino soltanto a fornire l’ispirazione e l’intuito”.

È la visione di quello che oggi chiamiamo Web Semantico. A 16 di distanza, il web si sta via via trasformando in un ambiente dove i documenti pubblicati (pagine HTML, file, immagini, e così via) possono essere associati a informazioni e dati (metadati) che ne specificano il contesto semantico in un formato adatto all’interrogazione e l’interpretazione (es. tramite motori di ricerca) e, più in generale, all’elaborazione automatica.

Le biblioteche, dal canto loro, malgrado le ricorrenti rivoluzioni tecnologiche, hanno continuato a fare quello che hanno sempre fatto: favorire l’incontro tra informazioni e lettori. E l’hanno fatto, mettendo a punto sistemi informativi basati sull’indicizzazione dei documenti: i cataloghi. Tuttavia, a un certo punto, nella loro storia, si è ri-presentato il momento di ripensare ai processi catalografici in modalità automatizzata. Il nuovo inizio è in ambito anglosassone: si tratta di rendere più efficiente archiviazione e reperimento delle informazioni nelle università statunitensi.

Il nuovo approccio – siamo nel 1945 – è teorizzato da Vannevar Bush, che in un mondo ancora completamente analogico, progetta una sorta di computer  ante litteram capace non solo di archiviare meccanicamente i testi ma anche di collegarli tra loro anticipando anche l’ipertestualità: il Memex (Memory Expansion).

Il progetto Memex, anche se solo teorico, rappresenta un momento importante nello sforzo di immaginare nuove soluzioni per organizzare quantità sempre maggiori di informazioni. Anche perché, da quel punto in poi, comincerà a imporsi – grazie alla nascente rivoluzione informatica – l’idea di performance tecnologica come valore assoluto.  E soprattutto nell’ambito dei sistemi basati sulle tecnologie della comunicazione, la variabile “velocità d’accesso” diverrà via via in un certo senso equivalente  (se non addirittura prevalente) rispetto  ai significati delle informazioni veicolate, al punto da far addirittura affermare – sull’onda della prima rivoluzione informatica- al fisico americano Lewis M. Branscomb: “i documenti sono ormai solo sottoprodotti occasionali dell’accesso all’informazione e non la sua principale incarnazione”.

In pratica, dal progetto Memex in poi, la rivoluzione tecnologia ha avuto un abbrivio  esponenziale. Nel giro di qualche decennio, la società è mutata prima in “società dell’informazione” poi nel “pervasivo ecosistema digitale” nel quale attualmente siamo tutti immersi. Le biblioteche,  parte tradizionalmente importante del sistema d’accesso alla conoscenza, hanno assistito (per lo più passivamente) a un iper-potenziamento della performance tecnologica indotta da internet e poi dal web: connettività, velocità, ipertestualità, social media, web semantico ecc. Una rivoluzione tutta velocità e big e data sempre più lontana dalla forma-libro e dalla forma-documento, pilastri del vecchio sapere analogico strutturato.

Ma prima delle più recenti rivoluzioni, le biblioteche avevano già aperto all’informatica per quel che riguarda le procedure di catalogazione. La vecchia scheda cartacea, negli anni ’60 dello scorso secolo,  aveva cominciato la sua trasformazione in record bibliografico mediante il formato di conversione MARC: è stato il primo passo per le biblioteche verso la transizione dalla carta al bit. La descrizione bibliografica ha iniziato il suo processo di smaterializzazione, rimanendo però compatta e strutturata per quel che riguarda le informazioni veicolate: documento bibliografico e non ancora dati bibliografici. In pratica, continua a essere la versione elettronica della vecchia descrizione su scheda cartacea.

  È  con gli inizi del XXI secolo che il muro – nel frattempo alzatosi – tra biblioteche e il sapere globalizzato e immateriale della Rete, comincia a vacillare. Il bibliotecario statunitense – Roy Tennant – suscita scalpore con il suo artico “MARC must die”, nel quale invita il mondo delle biblioteche ha superare i vecchi standard che costringono i dati bibliografici in un mondo a parte. La prima cosa da fare – secondo Tennant – è abbandonare il vecchio MARC, e poi subito dopo lavorare  a nuovi standard che consentano ai cataloghi delle biblioteche di aprirsi alle tecnologie del web.

Mentre i bibliotecari lavorano a nuovi standard, le tecnologie del web però corrono. Viaggiano verso il web semantico. Le nuove tecnologie si chiamano: linked data e RDF (Resource Description Framework). È la ricerca della massima granularità:  ridurre tutta l’informazione del web in dati interoperabili e soprattutto processabili in maniera automatica dai computer connessi nella rete globale. Nello stesso tempo, la vecchia informazione analogica va convertita, frantumata e sminuzzata per essere anch’essa ridotta in dati.  Per le biblioteche tutto questo significa: destrutturazione del documento, destrutturazione del record bibliografico.

Si tratta per le biblioteche di cominciare ad attuare una sorta di “rivoluzione copernicana” nella concezione del record bibliografico, ovvero spostare il focus dall’oggetto al contenuto della risorsa catalogata. Andare, insomma, oltre la materialità dei documenti, oltre il supporto fisico, verso l’immaterialità del web. La chiave è il passaggio dalle descrizioni alle relazioni, o meglio: l’abbandono del modello basato su descrizioni e intestazioni che hanno dato forma ai dati bibliografici nell’epoca del libro a stampa,  e il passaggio al nuovo modello (proveniente dai database relazionali) entità – relazioni per il quale l’informazione è frazionata appunto in entità e poi definita dalle relazioni tra queste entità.

La prima realizzazione di questa “rivoluzione copernicana” è FRBR (Functional Requirements for Bibliographic Records): lo schema sviluppato, a partire dai primi anni del XX secolo, dall’IFLA (International Federation of Library Associations). Il modello entità – relazioni è rivisto, all’interno di FRBR,  in chiave bibliografica. Le entità assumono il valore di cose specifiche d’interesse per l’utente (opera, espressione, manifestazione, item,  persona, ente ecc.), mentre le relazioni tra queste entità consentono all’utente – tramite  ricerca –  di individuare i collegamenti tra le entità e quindi “navigare” tra i dati bibliografici.

Ma, per realizzare la funzione “navigare”,  i dati che rappresentano gli attributi delle entità devono essere connessi tra loro in un reticolo, e per rendere questa navigazione davvero efficace, esaustiva e soddisfacente per utenti sempre più tentati – nelle loro ricerche – dalla modalità “Google” , il reticolo dei dati bibliografici dovrebbe espandersi oltre il catalogo tradizionale ed essere in qualche modo parte del più vasto mondo del web.

Per questo, il ripensamento sul catalogo deve andare oltre la biblioteca. In questo senso, il modello FRBR può essere considerato già superato, in quanto basato su un’analisi ancora molto legata al mondo delle biblioteche. Si tratta, infatti, di non pensare più in termini di “dati prodotti dalle biblioteche” ma di “dati prodotti in generale delle istituzioni della memoria”.

Una riflessione importante che si concretizza –  a partire dal 2010 – nello sviluppo di un nuovo standard: RDA (Resource Description and Access).  Con RDA si compie un ulteriore salto concettuale e tecnologico verso la decostruzione (definitiva) del record bibliografico. Per raggiungere l’obiettivo di integrare il mondo delle istituzioni della memoria (biblioteche, musei e archivi) con quello del web, RDA è implementato come standard di contenuto: separazione netta e definitiva dal supporto. Infatti, fornisce solo istruzioni su come descrivere e registrare i dati individuati, ma non si occupa né della presentazione né della visualizzazione. Insomma, RDA può essere indifferentemente utilizzato a prescindere dai formati utilizzati.

Nel trattamento delle risorse, RDA riprende le entità individuate da FRBR: opera, espressione, manifestazione e item. Entità che poi sono rappresentate da un insieme di dati che corrispondono agli attributi delle identità stesse. La navigazione tra le entità descritte da RDA abbatte – finalmente – quel famoso muro che separa le biblioteche dal web. Grazie alla compatibilità di RDA con la nuova tecnologia linked data, la navigazione tra entità può procedere oltre e integrarsi nel web dei dati  avanzando verso la ricerca globale.

Come ha dichiarato Gordon Dunsire – responsabile del comitato per lo sviluppo di RDA“il lavoro da svolgere di qui in avanti per far crescere RDA e seguirlo nella sua evoluzione, consiste da una parte collaborare alla costruzione degli strumenti necessari, primi fra tutti vocabolari e ontologie, dall’altra nella conversione dei record che si trovano nei cataloghi delle biblioteche, archivi e musei in formati compatibili con RDA, che rappresenta la porta di accesso al web semantico”.

Pubblicato in biblioteca digitale, big data, Formati, FRBR, futuro del libro, linked data, RDA, RDF, società dell'informazione, Standard, storia delle biblioteche, tecnologie digitali, web semantico | Contrassegnato , , , , , , , | Lascia un commento

Una bussola per i Big Data: la Biblioteca

Sharper-2017-300x150BIBLIOTECHE E BIG DATA C’è una bussola per il mare magnum dei Big Data: la Biblioteca. Alla scoperta della biblioteca come piattaforma professionale di supporto nel trattamento di grandi quantità di dati: una istituzione pubblica come luogo di accesso dei dati (big) Open. Con Fabio Di Giammarco, bibliotecario presso la Biblioteca Statale di Storia moderna e contemporanea di Roma. Biblioteca San Matteo degli Armeni, Perugia Ore 17.30

 

Pubblicato in Senza categoria | Lascia un commento

soBig Data: le tracce digitali che lasciamo dietro di noi

PrintIl CNR di Pisa, guida il primo progetto pubblico su Big Data e Social Mining: soBig Data. Finanziato con 6 milioni di euro nell’ambito del programma Horizon 2020 Infraia 2014-2015, ha una durata di 4 anni e – oltre al CNR – mette insieme altre eccellenze italiane: l’Università di Pisa, l’Imt di Lucca e la Scuola Normale superiore.

L’obiettivo di soBig Data è mettere a punto un ecosistema integrato di dati, strumenti e competenze, tali da rendere possibile grandi esperimenti di social mining su varie dimensioni della vita sociale e sulle attività umane memorizzate nei Big Data (dati da social media, da smartphone, da open data, da linked data, etc.).

Inoltre, punta sullo sviluppo di una comunità interdisciplinare di data scientist, con la possibilità di creare nuove opportunità di ricerca e innovazione nelle scienze umane, sociali, economiche e Ict. Il tutto supportato dall’implementazione di una piattaforma per una scienza “aperta” e “riusabile”.

soBig Data si articola in tre componenti fondamentali: un ecosistema per la cura e l’accesso ai Big Data nell’ambito di una cornice etica che tiene conto della privacy; una piattaforma aperta anche rispetto alle strategie per condividere e preservare i risultati degli esperimenti; una rete di alta formazione in social mining, finalizzata a creare la nuova generazione di data scientist.

I Big data non sono altro – ha spiegato Fosca Giannotti coordinatrice del progetto – che  tracce digitali lasciate dietro di noi quando utilizziamo le tecnologie, e che fanno ormai parte integrante della nostra vita, raccontando di noi e della nostra vita. E’ da qui che nasce l’idea di soBig Data: un’infrastruttura di ricerca per mettere a disposizione strumentazione e competenze e permettere a scienziati e ricercato di realizzare nuovi esperimenti sociali.

Pubblicato in big data, big data curation, linked data, privacy, tecnologie digitali, text and data mining | Contrassegnato , | Lascia un commento

Tecnologia IIIF: un aiuto per la ricostruzione virtuale dei manoscritti frammentati e dispersi

Salterio_diurno_del_XVII_secoloOtto F. Ege, famigerato book breaker del secolo scorso, soleva difendere il suo iper-attivismo di  “tagliatore di manoscritti”, affermando: “forse permettere a mille persone di avere e conservare una foglia originale di un manoscritto…è indurla ad una comprensione che solo il contatto con l’arte più dare…e questo, penso, sia una ragione sufficiente per giustificare la dispersione di tanti frammenti di manoscritti…”. In realtà, le cose stavano un po’ diversamente. La fama di Otto era, infatti, dovuta a motivazioni molto più prosaiche,  vale a dire all’iniziativa delle “Otto Ege Porfolios”: circa 40 scatole piene di frammenti da lui ritagliati da antiche bibbie e  manoscritti medievali con lo scopo di realizzare grossi  profitti  vendendole a università e collezionisti di tutto il mondo.

In verità, il fenomeno della frammentazione e dispersione di parti di manoscritti era già iniziato ben prima di Otto F. Ege. Nel XIX secolo, i collezionisti avevano cominciato a tagliare le artistiche lettere iniziali dei manoscritti miniati. Ma, soprattutto dall’inizio del XX secolo, era diventata pratica tra i librai staccare le foglie dai “libri delle ore” per venderle come pagine singole  e così realizzare maggiori guadagni.

Insomma, un commercio in crescita per un mercato in crescita: soprattutto quello del Nord America, dove – dagli anni ’30 agli anni ’60 del secolo scorso –  il commercio di antichi manoscritti ma soprattutto delle foglie singole conosce un incremento notevole. Ma niente, se paragonato con gli ultimi cinquant’anni, durante i quali la vendita dei frammenti di manoscritti registra un balzo addirittura del 400%.

Da qui, l’allarme degli studiosi per quella che viene considerata una sistematica distruzione di documenti unici e d’inestimabile valore. E di conseguenza, l’idea di correre ai ripari progettando – grazie all’apporto della Rete e delle tecnologie digitali – attività di catalogazione on line e ricostruzione virtuale dei tanti manoscritti smembrati e poi dispersi tra istituzioni e/o collezionisti di tutto il mondo.

Tra i primi a provarci: Erik Drigsdahl e Peter Stoicheff dell’Università di Saskatchewan. Il primo, per anni ha salvato le immagini digitalizzate delle “foglie” vendute su eBay, sperando in questo modo di recuperare informazioni scientifiche inerenti ai manoscritti di provenienza. E poi, dal 2003, attraverso il suo sito, ha catalogato migliaia di frammenti tentando di ricostruire una raccolta di circa 50 manoscritti venduti in aste più o meno recenti. Il secondo, invece, si è adoperato lavorando per individuare tutti gli acquirenti degli “Otto Ege Porfolios”, nel tentativo di incoraggiare una loro collaborazione per la creazione di un database come punto di partenza  per una ricostruzione digitale dei manoscritti ritagliati da Otto F. Ege.

Oltre ai due studiosi citati, diversi sono ormai i progetti avviati per il recupero virtuale di manoscritti frammentati. Tra questi, “Manuscriptlink” che propone una “collezione collettiva di manoscritti virtuali” muovendosi tra il VII al XV secolo. Gli strumenti offerti consentono di studiare i singoli frammenti sia come oggetti indipendenti che come componenti aggregati di manoscritti ricostruiti. Il tutto, corredato di metadati completi e accurati per ogni elemento trattato. Oltre a ciò, gli utenti registrati possono crearsi proprie collezioni on line e confrontare frammenti, foglie e altro mediante un sistema di finestre parallele. C’è poi  “Fragmentarium”, un progetto organizzato dallo stesso team che ha creato il bellissimo “e-codices – Biblioteca virtuale dei manoscritti conservati in Svizzera”, che invece si occupa delle ampie collezioni di frammenti presenti nei patrimoni delle biblioteche nazionali europee.

Tuttavia, il decisivo impulso in questo ambito sta arrivando da una nuova tecnologia del Web: l’International Image Interoperability Framework (IIIF). Si tratta di uno standard innovativo per la descrizione e la distribuzione delle immagini e dei metadati attraverso la Rete. In pratica, IIIF mette a disposizione un vero e proprio framework per la pubblicazione di risorse digitali (costituite da immagini) non esclusivamente per la sola visualizzazione ma anche per altre operazioni come condivisione, apposizione di note, citazioni ecc. Anche perché, accanto all’interoperabilità, l’altro aspetto fondamentale della tecnologia IIIF è  la comunità Web di riferimento in continua crescita e che già comprende diverse tra le principali organizzazioni del mondo della ricerca e del patrimonio culturale su scala globale.

Ma come opera la tecnologia IIIF? Se torniamo al manoscritto smembrato nel lontano passato con le sue “foglie”  disperse tra varie collezioni, ognuna di queste collezioni – aderendo al framework IIIF –  potrebbe esporre le immagini digitalizzate dei propri frammenti mediante endpoint IIIF. A questo punto, qualsiasi visualizzatore sul Web compatibile IIIF sarebbe  in grado di fornire allo studioso interessato uno strumento molto potente e facile nell’uso per procedere a una ricostruzione virtuale del codice oggetto della ricerca ricombinando digitalmente frammenti e “foglie” e ottenendo così  la ricomposizione coerente e unitaria del documento.

Un esempio di piattaforma innovativa che implementa lo standard IIIF, è quello della “Broken Books” dell’Università di St.Louis. La piattaforma utilizza la tecnologia Canvas compatibile con IIIF e in questo modo i metadati descrittivi e strutturali possono essere standardizzati e resi interoperabili. In altre parole, invece di memorizzare immagini e dati su server proprietari dedicati (con tutte le criticità derivanti dalle capacità limitate), Broken Books mediante URL persistenti può recuperare – via Web – le immagini quando richieste e poi fruirne attraverso un visualizzatore compatibile IIIF, in questo caso Mirador. Il modello  rappresentato dalla piattaforma “Broken Books” è molto interessante sia per la sua sostenibilità – grazie all’interoperabilità tecnologica  e alle policy di condivisione  – che  per la sua apertura  verso lo schema di licenze Creative Commons.

Pubblicato in biblioteca digitale, digitalizzazione, futuro del libro, manoscritti virtuali, patrimonio culturale digitalizzato, tecnologie digitali | Contrassegnato , , , , , , | Lascia un commento

Biblioteche nell’era dei Big Data: un’introduzione

Biblioteche_BigDataSeminario di aggiornamento a cura di Fabio Di Giammarco

organizzato dalla Sezione AIB FVG in collaborazione con l’Università degli studi di Trieste

29 maggio 2017 – dalle 9.00 alle 17.00

 Aula Magna del Dipartimento di Scienze Giuridiche, del Linguaggio, dell’Intepretazione e della Traduzione –  Via Filzi, 14 – 34132 – Trieste

Le biblioteche – grazie alla loro competenza nella standardizzazione descrittiva ed esperienza nell’interoperabilità tra sistemi – possono avere un ruolo centrale “nell’addomesticamento” dei Big Data. In altre parole, possono contribuire a indirizzare opportunamente – con la loro autorità specialistica – il delicato passaggio, appena iniziato, dal documento strutturato ai dati aperti nel web.

La prima parte del corso ha l’obiettivo di fornire una breve introduzione ai Big Data e al loro utilizzo in ambito bibliotecario. Nella seconda parte lo scopo è di focalizzarsi sull’importanza che le biblioteche possono avere nella gestione di grandi quantità di dati.

 

Pubblicato in big data, Big Data culturali, big data curation, Datafication, digitalizzazione, Google Books, linked data, linked open data, patrimonio culturale digitalizzato | Lascia un commento