Biblioteche e Big Data

Lo “Sloan Digital Sky Survey” è un progetto astronomico molto importante che prevede la mappatura dello spazio profondo. Finora sono stati catalogati circa 100 milioni di stelle, 1 milione di galassie e 100 mila quasar. Un’impresa titanica con conseguente produzione di un’enorme massa di dati.  Per gestire la complessità di questi “big data” sono arrivate in aiuto le biblioteche della John Hopkins University di Baltimora. Da una recente inchiesta risulta che i ricercatori di Oxford – solo nel 2012 –  avrebbero generato almeno 3 petabyte (3 milioni di gigabyte) di dati. In pratica, il doppio delle capacità attuali del sistema centrale dell’università.

Dell’organizzazione di questa mole di dati se ne stanno occupando le biblioteche della Bodleian mediante implementazione di un sistema di storage (a pagamento) modulato in base alle diverse esigenze: da livelli completamente chiusi per le informazioni sensibili come quelle di carattere medico fino a data sets aperti con accesso pubblico e utilizzo di metadati. Iniziativa simile quella dell’UC Curation Center della California Digital Library che ha cominciato anche lei a fornire servizi d’assistenza e supporto per l’intero ciclo dei dati. Secondo poi uno studio dell’Università del Tennessee su oltre 100 biblioteche universitarie, risulta che almeno il 40% è impegnato a sviluppare programmi per supportare gli scienziati  nelle procedure di “big data curation”.

Da tutte queste iniziative  appare chiaro come il mondo della ricerca trova difficoltà a gestire il “diluvio di dati” da esso stesso generato. Difficoltà, ulteriormente confermate anche da un altro sondaggio che attesta proprio il difficile rapporto tra ricercatori e gestione dati: da un lato il desiderio maggioritario di accedere a un sistema facile di condivisione per l’utilizzo dei dati altrui, dall’altro l’ammissione d’incapacità (anch’essa maggioritaria) nel creare le condizioni minime di condivisione per permettere un accesso semplice ai propri. Insomma, sembra che con l’esplosione dei “big data” il mondo scientifico – in cerca di un supporto –  chieda aiuto. Una richiesta che sta spingendo le biblioteche – a cominciare da quelle accademiche e di ricerca – verso un nuovo salto di paradigma: dalla “data curation” alla  “big data curation”. Com’è capitato più volte in passato, un altro veloce e pervasivo ri-adattamento incalza. Tanto è che il NISO (National Information Standards Organization) si è affrettato a organizzare un convegno dal titolo  “Libraries and Big Data”, e nella presentazione ha messo in chiaro che il trattamento e soprattutto l’analisi di questa nuova megasfera informativa non può non competere alle biblioteche in quanto istituzioni specializzate riguardo l’intero ciclo dell’informazioni, uniche competenti nella creazione di tassonomie, nel progettare schemi di metadati e organizzare sistemi di information retrieval ad hoc.

Il mondo bibliotecario – confidando nel suo prestigioso passato e nella sua recente digitalizzazione –aspira anche questa volta a fare quello che negli ultimi secoli ha sempre fatto: preservare e organizzare le informazioni per renderle universalmente disponibili alla ricerca e alle future generazioni. Ma, la ricorsa tecnologica si fa sempre più difficile: un salto ad ostacoli con l’asticella posizionata via via sempre più in alto. Preservare, gestire e “far parlare” i big data sono le sfide che le biblioteche dovrebbero affrontare. Una prova tecnologicamente e concettualmente complessa: non si tratta solo di dotarsi di nuove e costose infrastrutture, ma soprattutto di ri-adattare il sistema biblioteca in funzione di un approdo inedito, vale a dire il passaggio dalla forma testo all’ambiente dati. 

Intanto, le biblioteche soffrono di un taglio generalizzato delle risorse. Secondo l’ALA negli USA hanno perso negli ultimi anni centinaia di milioni di dollari di finanziamenti. Sempre per i tagli, in Gran Bretagna nel 2012 sono state chiuse più di duecento biblioteche. E nel resto d’Europa – causa i noti programmi d’austerità fiscale – le cose non vanno di certo meglio. Da noi, il Ministero per i beni e le attività culturali ha visto in pochi anni dimezzato il proprio budget. E poi, oltre le ristrettezze economiche, c’è anche da fare i conti con la concorrenza, vale a dire con il business della “big data curation” dove operano  società di data repository aggressive e performanti che possono mettere in campo potenze di fuoco  tipo GenBank.

Inoltre, lo spostamento dalle collezioni di libri ai “big data”, non significa solo nuovi costi infrastrutturali, ma vuol dire progettare e supportare futuri servizi per l’accesso ai dati. Una sfida che si gioca  nel trovare  soluzioni rispetto a una serie di problematiche concernenti: “curation”, archiviazione, ricerca, condivisione, trasferimento, visualizzazione e analisi dei dati.  Ma, non basta. L’impatto dei “big data” promette di essere ancora più profondo. Infatti, una delle conseguenze dei necessari grossi impegni economici, tecnologici e operativi potrebbe essere il rivolgimento degli attuali assetti bibliotecari. La rivoluzione “dell’esplosione dei dati” non sembra proprio alla portata delle piccole biblioteche, e questo gap potrebbe significare il declino dei sistemi bibliotecari distribuiti con un ritorno – inaspettato –  al modello basato sulla centralizzazione dei servizi.

C’è però anche chi – in linea con l’incipit del NISO – vede nel “salto di paradigma” lo schiudersi di nuove opportunità per le biblioteche. Non soltanto professionalità dei bibliotecari nel classificare e presentare i “big data” ripuliti del loro contenuto “grezzo”, ma anche l’utilizzo dei sets di dati per migliorare le funzionalità stesse delle biblioteche. Ad esempio, sfruttando il “diluvio informativo” per il potenziamento  e ottimizzazione delle politiche e performance interne: dalle decisioni sull’impiego degli spazi pubblici al monitoraggio dei materiali e strumenti di studio fino all’utilizzo dei “big data tools” per ampliare la propria offerta informativa. Nuove attività facilitate anche dal fatto che la gestione dei big data non è più cosa esclusiva delle grandi organizzazioni, ma possibile anche per strutture più piccole e questo grazie ai minori i costi dei server e house data, e alla disponibilità delle applicazioni open source.

Infine, un altro fattore incentivante, è la possibilità per le biblioteche di rivestire un ruolo importante nei progetti governativi sui “big data”. In particolare, riguardo le politiche avviate dall’amministrazione Obama, James R. Jacobs, bibliotecario di Stanford, sostiene che le biblioteche – a partire dagli standard di metadati e dalle strategie di conservazione delle informazioni – possono candidarsi a partner fondamentali nei processi di costruzione di sistemi pubblici basati sugli “open data” e “big data”.  Un esempio in tal senso è quello dei data sets relativi alla ricerca finanziata dal governo federale. Dopo la decisione delle autorità di renderli pubblici e quindi completamente accessibili, William Michener – coordinatore e-science del sistema bibliotecario dell’Università di New Mexico – ha fatto presente l’importanza di conservarli correttamente per  poi renderli disponibili a tutta la comunità scientifica. Compito che secondo Michener solo le biblioteche saranno in grado di assolvere al meglio.

Pubblicato su Biblioteche oggi n. 10  2013


Questa voce è stata pubblicata in biblioteca digitale, big data, big data curation, digitalizzazione, editoria digitale, futuro del libro, linked data, preservazione digitale e contrassegnata con , , , , , , , . Contrassegna il permalink.