Una bussola per i Big Data: la Biblioteca

Sharper-2017-300x150BIBLIOTECHE E BIG DATA C’è una bussola per il mare magnum dei Big Data: la Biblioteca. Alla scoperta della biblioteca come piattaforma professionale di supporto nel trattamento di grandi quantità di dati: una istituzione pubblica come luogo di accesso dei dati (big) Open. Con Fabio Di Giammarco, bibliotecario presso la Biblioteca Statale di Storia moderna e contemporanea di Roma. Biblioteca San Matteo degli Armeni, Perugia Ore 17.30

 

Pubblicato in Senza categoria | Lascia un commento

soBig Data: le tracce digitali che lasciamo dietro di noi

PrintIl CNR di Pisa, guida il primo progetto pubblico su Big Data e Social Mining: soBig Data. Finanziato con 6 milioni di euro nell’ambito del programma Horizon 2020 Infraia 2014-2015, ha una durata di 4 anni e – oltre al CNR – mette insieme altre eccellenze italiane: l’Università di Pisa, l’Imt di Lucca e la Scuola Normale superiore.

L’obiettivo di soBig Data è mettere a punto un ecosistema integrato di dati, strumenti e competenze, tali da rendere possibile grandi esperimenti di social mining su varie dimensioni della vita sociale e sulle attività umane memorizzate nei Big Data (dati da social media, da smartphone, da open data, da linked data, etc.).

Inoltre, punta sullo sviluppo di una comunità interdisciplinare di data scientist, con la possibilità di creare nuove opportunità di ricerca e innovazione nelle scienze umane, sociali, economiche e Ict. Il tutto supportato dall’implementazione di una piattaforma per una scienza “aperta” e “riusabile”.

soBig Data si articola in tre componenti fondamentali: un ecosistema per la cura e l’accesso ai Big Data nell’ambito di una cornice etica che tiene conto della privacy; una piattaforma aperta anche rispetto alle strategie per condividere e preservare i risultati degli esperimenti; una rete di alta formazione in social mining, finalizzata a creare la nuova generazione di data scientist.

I Big data non sono altro – ha spiegato Fosca Giannotti coordinatrice del progetto – che  tracce digitali lasciate dietro di noi quando utilizziamo le tecnologie, e che fanno ormai parte integrante della nostra vita, raccontando di noi e della nostra vita. E’ da qui che nasce l’idea di soBig Data: un’infrastruttura di ricerca per mettere a disposizione strumentazione e competenze e permettere a scienziati e ricercato di realizzare nuovi esperimenti sociali.

Pubblicato in big data, big data curation, linked data, privacy, tecnologie digitali, text and data mining | Contrassegnato , | Lascia un commento

Tecnologia IIIF: un aiuto per la ricostruzione virtuale dei manoscritti frammentati e dispersi

Salterio_diurno_del_XVII_secoloOtto F. Ege, famigerato book breaker del secolo scorso, soleva difendere il suo iper-attivismo di  “tagliatore di manoscritti”, affermando: “forse permettere a mille persone di avere e conservare una foglia originale di un manoscritto…è indurla ad una comprensione che solo il contatto con l’arte più dare…e questo, penso, sia una ragione sufficiente per giustificare la dispersione di tanti frammenti di manoscritti…”. In realtà, le cose stavano un po’ diversamente. La fama di Otto era, infatti, dovuta a motivazioni molto più prosaiche,  vale a dire all’iniziativa delle “Otto Ege Porfolios”: circa 40 scatole piene di frammenti da lui ritagliati da antiche bibbie e  manoscritti medievali con lo scopo di realizzare grossi  profitti  vendendole a università e collezionisti di tutto il mondo.

In verità, il fenomeno della frammentazione e dispersione di parti di manoscritti era già iniziato ben prima di Otto F. Ege. Nel XIX secolo, i collezionisti avevano cominciato a tagliare le artistiche lettere iniziali dei manoscritti miniati. Ma, soprattutto dall’inizio del XX secolo, era diventata pratica tra i librai staccare le foglie dai “libri delle ore” per venderle come pagine singole  e così realizzare maggiori guadagni.

Insomma, un commercio in crescita per un mercato in crescita: soprattutto quello del Nord America, dove – dagli anni ’30 agli anni ’60 del secolo scorso –  il commercio di antichi manoscritti ma soprattutto delle foglie singole conosce un incremento notevole. Ma niente, se paragonato con gli ultimi cinquant’anni, durante i quali la vendita dei frammenti di manoscritti registra un balzo addirittura del 400%.

Da qui, l’allarme degli studiosi per quella che viene considerata una sistematica distruzione di documenti unici e d’inestimabile valore. E di conseguenza, l’idea di correre ai ripari progettando – grazie all’apporto della Rete e delle tecnologie digitali – attività di catalogazione on line e ricostruzione virtuale dei tanti manoscritti smembrati e poi dispersi tra istituzioni e/o collezionisti di tutto il mondo.

Tra i primi a provarci: Erik Drigsdahl e Peter Stoicheff dell’Università di Saskatchewan. Il primo, per anni ha salvato le immagini digitalizzate delle “foglie” vendute su eBay, sperando in questo modo di recuperare informazioni scientifiche inerenti ai manoscritti di provenienza. E poi, dal 2003, attraverso il suo sito, ha catalogato migliaia di frammenti tentando di ricostruire una raccolta di circa 50 manoscritti venduti in aste più o meno recenti. Il secondo, invece, si è adoperato lavorando per individuare tutti gli acquirenti degli “Otto Ege Porfolios”, nel tentativo di incoraggiare una loro collaborazione per la creazione di un database come punto di partenza  per una ricostruzione digitale dei manoscritti ritagliati da Otto F. Ege.

Oltre ai due studiosi citati, diversi sono ormai i progetti avviati per il recupero virtuale di manoscritti frammentati. Tra questi, “Manuscriptlink” che propone una “collezione collettiva di manoscritti virtuali” muovendosi tra il VII al XV secolo. Gli strumenti offerti consentono di studiare i singoli frammenti sia come oggetti indipendenti che come componenti aggregati di manoscritti ricostruiti. Il tutto, corredato di metadati completi e accurati per ogni elemento trattato. Oltre a ciò, gli utenti registrati possono crearsi proprie collezioni on line e confrontare frammenti, foglie e altro mediante un sistema di finestre parallele. C’è poi  “Fragmentarium”, un progetto organizzato dallo stesso team che ha creato il bellissimo “e-codices – Biblioteca virtuale dei manoscritti conservati in Svizzera”, che invece si occupa delle ampie collezioni di frammenti presenti nei patrimoni delle biblioteche nazionali europee.

Tuttavia, il decisivo impulso in questo ambito sta arrivando da una nuova tecnologia del Web: l’International Image Interoperability Framework (IIIF). Si tratta di uno standard innovativo per la descrizione e la distribuzione delle immagini e dei metadati attraverso la Rete. In pratica, IIIF mette a disposizione un vero e proprio framework per la pubblicazione di risorse digitali (costituite da immagini) non esclusivamente per la sola visualizzazione ma anche per altre operazioni come condivisione, apposizione di note, citazioni ecc. Anche perché, accanto all’interoperabilità, l’altro aspetto fondamentale della tecnologia IIIF è  la comunità Web di riferimento in continua crescita e che già comprende diverse tra le principali organizzazioni del mondo della ricerca e del patrimonio culturale su scala globale.

Ma come opera la tecnologia IIIF? Se torniamo al manoscritto smembrato nel lontano passato con le sue “foglie”  disperse tra varie collezioni, ognuna di queste collezioni – aderendo al framework IIIF –  potrebbe esporre le immagini digitalizzate dei propri frammenti mediante endpoint IIIF. A questo punto, qualsiasi visualizzatore sul Web compatibile IIIF sarebbe  in grado di fornire allo studioso interessato uno strumento molto potente e facile nell’uso per procedere a una ricostruzione virtuale del codice oggetto della ricerca ricombinando digitalmente frammenti e “foglie” e ottenendo così  la ricomposizione coerente e unitaria del documento.

Un esempio di piattaforma innovativa che implementa lo standard IIIF, è quello della “Broken Books” dell’Università di St.Louis. La piattaforma utilizza la tecnologia Canvas compatibile con IIIF e in questo modo i metadati descrittivi e strutturali possono essere standardizzati e resi interoperabili. In altre parole, invece di memorizzare immagini e dati su server proprietari dedicati (con tutte le criticità derivanti dalle capacità limitate), Broken Books mediante URL persistenti può recuperare – via Web – le immagini quando richieste e poi fruirne attraverso un visualizzatore compatibile IIIF, in questo caso Mirador. Il modello  rappresentato dalla piattaforma “Broken Books” è molto interessante sia per la sua sostenibilità – grazie all’interoperabilità tecnologica  e alle policy di condivisione  – che  per la sua apertura  verso lo schema di licenze Creative Commons.

Pubblicato in biblioteca digitale, digitalizzazione, futuro del libro, manoscritti virtuali, patrimonio culturale digitalizzato, tecnologie digitali | Contrassegnato , , , , , , | Lascia un commento

Biblioteche nell’era dei Big Data: un’introduzione

Biblioteche_BigDataSeminario di aggiornamento a cura di Fabio Di Giammarco

organizzato dalla Sezione AIB FVG in collaborazione con l’Università degli studi di Trieste

29 maggio 2017 – dalle 9.00 alle 17.00

 Aula Magna del Dipartimento di Scienze Giuridiche, del Linguaggio, dell’Intepretazione e della Traduzione –  Via Filzi, 14 – 34132 – Trieste

Le biblioteche – grazie alla loro competenza nella standardizzazione descrittiva ed esperienza nell’interoperabilità tra sistemi – possono avere un ruolo centrale “nell’addomesticamento” dei Big Data. In altre parole, possono contribuire a indirizzare opportunamente – con la loro autorità specialistica – il delicato passaggio, appena iniziato, dal documento strutturato ai dati aperti nel web.

La prima parte del corso ha l’obiettivo di fornire una breve introduzione ai Big Data e al loro utilizzo in ambito bibliotecario. Nella seconda parte lo scopo è di focalizzarsi sull’importanza che le biblioteche possono avere nella gestione di grandi quantità di dati.

 

Pubblicato in big data, Big Data culturali, big data curation, Datafication, digitalizzazione, Google Books, linked data, linked open data, patrimonio culturale digitalizzato | Lascia un commento

Una piattaforma digitale per i tesori culturali napoletani

metafad-640x445La forza della Rete e dell’evoluzione social del Web sta nel collegare,  raggruppare, aggregare, combinare, mischiare, integrare… un’inesauribile potenza reticolare generatrice di continue innovazioni tecnologiche ma anche di più o meno riuscite metafore. “Fare rete” è diventato una specie di mantra, valido un po’ in tutti gli ambiti e per tutti gli usi. In special modo in un settore come quello culturale, dove il tentativo di dar conto di stratificazioni, complessità e interdisciplinarietà dei fenomeni è ormai (quasi) totalmente affidato alle potenzialità gestionali, analitiche e rappresentative – finanche a quelle “taumaturgiche” –  delle tecnologie digitali.

In una città-universo come Napoli, con una storia infinitamente ricca, lo scorrere dei secoli ha prodotto una massa sterminata di cultura  via via       incastonatasi  in un numero smisurato di depositi culturali quali istituti religiosi, biblioteche, accademie, musei, archivi, conservatori….luoghi d’eccellenza, nel passato fortemente identitari, ma oggi spesso in difficoltà, a volte chiusi, in qualche caso addirittura dimenticati, ma in ogni caso  sconnessi non solo  con la Napoli attuale ma soprattutto con le reti culturali virtuali: gli utenti, le comunità, gli aggregatori del Web.

 Per reagire a questa situazione, cinque istituti – “Pio Monte della Misericordia”,   “Cappella del Tesoro di San Gennaro”,  “Società Napoletana di Storia Patria”, “Fondazione Biblioteca Benedetto Croce”, “ Istituto Italiano per gli Studi Storici” –  hanno però recentemente dato l’avvio a  una piccola rivoluzione, decidendo – grazie ai fondi europei assegnati dalla Regione Campania – di affidarsi alle tecnologie digitali appunto per “fare Rete”: programmando l’integrazione dei rispettivi patrimoni culturali per valorizzarli e  renderli disponibili al mondo esterno.

L’idea è quella di una piattaforma digitale open source –  MetaFAD – che riconnetta i loro patrimoni ri-contestualizzandoli storicamente rispetto alle loro caratteristiche e risorse peculiari. Il compito della gestione / valorizzazione digitale è appunto quello di permettere l’accesso on line integrato alle basi dati dei tre domini culturali interessati: bibliografico, archivistico e museale.  Ma, oltre all’interrogazione di un catalogo unico, punto forte del progetto è la digitalizzazione dei patrimoni degli istituti. L’attività è già iniziata e al momento gli oggetti digitalizzati sono circa 600 mila, tra cui testi a stampa antichi, pagine d’archivio e documenti di storia moderna e contemporanea, materiale grafico, manoscritti e materiale non librario.

La gestione delle riproduzioni digitali avverrà mediante una “Teca” costituita da un DAM (Digital Assets Management o sistema di Digital Library) in grado di manipolare gli oggetti digitali e generare formati file derivati. L’integrazione poi con l’OAI-PMH –  il miglior protocollo di comunicazione per la fruibilità di tutti i tipi di contenuti –   ne consentirà  l’esposizione e l’apertura dei servizi della TECA verso l’esterno. Tra questi, anche forme di e-commerce delle riproduzioni digitali che dovrebbero contribuire nel tempo alla sostenibilità economica della piattaforma.

Pubblicato in biblioteca digitale, digitalizzazione, patrimonio culturale digitalizzato | Contrassegnato , , , , , , | Lascia un commento