soBig Data: le tracce digitali che lasciamo dietro di noi

PrintIl CNR di Pisa, guida il primo progetto pubblico su Big Data e Social Mining: soBig Data. Finanziato con 6 milioni di euro nell’ambito del programma Horizon 2020 Infraia 2014-2015, ha una durata di 4 anni e – oltre al CNR – mette insieme altre eccellenze italiane: l’Università di Pisa, l’Imt di Lucca e la Scuola Normale superiore.

L’obiettivo di soBig Data è mettere a punto un ecosistema integrato di dati, strumenti e competenze, tali da rendere possibile grandi esperimenti di social mining su varie dimensioni della vita sociale e sulle attività umane memorizzate nei Big Data (dati da social media, da smartphone, da open data, da linked data, etc.).

Inoltre, punta sullo sviluppo di una comunità interdisciplinare di data scientist, con la possibilità di creare nuove opportunità di ricerca e innovazione nelle scienze umane, sociali, economiche e Ict. Il tutto supportato dall’implementazione di una piattaforma per una scienza “aperta” e “riusabile”.

soBig Data si articola in tre componenti fondamentali: un ecosistema per la cura e l’accesso ai Big Data nell’ambito di una cornice etica che tiene conto della privacy; una piattaforma aperta anche rispetto alle strategie per condividere e preservare i risultati degli esperimenti; una rete di alta formazione in social mining, finalizzata a creare la nuova generazione di data scientist.

I Big data non sono altro – ha spiegato Fosca Giannotti coordinatrice del progetto – che  tracce digitali lasciate dietro di noi quando utilizziamo le tecnologie, e che fanno ormai parte integrante della nostra vita, raccontando di noi e della nostra vita. E’ da qui che nasce l’idea di soBig Data: un’infrastruttura di ricerca per mettere a disposizione strumentazione e competenze e permettere a scienziati e ricercato di realizzare nuovi esperimenti sociali.

Pubblicato in big data, big data curation, linked data, privacy, tecnologie digitali, text and data mining | Contrassegnato , | Lascia un commento

Tecnologia IIIF: un aiuto per la ricostruzione virtuale dei manoscritti frammentati e dispersi

Salterio_diurno_del_XVII_secoloOtto F. Ege, famigerato book breaker del secolo scorso, soleva difendere il suo iper-attivismo di  “tagliatore di manoscritti”, affermando: “forse permettere a mille persone di avere e conservare una foglia originale di un manoscritto…è indurla ad una comprensione che solo il contatto con l’arte più dare…e questo, penso, sia una ragione sufficiente per giustificare la dispersione di tanti frammenti di manoscritti…”. In realtà, le cose stavano un po’ diversamente. La fama di Otto era, infatti, dovuta a motivazioni molto più prosaiche,  vale a dire all’iniziativa delle “Otto Ege Porfolios”: circa 40 scatole piene di frammenti da lui ritagliati da antiche bibbie e  manoscritti medievali con lo scopo di realizzare grossi  profitti  vendendole a università e collezionisti di tutto il mondo.

In verità, il fenomeno della frammentazione e dispersione di parti di manoscritti era già iniziato ben prima di Otto F. Ege. Nel XIX secolo, i collezionisti avevano cominciato a tagliare le artistiche lettere iniziali dei manoscritti miniati. Ma, soprattutto dall’inizio del XX secolo, era diventata pratica tra i librai staccare le foglie dai “libri delle ore” per venderle come pagine singole  e così realizzare maggiori guadagni.

Insomma, un commercio in crescita per un mercato in crescita: soprattutto quello del Nord America, dove – dagli anni ’30 agli anni ’60 del secolo scorso –  il commercio di antichi manoscritti ma soprattutto delle foglie singole conosce un incremento notevole. Ma niente, se paragonato con gli ultimi cinquant’anni, durante i quali la vendita dei frammenti di manoscritti registra un balzo addirittura del 400%.

Da qui, l’allarme degli studiosi per quella che viene considerata una sistematica distruzione di documenti unici e d’inestimabile valore. E di conseguenza, l’idea di correre ai ripari progettando – grazie all’apporto della Rete e delle tecnologie digitali – attività di catalogazione on line e ricostruzione virtuale dei tanti manoscritti smembrati e poi dispersi tra istituzioni e/o collezionisti di tutto il mondo.

Tra i primi a provarci: Erik Drigsdahl e Peter Stoicheff dell’Università di Saskatchewan. Il primo, per anni ha salvato le immagini digitalizzate delle “foglie” vendute su eBay, sperando in questo modo di recuperare informazioni scientifiche inerenti ai manoscritti di provenienza. E poi, dal 2003, attraverso il suo sito, ha catalogato migliaia di frammenti tentando di ricostruire una raccolta di circa 50 manoscritti venduti in aste più o meno recenti. Il secondo, invece, si è adoperato lavorando per individuare tutti gli acquirenti degli “Otto Ege Porfolios”, nel tentativo di incoraggiare una loro collaborazione per la creazione di un database come punto di partenza  per una ricostruzione digitale dei manoscritti ritagliati da Otto F. Ege.

Oltre ai due studiosi citati, diversi sono ormai i progetti avviati per il recupero virtuale di manoscritti frammentati. Tra questi, “Manuscriptlink” che propone una “collezione collettiva di manoscritti virtuali” muovendosi tra il VII al XV secolo. Gli strumenti offerti consentono di studiare i singoli frammenti sia come oggetti indipendenti che come componenti aggregati di manoscritti ricostruiti. Il tutto, corredato di metadati completi e accurati per ogni elemento trattato. Oltre a ciò, gli utenti registrati possono crearsi proprie collezioni on line e confrontare frammenti, foglie e altro mediante un sistema di finestre parallele. C’è poi  “Fragmentarium”, un progetto organizzato dallo stesso team che ha creato il bellissimo “e-codices – Biblioteca virtuale dei manoscritti conservati in Svizzera”, che invece si occupa delle ampie collezioni di frammenti presenti nei patrimoni delle biblioteche nazionali europee.

Tuttavia, il decisivo impulso in questo ambito sta arrivando da una nuova tecnologia del Web: l’International Image Interoperability Framework (IIIF). Si tratta di uno standard innovativo per la descrizione e la distribuzione delle immagini e dei metadati attraverso la Rete. In pratica, IIIF mette a disposizione un vero e proprio framework per la pubblicazione di risorse digitali (costituite da immagini) non esclusivamente per la sola visualizzazione ma anche per altre operazioni come condivisione, apposizione di note, citazioni ecc. Anche perché, accanto all’interoperabilità, l’altro aspetto fondamentale della tecnologia IIIF è  la comunità Web di riferimento in continua crescita e che già comprende diverse tra le principali organizzazioni del mondo della ricerca e del patrimonio culturale su scala globale.

Ma come opera la tecnologia IIIF? Se torniamo al manoscritto smembrato nel lontano passato con le sue “foglie”  disperse tra varie collezioni, ognuna di queste collezioni – aderendo al framework IIIF –  potrebbe esporre le immagini digitalizzate dei propri frammenti mediante endpoint IIIF. A questo punto, qualsiasi visualizzatore sul Web compatibile IIIF sarebbe  in grado di fornire allo studioso interessato uno strumento molto potente e facile nell’uso per procedere a una ricostruzione virtuale del codice oggetto della ricerca ricombinando digitalmente frammenti e “foglie” e ottenendo così  la ricomposizione coerente e unitaria del documento.

Un esempio di piattaforma innovativa che implementa lo standard IIIF, è quello della “Broken Books” dell’Università di St.Louis. La piattaforma utilizza la tecnologia Canvas compatibile con IIIF e in questo modo i metadati descrittivi e strutturali possono essere standardizzati e resi interoperabili. In altre parole, invece di memorizzare immagini e dati su server proprietari dedicati (con tutte le criticità derivanti dalle capacità limitate), Broken Books mediante URL persistenti può recuperare – via Web – le immagini quando richieste e poi fruirne attraverso un visualizzatore compatibile IIIF, in questo caso Mirador. Il modello  rappresentato dalla piattaforma “Broken Books” è molto interessante sia per la sua sostenibilità – grazie all’interoperabilità tecnologica  e alle policy di condivisione  – che  per la sua apertura  verso lo schema di licenze Creative Commons.

Pubblicato in biblioteca digitale, digitalizzazione, futuro del libro, manoscritti virtuali, patrimonio culturale digitalizzato, tecnologie digitali | Contrassegnato , , , , , , | Lascia un commento

Biblioteche nell’era dei Big Data: un’introduzione

Biblioteche_BigDataSeminario di aggiornamento a cura di Fabio Di Giammarco

organizzato dalla Sezione AIB FVG in collaborazione con l’Università degli studi di Trieste

29 maggio 2017 – dalle 9.00 alle 17.00

 Aula Magna del Dipartimento di Scienze Giuridiche, del Linguaggio, dell’Intepretazione e della Traduzione –  Via Filzi, 14 – 34132 – Trieste

Le biblioteche – grazie alla loro competenza nella standardizzazione descrittiva ed esperienza nell’interoperabilità tra sistemi – possono avere un ruolo centrale “nell’addomesticamento” dei Big Data. In altre parole, possono contribuire a indirizzare opportunamente – con la loro autorità specialistica – il delicato passaggio, appena iniziato, dal documento strutturato ai dati aperti nel web.

La prima parte del corso ha l’obiettivo di fornire una breve introduzione ai Big Data e al loro utilizzo in ambito bibliotecario. Nella seconda parte lo scopo è di focalizzarsi sull’importanza che le biblioteche possono avere nella gestione di grandi quantità di dati.

 

Pubblicato in big data, Big Data culturali, big data curation, Datafication, digitalizzazione, Google Books, linked data, linked open data, patrimonio culturale digitalizzato | Lascia un commento

Una piattaforma digitale per i tesori culturali napoletani

metafad-640x445La forza della Rete e dell’evoluzione social del Web sta nel collegare,  raggruppare, aggregare, combinare, mischiare, integrare… un’inesauribile potenza reticolare generatrice di continue innovazioni tecnologiche ma anche di più o meno riuscite metafore. “Fare rete” è diventato una specie di mantra, valido un po’ in tutti gli ambiti e per tutti gli usi. In special modo in un settore come quello culturale, dove il tentativo di dar conto di stratificazioni, complessità e interdisciplinarietà dei fenomeni è ormai (quasi) totalmente affidato alle potenzialità gestionali, analitiche e rappresentative – finanche a quelle “taumaturgiche” –  delle tecnologie digitali.

In una città-universo come Napoli, con una storia infinitamente ricca, lo scorrere dei secoli ha prodotto una massa sterminata di cultura  via via       incastonatasi  in un numero smisurato di depositi culturali quali istituti religiosi, biblioteche, accademie, musei, archivi, conservatori….luoghi d’eccellenza, nel passato fortemente identitari, ma oggi spesso in difficoltà, a volte chiusi, in qualche caso addirittura dimenticati, ma in ogni caso  sconnessi non solo  con la Napoli attuale ma soprattutto con le reti culturali virtuali: gli utenti, le comunità, gli aggregatori del Web.

 Per reagire a questa situazione, cinque istituti – “Pio Monte della Misericordia”,   “Cappella del Tesoro di San Gennaro”,  “Società Napoletana di Storia Patria”, “Fondazione Biblioteca Benedetto Croce”, “ Istituto Italiano per gli Studi Storici” –  hanno però recentemente dato l’avvio a  una piccola rivoluzione, decidendo – grazie ai fondi europei assegnati dalla Regione Campania – di affidarsi alle tecnologie digitali appunto per “fare Rete”: programmando l’integrazione dei rispettivi patrimoni culturali per valorizzarli e  renderli disponibili al mondo esterno.

L’idea è quella di una piattaforma digitale open source –  MetaFAD – che riconnetta i loro patrimoni ri-contestualizzandoli storicamente rispetto alle loro caratteristiche e risorse peculiari. Il compito della gestione / valorizzazione digitale è appunto quello di permettere l’accesso on line integrato alle basi dati dei tre domini culturali interessati: bibliografico, archivistico e museale.  Ma, oltre all’interrogazione di un catalogo unico, punto forte del progetto è la digitalizzazione dei patrimoni degli istituti. L’attività è già iniziata e al momento gli oggetti digitalizzati sono circa 600 mila, tra cui testi a stampa antichi, pagine d’archivio e documenti di storia moderna e contemporanea, materiale grafico, manoscritti e materiale non librario.

La gestione delle riproduzioni digitali avverrà mediante una “Teca” costituita da un DAM (Digital Assets Management o sistema di Digital Library) in grado di manipolare gli oggetti digitali e generare formati file derivati. L’integrazione poi con l’OAI-PMH –  il miglior protocollo di comunicazione per la fruibilità di tutti i tipi di contenuti –   ne consentirà  l’esposizione e l’apertura dei servizi della TECA verso l’esterno. Tra questi, anche forme di e-commerce delle riproduzioni digitali che dovrebbero contribuire nel tempo alla sostenibilità economica della piattaforma.

Pubblicato in biblioteca digitale, digitalizzazione, patrimonio culturale digitalizzato | Contrassegnato , , , , , , | Lascia un commento

Nasce la Digital Library Italiana? Forse, chissà…

Digital_LibraryLo scorso 10 marzo è apparso un articolo sulla Stampa che – con toni trionfalistici – dava notizia della nascita della “Digital Library Italiana”: una piattaforma digitale unica dalla quale accedere on line ai contenuti digitalizzati di 101 archivi e 46 biblioteche statali.

In realtà, la notizia prende le mosse da un annuncio del ministro Franceschini riguardante la firma di un decreto del Mibact del 22 febbraio 2017 nel quale si stabilisce la nascita di un “servizio per la digitalizzazione del patrimonio culturale denominato “Digital Library”.

Sono anni – quasi decenni – che a intermittenza si torna a parlare di una “Digital Library Italiana”. Il primo atto concreto data 1999 – un lasso di tempo che se commisurato alla velocità della rivoluzione digitale corrisponde quasi alla distanza che ci separa dal neolitico – quando viene commissionato dal ministero uno studio di fattibilità per la realizzazione di un progetto denominato Biblioteca Digitale Italiana (BDI).

Nel 2001 il progetto prende ufficialmente il via, individuando nella cooperazione tra biblioteche, archivi e musei il fattore indispensabile per avviare una Biblioteca Digitale anche in Italia. Nello stesso tempo, ci si comincia a interrogare sull’identità e funzioni che dovrà avere il progetto.

Tuttavia, volendo realizzare l’impresa in un arco di tempo limitato e soprattutto a costi contenuti – su impulso del neonato Comitato Guida per la BDI – si decide di partire con la digitalizzazione in formato immagine dei cataloghi storici posseduti dalle biblioteche statali. Difatti, a tal proposito, lo studio di fattibilità osservava: “la soluzione appare alquanto intelligente e produttiva…., oltre che economica e facilmente praticabile.”

Qualche anno dopo, il progetto vira decisamente verso un Portale Internet in grado di  dare visibilità e interazione a una BDI in coda alla quale si è aggiunta intanto la sigla NTC, con l’intento di inglobare nel progetto Biblioteca Digitale anche  un  Network Turistico Culturale per la valorizzazione del “brand” Italia. Tutto questo, mentre sul fronte della digitalizzazione si procede con un programma eterogeneo, settoriale, nel quale è molto difficile rintracciare una visione d’insieme, un progetto culturale  definito.

Infatti, dopo i “cataloghi storici”, il Comitato guida BDI decide di finanziare i seguenti progetti: la digitalizzazione dei documenti musicali manoscritti e a stampa che contengono musica notata, con la possibilità di navigare dal record bibliografico verso l’immagine digitalizzata; la scansione di riviste storiche preunitarie; una bibliografia per argomenti di opere edite dal XV alla metà del XVIII secolo; la Biblioteca Galileiana e la Raccolta di opuscoli scientifici e filologici curata da Angelo Calogerà nel Settecento; la collana degli Scrittori d’Italia fondata da Benedetto Croce e pubblicata dall’editore Laterza; i manoscritti conservati nei plutei della Biblioteca Medicea Laurenziana di Firenze e le collezioni cartografiche della Biblioteca nazionale Marciana di Venezia (GeoWeb) e della Società geografica italiana.

Questa variegata campagna di digitalizzazione si conclude intorno al 2009, ma già qualche anno prima la Biblioteca Digitale Italiana (BDI) si era – in pratica – dissolta nel portale diventato nel frattempo “Internet Culturale, vale a dire  punto comune di accesso on line per le risorse digitali, i cataloghi di biblioteche, archivi e istituzioni culturali italiane e altro. Viene, infatti, dotato di un motore di ricerca per svariate risorse catalografiche on line (SBN, Manus, Edit 16 ecc), consente l’accesso a diversi repository digitali e offre anche una serie sparsa di risorse multimediali: ipertesti, mostre virtuali, minisiti, 3D, dedicati a luoghi di interesse culturale, figure illustri, itinerari turistico-culturali…

Oggi, dopo 18 anni dallo studio di fattibilità per una Biblioteca Digitale Italiana, il Mibact rilancia di nuovo, annunciando – con un anglicismo di cui non si sentiva il bisogno – non una nuova Biblioteca Digitale, ma una – più enfatica –  “Digital Library” Italiana. Ma allora come oggi, i problemi di fondo sembrano sempre gli stessi: un piano nazionale di digitalizzazione, un coordinamento tra i programmi già in essere. E poiché nel frattempo il patrimonio culturale ha assunto sempre di più una valenza economica e commerciale, il ministro ha aggiunto che compito della Digital Library sarà anche che “ un tale patrimonio non diventi oggetto di trattativa di ogni singolo istituto con i giganti della Rete, con le grandi fondazioni, con cui possono avere dei rapporti di collaborazione, ma trattando da una posizione paritaria”.

Preoccupazione legittima, anche se il Mibact vanta già un precedente con il massimo gigante della Rete (Google) per un progetto Catalogazione e creazione metadati a supporto del Progetto Google finalizzato alla catalogazione delle collezioni di materiale antico e di pregio del Servizio Bibliotecario nazionale (SBN), attraverso la digitalizzazione massiva di opere di pubblico dominio (circa 1 milione di volumi) allo scopo di consentire al maggior numero di utenti l’accesso in linea alla produzione libraria delle biblioteche italiane”. Con funzioni d’indirizzo e monitoraggio affidate a un Comitato tecnico di cui fanno parte rappresentanti della Direzione Generale per le Biblioteche, mentre la responsabilità dell’attuazione del progetto viene assegnata alla Biblioteca Nazionale Centrale di Roma.

Insomma, sia per quel che riguarda un modello procedurale mirato alla digitalizzazione e valorizzazione del patrimonio librario mediante accordi con big company di Internet sia soprattutto rispetto all’individuazione delle giuste competenze – in ambito bibliotecario –  interne al Mibact in grado di implementare una Digital Library in modo logico e coordinato, sembrerebbe che l’accordo con Google avrebbe potuto consentire – almeno per questi 2 aspetti – la ri-partenza non da zero come invece sembra fare il decreto che istituisce il nuovo “Servizio Digital Library per la digitalizzazione del patrimonio culturale”.

Intanto, nell’affidare il nuovo servizio,  il Mibact ha scelto l’Istituto Centrale per Catalogo e la Documentazione (ICCD), nato e sviluppatosi – dal punto di vista delle competenze – per la catalogazione del patrimonio culturale storico-artistico con esclusione proprio di archivi e biblioteche. Mentre, c’è un altro istituto ministeriale – l’ICCU (Istituto Centrale per il Catalogo Unico delle Biblioteche Italiane e per le Informazioni Bibliografiche) – specializzato proprio nel patrimonio librario e soprattutto responsabile dell’SBN (Servizio Bibliotecario Nazionale) –  un successo riconosciuto anche all’estero – già per altro coinvolto nel progetto Google – e che vanta  quasi 6 mila biblioteche collegate nella Rete nazionale,  13 milioni di descrizioni bibliografiche, un catalogo on line con circa 6 milioni di accessi mensili che consente tra l’altro di visualizzare 800 mila testi già digitalizzati. Un Istituto cui fanno capo competenze importanti per l’implementazione di una “Digital Library”, ma che stranamente nel decreto è stato completamente ignorato.

Infine, la sostenibilità economica del progetto. Allo stato delle notizie disponibili, questo punto – fondamentale – appare abbastanza oscuro. Le notizie di stampa che riportano le dichiarazioni del ministro, parlano di un finanziamento – di partenza (?) – di 2 milioni di euro. Ma, scorrendo il decreto Mibact del 22 febbraio 2017 di questa cifra non c’è traccia. Al contrario, nel testo è specificato: il decreto non comporta nuovi o maggiori oneri per la finanza pubblica, poiché, come previsto dal comma 2 dell’articolo 1, l’ICCD svolgerà le attività indicate in materia di digitalizzazione del patrimonio culturale nell’ambito della risorse umane, finanziarie e strumentali disponibili a legislazione vigente”.

Da qui, un ulteriore dubbio: la cifra in questione sarà reperita – spostandola da un’attività all’altra – all’interno del bilancio del Mibact? Al momento, un chiarimento su questo punto cruciale – pre-condizione ineludibile per tutto il resto – risulta non  disponibile.

Pubblicato in biblioteca digitale, biblioteche italiane, digitalizzazione, futuro del libro, Google Books, patrimonio culturale digitalizzato, SBN (Servizio Bibliotecario Nazionale), tecnologie digitali | Contrassegnato , , , , | Lascia un commento