Lo standard IIIF per lo sviluppo delle biblioteche digitali

Tra le istituzioni culturali e scientifiche a livello globale che fanno parte della IIIF community, limitandoci alle sole biblioteche,  troviamo: Bibliothèque nationale de France, Bayerische Staatsbibliothek (Bavarian State Library), British Library, Boston Public Library, Library of Congress, National Library of Austria, New York University Libraries, Vatican Library.

Insomma, una buona parte del ghota bibliotecario mondiale. E non è un caso. Infatti,  L’IIIF, oltre ad essere  uno  standard de facto per il mondo dei repository di contenuti digitali, ha sempre di più un’importanza strategica per il futuro delle biblioteche digitali in quanto paradigmatico per i sistemi informativi basati sull’interoperabilità.

Se la frammentazione – causata dalla proliferazione dei progetti di digitalizzazione – ha rappresentato finora il grosso impedimento nella  condivisione e fruizione dei  patrimoni culturali digitalizzati, l’esempio offerto dallo standard IIIF  – anche se riguarda specificatamente la gestione e distribuzione delle immagini e metadati attraverso la rete – indica qual è la strada da seguire.

L’International Image Interoperability Framework (IIIF) è basato su tre  API (Shared Application Programming Interface) che consentono la descrizione delle immagini, la strutturazione dei repository digitali e le funzionalità di ricerca.

Queste applicazioni consentono funzionalità avanzate e interattive a vantaggio degli utenti finali. A cominciare dalla possibilità di combinare  e utilizzare risorse basate su immagini provenienti da tutto il web, e quindi confrontare pagine con la possibilità di visualizzare o creare delle raccolte virtuali. Ci sono poi le funzionalità che operano direttamente sulle immagini e che riguardano fondamentalmente la manipolazione e le annotazioni.

Ad esempio, con IIIF diventa possibile ricomporre virtualmente le opere smembrate, cosa che spesso accade nel mondo dei manoscritti. La piattaforma “Broken Books”, utilizzando la tecnologia compatibile IIIF “Canvas”, opera la ricomposizione recuperando via web – mediante URL persistenti – le immagini delle opere richieste, che appunto possono essere manoscritti spezzettati con le “foglie” disperse tra varie collezioni.

Cosa simile è realizzata con in manoscritti conservati nei fondi della British Library e della Bibliothèque nationale de France che possono essere comparati grazie a una stessa interfaccia IIIF, cioè utilizzando uno schermo unico al posto di più visualizzatori.

Mentre, in ambito italiano,  il progetto “Illuminated Dante Project”, si propone – entro il VII centenario della morte del sommo poeta (2021) – di realizzare – sempre grazie alle possibilità offerte dallo standard IIIF – un archivio on line e un database codicologico e iconografico di tutti gli antichi manoscritti provvisti di immagini– un corpus di circa 280 opere – che abbiano rapporti con il testo della Commedia.

Ultimamente, nella presentazione del progetto della Biblioteca digitale Ambrosiana “ad publicum commodum et utilitatem”, il riferimento latino “per il bene e l’utilità pubblica”, è stato appunto associato all’utilizzo – prima biblioteca in Italia – dello standard IIIF in quanto garanzia di una più ampia accessibilità ai contenuti digitali. Non solo. Anche il recente progetto Estense Digital Library ha ritenuto di sottolineare che il proprio patrimonio digitalizzato sarà consultabile con un visualizzatore IIIF di modo che le immagini ad alta definizione diverranno portabili, ossia comparabili con altre, editabili con strumenti di photoediting e annotabili liberamente.

Infine, è indicativo che l’ICCD (Istituto Centrale per i Catalogo e Documentazione del Ministero Beni Culturali) che in seguito a decreto ministeriale ha assunto il compito di implementare  il nuovo servizio per la digitalizzazione del patrimonio culturale italiano (Digital Library) attraverso il coordinamento dei tanti programmi di digitalizzazione in atto, abbia ultimamente organizzato – in partnership con la Stanford University e la Biblioteca Vaticana- un workshop dedicato a “Standard per la digitalizzazione del patrimonio culturale, interoperabilità e IIIF”.

Pubblicato in biblioteca digitale, interoperabilità, patrimonio culturale digitalizzato, tecnologie digitali | Contrassegnato , | Lascia un commento

La decentralizzazione della Rete: dal Blockchain alla nuova Biblioteca di Alessandria

Dopo la prima internet che rivoluzionò lo scambio di informazioni e abbatté i “walled garden” del tempo, cioè i media a stampa;  oggi è in atto un’altra rivoluzione che attraversa la Rete e che investe questa volta le “piattaforme chiuse” tipo Netflix, Spotify – le quali sviluppatesi e consolidatesi nell’ambito di un modello centralizzato distributivo  – vedono ora messa a rischio,  con l’avanzare della nuova tecnologia Blockchain, basata su una diversa architettura di rete decentralizzata e distribuita,  la loro posizione predominante

Alla base della nuova tecnologia Blockchain, c’è il rifiuto dell’idea di “centralizzazione” che, in generale,  per qualsivoglia tipo di organizzazione anche non propriamente informatica, è vista come un concentrato di criticità, in quanto facilmente attaccabile, corruttibile e suscettibile di errori. L’alternativa è quella rappresentata appunto dal design  Blockchain, ovvero un sistema decentrato, condiviso e sicuro, in quanto basato su una “certificazione collettiva”  garantita da una rete distribuita nella quale ogni nodo è garante della validità dell’intera struttura.

Attualmente, il modello vincente Blockchain è quello delle criptovalute tipo Bitcoin, tuttavia la tecnologia consente,  in un senso più ampio,  la certificazione, la trasmissione e lo stoccaggio dei dati. I livelli fondamentali di applicazione sono al momento tre: pagamenti, transazioni non solo finanziarie e smart contract, ovvero contratti che possono essere stipulati e/o imposti senza la necessità di una interazione umana. È comunque facile immaginare che la Blockchain sarà in grado – a breve –  di  rivoluzionare non solo i modelli economici, finanziari, aziendali,  contabili, ma anche di trasformare modelli più complessi come quelli sociali  a cominciare  dal settore cultura.

La società canadese Blocktech lavora da tempo per migliorare la tecnologia Blockchain. Tra l’altro, sta portando avanti un progetto open source molto interessante. In omaggio alla più grande biblioteca dell’antichità, quella di Alessandria,  il progetto riguarda  un’applicazione per il web denominata “Alexandria” che sfruttando la potenza delle tecnologie distribuite funziona  come una sorta di “Bittorrent” ma per l’archiviazione e la condivisione di contenuti culturali.

Il web oggi non ha ancora un indice aperto attraverso il quale tutti possano pubblicare o trovare qualsiasi tipo di informazione. “Alexandria” ha un po’ questa missione: sfogliare il web andando al di là degli attuali “walled garden” delle piattaforme chiuse, in altre parole bypassando il sistema CDN che funziona secondo le regole stabilite dalle società proprietarie di contenuti.

 Le specifiche per consentire ad “Alexandria” di fare tutto ciò sono definite da quello che è il vero motore  alla base  di questa nuova  rivoluzione dei sistemi decentralizzati e distribuiti:  l’Open Index Protocol. Sono del 2014 le prime dimostrazioni – sul forum della piattaforma decentralizzata Ethereum  – della maggiore efficienza di livelli dati condivisi per  la gestione di qualsiasi contenuto digitale. Le riflessioni successive hanno portato a focalizzare il  problema: la vulnerabilità dei sistemi centralizzati e la loro intrinseca correlazione negativa tra velocità di rete e popolarità  dei nodi.

Le caratteristiche dell’Open Index Protocol sono quelle di permettere un sistema aperto senza alcun tipo di autorizzazione per pubblicazione, distribuzione e pagamenti di qualsiasi contenuto digitale. Garantire  un aumento delle prestazioni, un quanto una rete distribuita riduce il sovraccarico del sistema annullando le criticità. Infine, aumentare la sicurezza attraverso la difesa collettiva contro gli attacchi. Insomma, nella nuova “open jungle” che si profila, il nuovo protocollo si candita a essere l’infrastruttura del web futuro : perfettamente interoperabile, condiviso, capace di servire tutti i modelli di distribuzione di contenuti da quelli gratuiti a quelli a pagamento.

Pubblicato in biblioteca digitale, blockchain, interoperabilità, tecnologie digitali | Contrassegnato , , , , , | Lascia un commento

Il futuro delle biblioteche secondo Jeffrey T. Schnapp

Al tempo delle rivoluzioni tecnologiche, fare previsioni sul futuro delle biblioteche è un esercizio molto praticato: se ne fanno in continuazione e sono tutte più o meno orientate verso il digitale. Per questo motivo, l’intervento all’ultimo convengo delle Stelline del designer statunitense Jeffrey T. Schnapp – La biblioteca oltre il libro – risulta molto stimolante. Punto di partenza: confutare, appunto, la narrazione dominante, vale a dire che  futuro delle biblioteche è circoscritto all’interno del modello di “biblioteca digitale”.

Secondo il designer, si tratta di una narrazione che strizza l’occhio a una facile previsione di modernità, alla base della quale c’è sempre il solito mix di virtualità, universalità, ubiquità ecc. E per questo motivo è una narrazione che perde di vista un aspetto fondamentale: la “centralità” degli spazi fisici nella costruzione dell’identità delle biblioteche. Spazi entro i quali, anche nel XXI secolo – ne è convinto Schnapp – l’umanità dovrà trovare i propri modi per reiterare (come ha sempre fatto)  quelle operazioni di accesso, conservazione, produzione, attivazione e scambio della conoscenza.

Insomma, non siamo alla vigila del trionfo definitivo della Biblioteca di Babele digitale di borgesiana memoria, e non solo – fa notare Schnapp – per una narrazione sbagliata, ma anche e soprattutto per alcune questioni che non tornano rispetto  al modello “biblioteca digitale”.

 Intanto, le collezioni digitali sono sicuramente una grande risorsa, ma non sono un luogo. E come accennato prima, gli umani per elaborare il sapere hanno bisogno di luoghi. In altre parole, consultare, studiare sono atti complessi che si devono svolgere in spazi articolati e dedicati, non riconducibili alla semplice disponibilità digitale di un numero – anche elevatissimo – dati.

E poi la Biblioteca intesa come archivio universale, è un fraintendimento rispetto al suo ruolo che invece è sempre stato almeno duplice: luogo sia di “connessioni” sia di “collezioni”, con la prevalenza storica del primo. Tant’è che la biblioteca come gigantesco contenitore a scaffali (luogo di connessioni) è un’invenzione ottocentesca, mentre sin dall’antichità le biblioteche sono state molto  più vicine al modello del campus con uno stretto contatto tra testi conservati e spazi per lo studio e la comunità.

E in aggiunta, va considerato anche un altro motivo di confusione riguardo al supposto “ trionfo” della biblioteca digitale: la presunta maggiore importanza dell’accesso alle informazioni rispetto alla conoscenza vissuta, acquisita e scambiata. In altre parole, i dati percepiti sempre come  più importanti dei documenti, dimenticando che i dati non sono semplici dati, ma  estrapolazioni mirate, atti cognitivi determinati socialmente.

Infine, ogni rivoluzione che coinvolge gli strumenti che supportano informazione, causa sempre  ridefinizioni / redistribuzioni dei compiti, e mai delle semplici e brusche sostituzioni. Quindi, nel futuro delle biblioteche, accanto al digitale,  il libro a stampa è destinato a restare, anche se con un ruolo via via diverso rispetto all’attuale.

Infatti, nella  visione di Jeffrey T. Schnapp non c’è posto per una scelta drastica tra digitale o libri a stampa oppure tra database o scaffale. Ma, la vera questione futura riguarda altri aspetti fondamentali: da un lato architettura e design e dall’altro i protocolli cognitivi.

Per concludere, le biblioteche, anche in una società dell’informazione sempre più evoluta, continueranno a fare quello che da secoli fanno: selezionare e preservare – mediante i diversi supporti materiali (dai libri ai bit) – la conoscenza misurandosi, nello stesso tempo, con le esigenze delle comunità alle quali presteranno i loro servizi. E le ragioni del selezionare e preservare  continueranno ad avvalersi sia degli antichi filtri (bibliotecarie ed edifici) che dei nuovi (procedure algoritmiche).

Pubblicato in biblioteca digitale, biblioteche italiane, digitalizzazione, futuro del libro, storia delle biblioteche, tecnologie digitali | Contrassegnato | Lascia un commento

Biblioteche e Big Data: una sfida complessa per nuove forme di conoscenza immaginando nuovi assetti e servizi

Marcy Strong – responsabile del servizio metadati presso le biblioteche River Campus dell’Università di Rochester New York – ha espresso  con poche parole una semplice ma profonda verità: “le biblioteche hanno gestito i dati per secoli”. Oggi, che dopo più fasi di un’impetuosa e pervasiva rivoluzione digitale, siamo immersi in un diluvio di dati, ci chiediamo se le biblioteche possano non solo sopravvivere ma raccogliere la sfida e proporsi come punto di riferimento anche nel nuovo ecosistema informativo sempre più datizzato.

La trama del flusso tecnologico che ci avvolge (global fluency) è quella dei Big Data, in pratica un’impressionante quantità di bit sotto forma di valori numerici, video, parole, immagini, ecc. Qualcosa corrispondente – in un solo giorno al mondo –a circa 2,5 quintilioni di dati (il quintilione  è un numero seguito da 30 zeri!) e che equivale – per ogni minuto di internet – a circa 4 milioni di ricerche su Google, mezzo milione di twitter e oltre 4 milioni di visualizzazioni video YouTube.

Difficile dare una definizione più precisa  per i Big Data. La più in voga è quella delle “3V + 1V”, vale a dire si può parlare di Big Data in presenza di un Volume di dati nell’ordine degli zettabyte, di un’estrema Varietà nella tipologia dei dati, di una Velocità incredibile nella loro generazione  e infine – con la quarta e più controversa V –  anche attribuendo un Valore/Veridicità ai dati in quanto ritenuti affidabili e quindi suscettibili di fornire analisi utili e interessanti.

L’ultima – controversa -“V” apre la questione se le analisi dei Big Data possano o meno essere ritenute una “nuova forma di conoscenza”. È indubbio che i cambiamenti tecnologici in corso si nutrono di Big data e non solo nella ricerca scientifica e nelle strategie aziendali, ma anche nella vita quotidiana e nella cultura. Tuttavia, e malgrado il famoso articolo del saggista di Wired Chris Anderson nel quale si teorizzava con l’avvento dei Big Data la fine del metodo scientifico e l’apertura di una nuova era del sapere basata su correlazioni ad altissima velocità[1], i dubbi rimangono e sono autorevolmente argomentati.

Già nell’ormai lontano 2012 un’interessante ricerca dal titolo “Critical questions for big data”[2], s’incaricava di ridimensionare i facili entusiasmi confutando che i Big Data “ possano offrire di per sé una forma più alta di intelligenza e conoscenza dando vita a intuizioni e rivelazioni prima impossibili”  e ribadendo che la sola accumulazione di dati senza una solida comprensione teorica impedisca di fatto una loro interpretazione. Recentemente il filosofo dell’informazione Luciano Floridi[3] ha chiarito ancora meglio la questione, spiegando che la “nuova forma di conoscenza” attribuita ai Big Data può essere intesa solo dal punto di vista epistemologico.

In altre parole, secondo Floridi, non basta mettere in campo strumenti “non convenzionali”(supertecnologie) per gestire e soprattutto estrarre conoscenza dai Big Data, al contrario è  necessario mettere a punto nuovi modelli di analisi (piccoli pattern). La chiave non può essere computazionale ma intellettiva, ovvero si tratta di individuare negli immensi dataset ormai disponibili (social media,  genetica, medicina, fisica sperimentale ecc.) nuovi pattern dotati di valore aggiunto  in quanto consequenziali “al chi siamo e al che cosa stiamo cercando”.

Un esempio interessante per nuovi modelli di analisi viene dai “Thick Data”, ovvero dati ottenuti non in maniera massiva ma immersiva, volti cioè ad analizzare e rivelare contesti culturali, sociale, emotivi circoscrivendo particolari gruppi di studio. A prima vista,  possono sembrare l’opposto dei Big Data in quanto dati qualitativi di contesto rispetto al “diluvio” dei dati quantitativi. Ma, in realtà, rappresentano illuminanti dimostrazioni di “piccoli pattern” in grado di colmare e aggiustare le tante lacune delle analisi massive / predittive dei Big Data[4].

In ogni caso, in un mondo informativo sempre più ad alta densità di dati (data liquidity), le biblioteche, come ci ricorda Marcy Strong, non possono che prendere posizione. E nel farlo non possono che raccogliere una sfida tecnologicamente e concettualmente  complessa in quanto giocata proprio in un ambito per loro vitale:  il passaggio epocale dal documento ai dati.

“I documenti sono solo sottoprodotti occasionali dell’accesso all’informazione e non la sua principale incarnazione” così, tempo fa, sosteneva il fisico IBM Lewis M. Branscomb[5]. Ed è proprio questo è il punto. Le tecnologie negli ultimi decenni hanno rovesciato le gerarchie nel mondo dell’informazione.

La dimensione reticolare, l’idea della “performance tecnologica”, il fattore “velocità di accesso” hanno cambiato il modo di concettualizzare l’informazione e poi, in ultimo, con l’esplosione dei Big Data, le biblioteche si sono trovate a gestire una proliferazione dei dati che comporta l’introduzione di  sistemi data-driven. Insomma, forze dirompenti tutte esterne al mondo bibliotecario hanno finito per esercitare un forte condizionamento su scelte, programmi  e strategie delle biblioteche. Di conseguenza, l’impatto dei Big Data non sarà di poco conto, e probabilmente produrrà nuovi impegni economici, tecnologici e mutamenti organizzativi. È prevedibile, infatti,  un  rivolgimento negli attuali assetti di quei sistemi bibliotecari più vicini al mondo dell’Università e della ricerca, con un ritorno a forme più centralizzate e quindi meglio attrezzate rispetto ai costi e alle complessità dei Big Data.

Nello stesso tempo, l’ingresso dei Big Data in biblioteca apre anche nuovi scenari nella gestione di questa “nuova forma di conoscenza” con  la creazione di nuovi ruoli, funzioni e servizi. Ad esempio con l’utilizzo dei flussi di dati per ottimizzare le performance della biblioteca rispetto ai propri utenti, oppure ridisegnando per il bibliotecario un nuovo ruolo professionale – quello del “data librarian” – vale a dire di un esperto in grado di affrontare le problematiche della gestione di grandi masse di dati maneggiando tutti gli strumenti della “data curation”.

Un’esigenza di nuove professionalità emergenti dal mondo bibliotecario avvalorata anche da uno studio dell’Università del Tennessee (USA), dal quale si evince che su oltre 100 biblioteche universitarie, almeno il 40% è impegnato a sviluppare programmi per supportare scienziati e ricercatori nelle procedure di gestione dei dati.

Insomma, è una vera e propria sfida quella per le biblioteche messe davanti  “alla prova dei dati”. Una sfida iniziata negli USA e in Gran Bretagna, dove diversi sistemi bibliotecari universitari ormai si propongono come piattaforme per servizi di gestione / supporto / consulenza per i Big Data. Anche perché un altro sondaggio – sempre nell’ambito delle  università anglosassoni –  fa sapere del rapporto non facile tra ricercatori e dati: da un lato spicca il loro desiderio di accedere a un sistema facile di condivisione per l’utilizzo dei dati altrui, dall’altro c’è la  diffusa ammissione d’incapacità nel creare le condizioni minime di condivisione per permettere un accesso semplice ai propri.

 In questo senso, è stato importante l’accordo tra lo Sloan Digital SkySurvey (SDSS)[6] – progetto astronomico che sta mappando lo spazio profondo producendo un enorme quantità di dati – e le Sheridan Libraries,  biblioteche della John Hopkins University di Baltimora[7], considerata la prima università di ricerca degli Stati Uniti. In quanto,  ha messo in evidenza – forse per la prima volta – il nuovo ruolo delle biblioteche come “laboratorio” di ricerca e sviluppo nell’ambito della gestione dei dati.

Comunque, già dal 2011 le Sheridan Libraries avevano lanciato un nuovo importante servizio dati: il Johns Hopkins Data Management Services (DMS). Implementandolo nell’ottica di best practice nella gestione dei dati, fornendo nello stesso tempo orientamento, istruzione e formazione e offrendo servizi di archiviazione e condivisione dati a supporto di ricercatori, istituzioni e agenzie.

Nell’ambito del DMS  è stato poi realizzato il Johns Hopkins Data Archive, un repository di dati – per l’archiviazione a lungo termine – disponibile per i ricercatori JHU.  Tutta iniziative che – non a caso – coordinate dalla Direzione gestione dati delle Sheridan Libraries, la quale ha ribadito in tutte le occasioni che lo scopo prioritario è sempre quello di creare le migliori condizioni per dare un supporto ai ricercatori nella loro complessa attività.

Anche i ricercatori di Oxford, possono avvalersi di un sistema bibliotecario di tutto rispetto: quello delle Bodleian Libraries[8]. Si tratta di uno dei sistemi bibliotecari più antichi e importanti del mondo che non è solo tradizione, ma anche politica digitale innovativa:   la biblioteca pensata  come grande impresa digitale (Bodleian Digital Library Systems and Services),  con lo scopo di promuovere la conoscenza attraverso l’accesso e mediante il supporto alla ricerca scientifica.

 In particolare, riguardo ai Big Data (solo nel 2012 la ricerca di Oxford ne ha generati oltre  3 petabyte), il sistema BDLSS ha messo ha disposizione per la ricerca un’infrastruttura dati: un archivio digitale (ORA-DATA – Oxford University Research Archive). In ORA-DATA può essere depositato qualsiasi tipo di dato. Né è assicurata la conservazione, l’accessibilità, la reperibilità e riuso. Cosa molto importante, i ricercatori, una volta archiviati i loro dati, possono in qualsiasi momento recuperarli e ri-utilizzarli in modo da rispondere a nuove richieste di analisi e studio, sviluppando attraverso la rete nuovi progetti di ricerca.

La “prova dei dati” è anche  pane quotidiano per il UC Curation Center della California Digital Library[9] che supporta  ricercatori e  biblioteche connesse al sistema nel gestire, conservare e fornire accesso alle loro risorse digitali. Particolarmente sviluppata è la data curation, per la quale l’UC ha realizzato tutta una serie di strumenti molto interessanti. A cominciare dal repository “Merritt” che vanta innovative soluzioni, tra cui un tipo di gestione che permette anche  il controllo diretto e la condivisione dei propri dati mediante URL persistenti. C’è poi “Dash”, uno strumento self-service che consente ai ricercatori di descrivere, caricare e condividere i propri dati di ricerca, e che permette  anche di descrivere i dati mediante lo schema  metadati “DataCite”, cioè una chiave per rendere i dati citabili, ricercabili e accessibili all’interno dei membri dei vari gruppi di lavoro. Infine, altri due strumenti molto validi implementati da UC sono DMPTool e EZID (easy-eye-dee). Il primo aiuta i ricercatori e le istituzioni a creare piani di gestione di dati di alta qualità che possano soddisfare i requisiti degli eventuali finanziatori delle ricerche, il secondo invece semplifica la creazione e gestione di identificatori unici a livello globale sia per i dati che per le fonti di una ricerca, assicurandone una futura rilevabilità.

Oltre a gestire i dati altrui, le biblioteche ormai dispongono in proprio di una grande quantità di dati. Questa proliferazione interna offre spazio per immaginare (e in alcuni casi cominciare a realizzare) nuovi servizi. I dati generati dai flussi interni possono essere sia quantitativi che qualitativi. I primi sono al momento decisamente prevalenti. Un esempio di dati quantitativi è quello dei numeri sulla circolazione dei prestiti normali e di quelli interbibliotecari, dei file log derivanti dai login degli utenti per accedere alle applicazioni on line della biblioteca e dei dati sui download delle risorse elettroniche messe a disposizione. Mentre una tipologia di  dati qualitativi può essere quella raccolta tramite social media: un esempio,  i “like” ottenuti dalla presentazione di nuovi libri sulla pagina Facebook della biblioteca.

Qualcuno ha affermato che le collezioni rappresentano un po’ il “DNA” o la “scatola nera” di una biblioteca, sicuramente ne rappresentano il tradizionale “baricentro”. Ma, anche la loro gestione sta subendo l’impatto della proliferazione dei dati. La più grande organizzazione mondiale per biblioteche – l’ OCLC (Online Computer Library Center)[10] – ne suggerisce una gestione tutta data-driven, mettendo a disposizione un potente strumento: il “Sustainable Collection Services[11]”. L’idea è di avere sotto controllo la situazione e l’evoluzione delle collezioni attraverso l’analisi dei dati. Per ottenere questo, nel set “Sustainable Collection Services” c’è il servizio“GreenGlass[12]” che consente di esplorare e visualizzare i dati sulle collezioni a supporto di tutte quelle attività di gestione e scarto. In altre parole, da la possibilità di gestire in modo nuovo, approfondito e comparativo, le proprie collezioni permettendo dismissioni mirate del materiale cartaceo così da poter rimodellare spazi e luoghi fisici della biblioteca.

Quello delle collezioni è l’esempio di utilizzo dei flussi di dati per riprogrammare dall’interno la Biblioteca, nel tentativo di ottimizzarne politiche e performance. È un modello di monitoraggio attraverso i dati applicabile anche ad altri settori: dagli spazi pubblici ai materiali e strumenti di studio, al miglioramento della propria offerta informativa e formativa. In questo ultimo settore si sono cimentate, con risultati interessanti,  alcune organizzazioni universitarie  che hanno estrapolato i dati – sull’utilizzo da parte degli studenti di una varietà di servizi –  in due modalità fondamentali: in automatico mediante i login degli studenti per accedere ai database e ai siti web, e poi  costruendo liste di utenti che si sono impegnati con il personale delle biblioteche in sessioni di istruzioni e interazioni di riferimento

L’università australiana di Wollongong[13],  ha sviluppato un database (LibraryCube) per incrociare i dati di utilizzo della biblioteca con le prestazioni accademiche degli studenti. Le analisi dei dati ottenuti hanno rivelato una forte correlazione tra l’uso delle risorse formativa messe a disposizione dal sistema bibliotecario di Wollongong e i voti ottenuti dagli universitari. Questa stessa linea di ricerca è stata intrapresa da altri progetti. Il Library Impact Data Project[14] finanziato dal JISC (Joint Information Systems Committee)  società britannica no profit che sostiene la ricerca e l’istruzione e opera soprattutto nel campo del digitale, ha evidenziato come una volta identificate aree tematiche o corsi che mostrano un basso utilizzo delle risorse della biblioteche, si può procedere a un miglioramento mirato dei relativi servizi. Infine, l’università del Minnesota con il Library Data and Student Success[15], si è concentrata sull’impatto avuto dal sistema bibliotecario sulla fidelizzazione degli studenti del primo anno di corso, dimostrando una correlazione tra uso intensivo della biblioteca e GPA (Grade Point Average) più elevato già nel primo semestre di studi.

Da ultimo, c’è da considerare l’impatto – dal punto di vista  bibliografico – dei “Big Data” che diventano “Big Library Data”, ovvero i milioni e milioni di dati bibliografici conservati negli OPAC delle biblioteche di tutto il mondo, ma attualmente non raggiungibili con i motori di ricerca della Rete perché creati e registrati con formati non interoperabili nel web. Da questo punto di vista, per renderli partecipi e utilizzabili attraverso il web dei dati, si lavora da tempo con le tecnologie del web semantico: principalmente Linked Data e RDF (Resource Description Framework). L’obiettivo è la ricerca della massima granularità anche per i dati bibliografici, ovvero il ridurli (come già accade per i dati del web) a dati interoperabili e quindi processabili in maniera automatica dai computer connessi nella rete globale. La tecnologia dei Linked Data dovrebbe avere in questo processo un ruolo determinante: consentire la destrutturazione del record bibliografico per  permettere una ri-composizione dinamica di dati bibliografici e non,  funzionale non solo alle puntuali ma anche alle potenziali e contingenti ricerche provenienti  dalla totalità della Rete compresi i motori di ricerca.

[1] https://www.wired.com/2008/06/pb-theory/

[2] https://www.katecrawford.net/docs/CriticalQuestionsForBigDataICS.pdf

[3] https://www.oii.ox.ac.uk/people/luciano-floridi/

[4] https://forbes.it/2018/12/10/big-data-thick-data-cosa-sono/

[5] https://en.wikipedia.org/wiki/Lewis_M._Branscomb

[6] https://www.sdss.org/

[7] https://www.jhu.edu/

[8] https://www.bodleian.ox.ac.uk/

[9] https://www.cdlib.org/uc3/

[10] https://www.oclc.org/

[11] https://www.oclc.org/en/sustainable-collections.html

[12] https://help.oclc.org/Library_Management/SCS_and_GreenGlass

[13] https://www.uow.edu.au/

[14] http://www.activitydata.org/LIDP.html

[15] https://experts.umn.edu/en/organisations/library-data-student-success

Relazione
Convegno Stelline 2019
Sala Leonardo
Giovedì 14 marzo 2019
Ore 14.30 – 18.00

Pubblicato in big data, Big Data culturali, big data curation, Datafication, digitalizzazione, Formati, linked data, preservazione digitale, Senza categoria, tecnologie digitali, Thick Data, web semantico | Contrassegnato , , , , , , , , , , , , , , | Lascia un commento

Thick Data: i dati qualitativi che completano i Big Data

Tricia Wang – cofondatrice di Sudden Compass – ha raccontato – nel corso di una conferenza Ted Talk – una storia particolarmente interessante, cioè di quando la Nokia non riuscì a interpretare i Big Data di cui disponeva. Parliamo dell’inizio del business degli smartphone, più o meno dopo la comparsa dei primi IPhone. Il problema in quel momento era il mercato cinese. Tricia Wang effettuando indagini immersive in loco per conto della Nokia, aveva registrato un cambiamento in corso negli orientamenti dei consumatori cinesi. In particolare, aveva scoperto quanto i cinesi a basso reddito fossero attratti dalle pubblicità IPhone, ma soprattutto – dopo la comparsa di versioni cinesi meno care degli IPhone dette “shanzhai” –   quanto fossero rimasti catturati dalle promesse, indotte sempre dalle pubblicità IPhone,  di una nuova vita “high-tech”, e di quanto ciò gli avesse resi pronti a tutto  pur di avere uno smartphone.

Alle rivelazioni di Tricia Wang,  la Nokia  rispose picche. La multinazionale finlandese – basandosi sui propri Big Data – era convinta che il prodotto smartphone non si sarebbero venduto. Inoltre, considerava i dati della Wang – ottenuti mediante semplici “chiacchierate” con un certo numero di giovani cinesi –  un pattern davvero debole, da non prendere sul serio. Dalla sua, Tricia Wang rispose alla Nokia facendo  notare: “che era ovvio il fatto che non vedessero il nuovo business, in quanto i loro sondaggi erano fatti pensando che la gente non sapesse cosa fosse un smartphone, e quindi ricevevano dati su persone che non potevano desiderare uno smartphone nei prossimi anni. In pratica si trattava di una metodologia per rinnovare un modello di business già esistente, mentre la sua ricerca stava analizzato dinamiche emergenti proiettate verso un modello di business del  futuro…”  E sappiamo tutti come questa vicenda è andata a finire:  quel vecchio modello di business è precipitato e la Nokia in pratica è scomparsa.

Alla fine di questa storia, una domanda sorge spontanea: perché una grande società come la Nokia con un enorme quantità di dati a disposizione prende una decisione completamente sbagliata? Forse per lo stesso motivo per cui  più del 70% di progetti basati su i Big Data risultano alla fine non redditizi, in altre parole fallimentari. E perché accade questo? Non sarà forse – come si chiede Tricia Wang alla fine  della conferenza – che disporre di una gran mole di dati è inutile se non si è in grado di interpretarli in modo adeguato?

Nel libro “La quarta rivoluzione” il filosofo dell’informazione Luciano Floridi affronta la questione della conoscenza per quel che riguarda i Big Data, spiegando che può essere affrontata non dal punto di vista tecnologico, cioè immaginando semplicemente una super tecnologia per gestirli efficacemente, ma piuttosto dal punto di vista epistemologico. Infatti, la chiave per tirar fuori informazioni innovative e soprattutto dotate di senso dai Big Data è applicare a essi la potenza intellettiva e non quella computazionale, vale a dire essere capaci di individuare negli immensi database oggi disponibili (nei domini della genetica, medicina, fisica sperimentali e nell’universo dei social media) nuovi pattern (modelli) dotati di valore aggiunto. In conclusione, se i Big Data sono destinati e crescere in continuazione, l’unico modo per gestirli, secondo Floridi, è  sapere chi siamo e soprattutto sapere cosa stiamo cercando.

Rispetto alle domande poste da Tricia Wang e alle questioni aperte dal filosofo Luciano Floridi, risulta lampante l’indispensabilità di  immaginare nuovi modelli di analisi capaci di generare quel “valore aggiunto” identificabile con il “perché” quale completamento (arricchimento) dei tanti “chi”, “come”, “dove”,  “quando”… frutto delle standardizzate analisi massive sui Big Data. In questo senso, è un po’ che si parla di Thick Data nel senso della possibilità di mettere a punto modelli basati su dati non più quantitativi ( e quindi Big), ma qualitativi.

Sono Thick Data tutti quei dati ottenuti in modo immersivo e/o etnografico volti a rivelare contesti culturali, sociali ed emotivi relativi a gruppi di studio più o meno ristretti. Un esempio è quello appunto delle interviste ai giovani cinesi realizzate da Tricia Wang, oppure il caso studio di “Placa del Sol” a Barcellona, dove, per combattere l’inquinamento acustico della famosa piazza, è stato per la prima volta datizzato un preciso contesto attraverso il monitoraggio del rumore percepito all’interno delle abitazioni affacciate sulla piazza, in modo da confrontare i nuovi dati così ottenuti con le tabelle ufficiali delle autorità comunali.

In definitiva, i Thick Data possono sembrare l’opposto dei Big Data, in quanto dati qualitativi di contesto rispetto al diluvio di dati quantitativi. Ma, in realtà possono rappresentare illuminanti dimostrazioni di “piccoli pattern” in grado di colmare e aggiustare le tante lacune delle analisi massive dei Big data. Piccoli esempi di come il potere intellettivo applicato alla datizzazione di specifici contesti può portare a livelli di comprensione che spesso rimangono dalla portata dei processi algoritmici.

Pubblicato in algoritmo, big data, Datafication, Thick Data | Contrassegnato , , | Lascia un commento