Biblioteche e Big Data: una sfida complessa per nuove forme di conoscenza immaginando nuovi assetti e servizi

Marcy Strong – responsabile del servizio metadati presso le biblioteche River Campus dell’Università di Rochester New York – ha espresso  con poche parole una semplice ma profonda verità: “le biblioteche hanno gestito i dati per secoli”. Oggi, che dopo più fasi di un’impetuosa e pervasiva rivoluzione digitale, siamo immersi in un diluvio di dati, ci chiediamo se le biblioteche possano non solo sopravvivere ma raccogliere la sfida e proporsi come punto di riferimento anche nel nuovo ecosistema informativo sempre più datizzato.

La trama del flusso tecnologico che ci avvolge (global fluency) è quella dei Big Data, in pratica un’impressionante quantità di bit sotto forma di valori numerici, video, parole, immagini, ecc. Qualcosa corrispondente – in un solo giorno al mondo –a circa 2,5 quintilioni di dati (il quintilione  è un numero seguito da 30 zeri!) e che equivale – per ogni minuto di internet – a circa 4 milioni di ricerche su Google, mezzo milione di twitter e oltre 4 milioni di visualizzazioni video YouTube.

Difficile dare una definizione più precisa  per i Big Data. La più in voga è quella delle “3V + 1V”, vale a dire si può parlare di Big Data in presenza di un Volume di dati nell’ordine degli zettabyte, di un’estrema Varietà nella tipologia dei dati, di una Velocità incredibile nella loro generazione  e infine – con la quarta e più controversa V –  anche attribuendo un Valore/Veridicità ai dati in quanto ritenuti affidabili e quindi suscettibili di fornire analisi utili e interessanti.

L’ultima – controversa -“V” apre la questione se le analisi dei Big Data possano o meno essere ritenute una “nuova forma di conoscenza”. È indubbio che i cambiamenti tecnologici in corso si nutrono di Big data e non solo nella ricerca scientifica e nelle strategie aziendali, ma anche nella vita quotidiana e nella cultura. Tuttavia, e malgrado il famoso articolo del saggista di Wired Chris Anderson nel quale si teorizzava con l’avvento dei Big Data la fine del metodo scientifico e l’apertura di una nuova era del sapere basata su correlazioni ad altissima velocità[1], i dubbi rimangono e sono autorevolmente argomentati.

Già nell’ormai lontano 2012 un’interessante ricerca dal titolo “Critical questions for big data”[2], s’incaricava di ridimensionare i facili entusiasmi confutando che i Big Data “ possano offrire di per sé una forma più alta di intelligenza e conoscenza dando vita a intuizioni e rivelazioni prima impossibili”  e ribadendo che la sola accumulazione di dati senza una solida comprensione teorica impedisca di fatto una loro interpretazione. Recentemente il filosofo dell’informazione Luciano Floridi[3] ha chiarito ancora meglio la questione, spiegando che la “nuova forma di conoscenza” attribuita ai Big Data può essere intesa solo dal punto di vista epistemologico.

In altre parole, secondo Floridi, non basta mettere in campo strumenti “non convenzionali”(supertecnologie) per gestire e soprattutto estrarre conoscenza dai Big Data, al contrario è  necessario mettere a punto nuovi modelli di analisi (piccoli pattern). La chiave non può essere computazionale ma intellettiva, ovvero si tratta di individuare negli immensi dataset ormai disponibili (social media,  genetica, medicina, fisica sperimentale ecc.) nuovi pattern dotati di valore aggiunto  in quanto consequenziali “al chi siamo e al che cosa stiamo cercando”.

Un esempio interessante per nuovi modelli di analisi viene dai “Thick Data”, ovvero dati ottenuti non in maniera massiva ma immersiva, volti cioè ad analizzare e rivelare contesti culturali, sociale, emotivi circoscrivendo particolari gruppi di studio. A prima vista,  possono sembrare l’opposto dei Big Data in quanto dati qualitativi di contesto rispetto al “diluvio” dei dati quantitativi. Ma, in realtà, rappresentano illuminanti dimostrazioni di “piccoli pattern” in grado di colmare e aggiustare le tante lacune delle analisi massive / predittive dei Big Data[4].

In ogni caso, in un mondo informativo sempre più ad alta densità di dati (data liquidity), le biblioteche, come ci ricorda Marcy Strong, non possono che prendere posizione. E nel farlo non possono che raccogliere una sfida tecnologicamente e concettualmente  complessa in quanto giocata proprio in un ambito per loro vitale:  il passaggio epocale dal documento ai dati.

“I documenti sono solo sottoprodotti occasionali dell’accesso all’informazione e non la sua principale incarnazione” così, tempo fa, sosteneva il fisico IBM Lewis M. Branscomb[5]. Ed è proprio questo è il punto. Le tecnologie negli ultimi decenni hanno rovesciato le gerarchie nel mondo dell’informazione.

La dimensione reticolare, l’idea della “performance tecnologica”, il fattore “velocità di accesso” hanno cambiato il modo di concettualizzare l’informazione e poi, in ultimo, con l’esplosione dei Big Data, le biblioteche si sono trovate a gestire una proliferazione dei dati che comporta l’introduzione di  sistemi data-driven. Insomma, forze dirompenti tutte esterne al mondo bibliotecario hanno finito per esercitare un forte condizionamento su scelte, programmi  e strategie delle biblioteche. Di conseguenza, l’impatto dei Big Data non sarà di poco conto, e probabilmente produrrà nuovi impegni economici, tecnologici e mutamenti organizzativi. È prevedibile, infatti,  un  rivolgimento negli attuali assetti di quei sistemi bibliotecari più vicini al mondo dell’Università e della ricerca, con un ritorno a forme più centralizzate e quindi meglio attrezzate rispetto ai costi e alle complessità dei Big Data.

Nello stesso tempo, l’ingresso dei Big Data in biblioteca apre anche nuovi scenari nella gestione di questa “nuova forma di conoscenza” con  la creazione di nuovi ruoli, funzioni e servizi. Ad esempio con l’utilizzo dei flussi di dati per ottimizzare le performance della biblioteca rispetto ai propri utenti, oppure ridisegnando per il bibliotecario un nuovo ruolo professionale – quello del “data librarian” – vale a dire di un esperto in grado di affrontare le problematiche della gestione di grandi masse di dati maneggiando tutti gli strumenti della “data curation”.

Un’esigenza di nuove professionalità emergenti dal mondo bibliotecario avvalorata anche da uno studio dell’Università del Tennessee (USA), dal quale si evince che su oltre 100 biblioteche universitarie, almeno il 40% è impegnato a sviluppare programmi per supportare scienziati e ricercatori nelle procedure di gestione dei dati.

Insomma, è una vera e propria sfida quella per le biblioteche messe davanti  “alla prova dei dati”. Una sfida iniziata negli USA e in Gran Bretagna, dove diversi sistemi bibliotecari universitari ormai si propongono come piattaforme per servizi di gestione / supporto / consulenza per i Big Data. Anche perché un altro sondaggio – sempre nell’ambito delle  università anglosassoni –  fa sapere del rapporto non facile tra ricercatori e dati: da un lato spicca il loro desiderio di accedere a un sistema facile di condivisione per l’utilizzo dei dati altrui, dall’altro c’è la  diffusa ammissione d’incapacità nel creare le condizioni minime di condivisione per permettere un accesso semplice ai propri.

 In questo senso, è stato importante l’accordo tra lo Sloan Digital SkySurvey (SDSS)[6] – progetto astronomico che sta mappando lo spazio profondo producendo un enorme quantità di dati – e le Sheridan Libraries,  biblioteche della John Hopkins University di Baltimora[7], considerata la prima università di ricerca degli Stati Uniti. In quanto,  ha messo in evidenza – forse per la prima volta – il nuovo ruolo delle biblioteche come “laboratorio” di ricerca e sviluppo nell’ambito della gestione dei dati.

Comunque, già dal 2011 le Sheridan Libraries avevano lanciato un nuovo importante servizio dati: il Johns Hopkins Data Management Services (DMS). Implementandolo nell’ottica di best practice nella gestione dei dati, fornendo nello stesso tempo orientamento, istruzione e formazione e offrendo servizi di archiviazione e condivisione dati a supporto di ricercatori, istituzioni e agenzie.

Nell’ambito del DMS  è stato poi realizzato il Johns Hopkins Data Archive, un repository di dati – per l’archiviazione a lungo termine – disponibile per i ricercatori JHU.  Tutta iniziative che – non a caso – coordinate dalla Direzione gestione dati delle Sheridan Libraries, la quale ha ribadito in tutte le occasioni che lo scopo prioritario è sempre quello di creare le migliori condizioni per dare un supporto ai ricercatori nella loro complessa attività.

Anche i ricercatori di Oxford, possono avvalersi di un sistema bibliotecario di tutto rispetto: quello delle Bodleian Libraries[8]. Si tratta di uno dei sistemi bibliotecari più antichi e importanti del mondo che non è solo tradizione, ma anche politica digitale innovativa:   la biblioteca pensata  come grande impresa digitale (Bodleian Digital Library Systems and Services),  con lo scopo di promuovere la conoscenza attraverso l’accesso e mediante il supporto alla ricerca scientifica.

 In particolare, riguardo ai Big Data (solo nel 2012 la ricerca di Oxford ne ha generati oltre  3 petabyte), il sistema BDLSS ha messo ha disposizione per la ricerca un’infrastruttura dati: un archivio digitale (ORA-DATA – Oxford University Research Archive). In ORA-DATA può essere depositato qualsiasi tipo di dato. Né è assicurata la conservazione, l’accessibilità, la reperibilità e riuso. Cosa molto importante, i ricercatori, una volta archiviati i loro dati, possono in qualsiasi momento recuperarli e ri-utilizzarli in modo da rispondere a nuove richieste di analisi e studio, sviluppando attraverso la rete nuovi progetti di ricerca.

La “prova dei dati” è anche  pane quotidiano per il UC Curation Center della California Digital Library[9] che supporta  ricercatori e  biblioteche connesse al sistema nel gestire, conservare e fornire accesso alle loro risorse digitali. Particolarmente sviluppata è la data curation, per la quale l’UC ha realizzato tutta una serie di strumenti molto interessanti. A cominciare dal repository “Merritt” che vanta innovative soluzioni, tra cui un tipo di gestione che permette anche  il controllo diretto e la condivisione dei propri dati mediante URL persistenti. C’è poi “Dash”, uno strumento self-service che consente ai ricercatori di descrivere, caricare e condividere i propri dati di ricerca, e che permette  anche di descrivere i dati mediante lo schema  metadati “DataCite”, cioè una chiave per rendere i dati citabili, ricercabili e accessibili all’interno dei membri dei vari gruppi di lavoro. Infine, altri due strumenti molto validi implementati da UC sono DMPTool e EZID (easy-eye-dee). Il primo aiuta i ricercatori e le istituzioni a creare piani di gestione di dati di alta qualità che possano soddisfare i requisiti degli eventuali finanziatori delle ricerche, il secondo invece semplifica la creazione e gestione di identificatori unici a livello globale sia per i dati che per le fonti di una ricerca, assicurandone una futura rilevabilità.

Oltre a gestire i dati altrui, le biblioteche ormai dispongono in proprio di una grande quantità di dati. Questa proliferazione interna offre spazio per immaginare (e in alcuni casi cominciare a realizzare) nuovi servizi. I dati generati dai flussi interni possono essere sia quantitativi che qualitativi. I primi sono al momento decisamente prevalenti. Un esempio di dati quantitativi è quello dei numeri sulla circolazione dei prestiti normali e di quelli interbibliotecari, dei file log derivanti dai login degli utenti per accedere alle applicazioni on line della biblioteca e dei dati sui download delle risorse elettroniche messe a disposizione. Mentre una tipologia di  dati qualitativi può essere quella raccolta tramite social media: un esempio,  i “like” ottenuti dalla presentazione di nuovi libri sulla pagina Facebook della biblioteca.

Qualcuno ha affermato che le collezioni rappresentano un po’ il “DNA” o la “scatola nera” di una biblioteca, sicuramente ne rappresentano il tradizionale “baricentro”. Ma, anche la loro gestione sta subendo l’impatto della proliferazione dei dati. La più grande organizzazione mondiale per biblioteche – l’ OCLC (Online Computer Library Center)[10] – ne suggerisce una gestione tutta data-driven, mettendo a disposizione un potente strumento: il “Sustainable Collection Services[11]”. L’idea è di avere sotto controllo la situazione e l’evoluzione delle collezioni attraverso l’analisi dei dati. Per ottenere questo, nel set “Sustainable Collection Services” c’è il servizio“GreenGlass[12]” che consente di esplorare e visualizzare i dati sulle collezioni a supporto di tutte quelle attività di gestione e scarto. In altre parole, da la possibilità di gestire in modo nuovo, approfondito e comparativo, le proprie collezioni permettendo dismissioni mirate del materiale cartaceo così da poter rimodellare spazi e luoghi fisici della biblioteca.

Quello delle collezioni è l’esempio di utilizzo dei flussi di dati per riprogrammare dall’interno la Biblioteca, nel tentativo di ottimizzarne politiche e performance. È un modello di monitoraggio attraverso i dati applicabile anche ad altri settori: dagli spazi pubblici ai materiali e strumenti di studio, al miglioramento della propria offerta informativa e formativa. In questo ultimo settore si sono cimentate, con risultati interessanti,  alcune organizzazioni universitarie  che hanno estrapolato i dati – sull’utilizzo da parte degli studenti di una varietà di servizi –  in due modalità fondamentali: in automatico mediante i login degli studenti per accedere ai database e ai siti web, e poi  costruendo liste di utenti che si sono impegnati con il personale delle biblioteche in sessioni di istruzioni e interazioni di riferimento

L’università australiana di Wollongong[13],  ha sviluppato un database (LibraryCube) per incrociare i dati di utilizzo della biblioteca con le prestazioni accademiche degli studenti. Le analisi dei dati ottenuti hanno rivelato una forte correlazione tra l’uso delle risorse formativa messe a disposizione dal sistema bibliotecario di Wollongong e i voti ottenuti dagli universitari. Questa stessa linea di ricerca è stata intrapresa da altri progetti. Il Library Impact Data Project[14] finanziato dal JISC (Joint Information Systems Committee)  società britannica no profit che sostiene la ricerca e l’istruzione e opera soprattutto nel campo del digitale, ha evidenziato come una volta identificate aree tematiche o corsi che mostrano un basso utilizzo delle risorse della biblioteche, si può procedere a un miglioramento mirato dei relativi servizi. Infine, l’università del Minnesota con il Library Data and Student Success[15], si è concentrata sull’impatto avuto dal sistema bibliotecario sulla fidelizzazione degli studenti del primo anno di corso, dimostrando una correlazione tra uso intensivo della biblioteca e GPA (Grade Point Average) più elevato già nel primo semestre di studi.

Da ultimo, c’è da considerare l’impatto – dal punto di vista  bibliografico – dei “Big Data” che diventano “Big Library Data”, ovvero i milioni e milioni di dati bibliografici conservati negli OPAC delle biblioteche di tutto il mondo, ma attualmente non raggiungibili con i motori di ricerca della Rete perché creati e registrati con formati non interoperabili nel web. Da questo punto di vista, per renderli partecipi e utilizzabili attraverso il web dei dati, si lavora da tempo con le tecnologie del web semantico: principalmente Linked Data e RDF (Resource Description Framework). L’obiettivo è la ricerca della massima granularità anche per i dati bibliografici, ovvero il ridurli (come già accade per i dati del web) a dati interoperabili e quindi processabili in maniera automatica dai computer connessi nella rete globale. La tecnologia dei Linked Data dovrebbe avere in questo processo un ruolo determinante: consentire la destrutturazione del record bibliografico per  permettere una ri-composizione dinamica di dati bibliografici e non,  funzionale non solo alle puntuali ma anche alle potenziali e contingenti ricerche provenienti  dalla totalità della Rete compresi i motori di ricerca.

[1] https://www.wired.com/2008/06/pb-theory/

[2] https://www.katecrawford.net/docs/CriticalQuestionsForBigDataICS.pdf

[3] https://www.oii.ox.ac.uk/people/luciano-floridi/

[4] https://forbes.it/2018/12/10/big-data-thick-data-cosa-sono/

[5] https://en.wikipedia.org/wiki/Lewis_M._Branscomb

[6] https://www.sdss.org/

[7] https://www.jhu.edu/

[8] https://www.bodleian.ox.ac.uk/

[9] https://www.cdlib.org/uc3/

[10] https://www.oclc.org/

[11] https://www.oclc.org/en/sustainable-collections.html

[12] https://help.oclc.org/Library_Management/SCS_and_GreenGlass

[13] https://www.uow.edu.au/

[14] http://www.activitydata.org/LIDP.html

[15] https://experts.umn.edu/en/organisations/library-data-student-success

Relazione
Convegno Stelline 2019
Sala Leonardo
Giovedì 14 marzo 2019
Ore 14.30 – 18.00

Pubblicato in big data, Big Data culturali, big data curation, Datafication, digitalizzazione, Formati, linked data, preservazione digitale, Senza categoria, tecnologie digitali, Thick Data, web semantico | Contrassegnato , , , , , , , , , , , , , , | Lascia un commento

Thick Data: i dati qualitativi che completano i Big Data

Tricia Wang – cofondatrice di Sudden Compass – ha raccontato – nel corso di una conferenza Ted Talk – una storia particolarmente interessante, cioè di quando la Nokia non riuscì a interpretare i Big Data di cui disponeva. Parliamo dell’inizio del business degli smartphone, più o meno dopo la comparsa dei primi IPhone. Il problema in quel momento era il mercato cinese. Tricia Wang effettuando indagini immersive in loco per conto della Nokia, aveva registrato un cambiamento in corso negli orientamenti dei consumatori cinesi. In particolare, aveva scoperto quanto i cinesi a basso reddito fossero attratti dalle pubblicità IPhone, ma soprattutto – dopo la comparsa di versioni cinesi meno care degli IPhone dette “shanzhai” –   quanto fossero rimasti catturati dalle promesse, indotte sempre dalle pubblicità IPhone,  di una nuova vita “high-tech”, e di quanto ciò gli avesse resi pronti a tutto  pur di avere uno smartphone.

Alle rivelazioni di Tricia Wang,  la Nokia  rispose picche. La multinazionale finlandese – basandosi sui propri Big Data – era convinta che il prodotto smartphone non si sarebbero venduto. Inoltre, considerava i dati della Wang – ottenuti mediante semplici “chiacchierate” con un certo numero di giovani cinesi –  un pattern davvero debole, da non prendere sul serio. Dalla sua, Tricia Wang rispose alla Nokia facendo  notare: “che era ovvio il fatto che non vedessero il nuovo business, in quanto i loro sondaggi erano fatti pensando che la gente non sapesse cosa fosse un smartphone, e quindi ricevevano dati su persone che non potevano desiderare uno smartphone nei prossimi anni. In pratica si trattava di una metodologia per rinnovare un modello di business già esistente, mentre la sua ricerca stava analizzato dinamiche emergenti proiettate verso un modello di business del  futuro…”  E sappiamo tutti come questa vicenda è andata a finire:  quel vecchio modello di business è precipitato e la Nokia in pratica è scomparsa.

Alla fine di questa storia, una domanda sorge spontanea: perché una grande società come la Nokia con un enorme quantità di dati a disposizione prende una decisione completamente sbagliata? Forse per lo stesso motivo per cui  più del 70% di progetti basati su i Big Data risultano alla fine non redditizi, in altre parole fallimentari. E perché accade questo? Non sarà forse – come si chiede Tricia Wang alla fine  della conferenza – che disporre di una gran mole di dati è inutile se non si è in grado di interpretarli in modo adeguato?

Nel libro “La quarta rivoluzione” il filosofo dell’informazione Luciano Floridi affronta la questione della conoscenza per quel che riguarda i Big Data, spiegando che può essere affrontata non dal punto di vista tecnologico, cioè immaginando semplicemente una super tecnologia per gestirli efficacemente, ma piuttosto dal punto di vista epistemologico. Infatti, la chiave per tirar fuori informazioni innovative e soprattutto dotate di senso dai Big Data è applicare a essi la potenza intellettiva e non quella computazionale, vale a dire essere capaci di individuare negli immensi database oggi disponibili (nei domini della genetica, medicina, fisica sperimentali e nell’universo dei social media) nuovi pattern (modelli) dotati di valore aggiunto. In conclusione, se i Big Data sono destinati e crescere in continuazione, l’unico modo per gestirli, secondo Floridi, è  sapere chi siamo e soprattutto sapere cosa stiamo cercando.

Rispetto alle domande poste da Tricia Wang e alle questioni aperte dal filosofo Luciano Floridi, risulta lampante l’indispensabilità di  immaginare nuovi modelli di analisi capaci di generare quel “valore aggiunto” identificabile con il “perché” quale completamento (arricchimento) dei tanti “chi”, “come”, “dove”,  “quando”… frutto delle standardizzate analisi massive sui Big Data. In questo senso, è un po’ che si parla di Thick Data nel senso della possibilità di mettere a punto modelli basati su dati non più quantitativi ( e quindi Big), ma qualitativi.

Sono Thick Data tutti quei dati ottenuti in modo immersivo e/o etnografico volti a rivelare contesti culturali, sociali ed emotivi relativi a gruppi di studio più o meno ristretti. Un esempio è quello appunto delle interviste ai giovani cinesi realizzate da Tricia Wang, oppure il caso studio di “Placa del Sol” a Barcellona, dove, per combattere l’inquinamento acustico della famosa piazza, è stato per la prima volta datizzato un preciso contesto attraverso il monitoraggio del rumore percepito all’interno delle abitazioni affacciate sulla piazza, in modo da confrontare i nuovi dati così ottenuti con le tabelle ufficiali delle autorità comunali.

In definitiva, i Thick Data possono sembrare l’opposto dei Big Data, in quanto dati qualitativi di contesto rispetto al diluvio di dati quantitativi. Ma, in realtà possono rappresentare illuminanti dimostrazioni di “piccoli pattern” in grado di colmare e aggiustare le tante lacune delle analisi massive dei Big data. Piccoli esempi di come il potere intellettivo applicato alla datizzazione di specifici contesti può portare a livelli di comprensione che spesso rimangono dalla portata dei processi algoritmici.

Pubblicato in algoritmo, big data, Datafication, Thick Data | Contrassegnato , , | Lascia un commento

Gli algoritmi, ovvero il senso dei Big Data

È del 2016 un libro dal titolo evocativo: “Che cosa sognano gli algoritmi. Tuttavia, l’intenzione dell’autore – Dominique Cardon – non è quella di misurarsi in una sorta di fantasioso duello con il famoso “Do Androids dream of electric sheeps” di Philip K. Dick, quanto piuttosto tentare di spiegare al lettore – dal punto di vista scientifico –  che cosa davvero accade nella cosiddetta “scatola nera” del calcolo algoritmico. O meglio, provare a mostrare il funzionamento degli algoritmi “dall’interno” ossia mentre sono all’opera nel cercare di  dare “un senso” al diluvio di Big Data che avvolge e determina le nostre vite.

L’approccio è molto interessante. Intanto, c’è il superamento della solita – scontata –  vulgata su big data e intelligenza artificiale ovvero sulla presunta opposizione umani vs macchine intelligenti. Cardon, infatti,  disegna una prospettiva diversa, molto più utile per una interpretazione critica e propositiva dell’innovazione tecnologica: le cosiddette “macchine intelligenti” non rappresentano qualcosa di alieno che minacciosamente punta a colonizzare spazi umani, ma al contrario si configurano come qualcosa di assimilato e centrale rispetto alla società in quanto è proprio dallo sviluppo tecnologico che viene – attraverso il suo orientamento e la sua organizzazione – un contributo decisivo alla “costruzione” della realtà odierna.

Quindi passa, con sintesi ed efficacia, a descrivere i 4 fondamentali algoritmi che in pratica – attualmente –  governano l’intero web e le nostre vite digitali. Partendo – in ordine cronologico – dal meno recente al più recente. Iniziando con la misura della “popolarità” mediante il conteggio dei “clic”; per  passare poi alla rivoluzione Google con il suo algoritmo “PageRank” ovvero  il rilevamento “dell’autorevolezza” attraverso lo scambio dei link ipertestuali; quindi al calcolo della “reputazione” grazie al mondo social network e i sistemi rating; e infine – con l’esplosione dei big data – alla “predittività”, cioè l’algoritmo – ultimo della serie – più evoluto che “impara” confrontando i “profili comportamentali” degli internauti. Insomma, il futuro del comportamento di un internauta sarà “predetto” grazie alle stime sui comportamenti passati di coloro che – statisticamente – più gli somigliano.

Gli algoritmi, come spiega Cardon, sono governati dalla statistica, dalle infinite correlazioni e regolarità messe a disposizione dai big data. Ad esempio, nel campo dell’innovazione tecnologica nelle applicazioni di AI, l’arrivo dei big data e degli algoritmi statistici, ha prodotto un cambio radicale di prospettiva, vale a dire il passaggio a tentativi di applicazioni “astrattamente intelligenti” ad applicazioni “di statistica intelligente”. Prima IBM e poi Google hanno ri-orientato i loro progetti. Enormi capacità di calcolo degli attuali computer, sempre maggiore disponibilità di big data, hanno portato a  testare contemporaneamente – rispetto a svariate soluzioni di problemi – infinite risposte fino a trovare quelle con maggiori regolarità statistiche.

Questo tipo di soluzione risulta evidente nello sviluppo AI applicato alle traduzioni simultanee. Qui Google – grazie all’enormità di big data acquisiti mediante le sue continue campagne di mass digitization con il progetto “Google Books” – ha messo a punto un’applicazione di intelligenza artificiale statistica – vale a dire “Google Traslate” – che non si preoccupa più di effettuare  una traduzione da una lingua a l’altra, ma lavora  semplicemente su stime statistiche per arrivare alle migliore traduzione possibile, e lo fa confrontando la parole o gruppi di parole – che in quel momento deve tradurre – con l’infinito numero di traduzioni che possiede in memoria grazie agli oltre 25 milioni di testi digitalizzati (big data) in tutte le lingue posseduti dalle principali biblioteche americane ed europee.

Pubblicato in algoritmo, biblioteca digitale, big data, Datafication, digitalizzazione, Google Books, tecnologie digitali | Contrassegnato , , , | Lascia un commento

Le biblioteche al tempo delle fake news

Nel 2016, ha fatto scalpore la decisione dell’Oxford English Dictionary di scegliere “post-truth” come parola dell’anno. All’improvviso,  tutti hanno scoperto di essere in una nuova era, incerta e preoccupante, quella della post-verità. In realtà, la disinformazione c’è sempre stata, compresa una sua certa legittimazione rintracciabile nei cascami filosofici del post-modernismo, a partire dal famoso assunto nietzschiano citato da tutti senza  quasi mai aver letto Nietzsche: “non esistono fatti ma solo interpretazioni”. Tuttavia, è innegabile che da un po’ di tempo a questa parte le cose sono ulteriormente e vorticosamente cambiate, e in peggio.

Internet ha rivoluzionato in pochissimo tempo il secolare status del mondo analogico trasformando – fondamentalmente –  l’informazione da risorsa scarsa a risorsa sovrabbondante. Non solo. Ha nello stesso tempo modificato geneticamente le modalità di produzione, diffusione e acquisizione delle informazioni. Poi con l’arrivo dei social media, l’impatto si è fatto devastante.

Al cambiamento quantitativo e qualitativo dell’informazione, si aggiunto un attacco senza precedenti alla legittimità dei modelli informativi e relative competenze del mondo analogico. Internet è apparsa come la scorciatoia verso un’erudizione fai da te e i social hanno imposto  una generica (pericolosa) sensazione di uguaglianza, del tipo: basta un account e tutti pari siamo…il tutto condito con massicce dosi di arroganza e narcisismo ben riscontrabili nel rifiuto (sempre più generalizzato)  di riconoscere quel principio razionale e di diseguaglianza basato sulla competenza, principio su cui – di fatto – si fonda la conoscenza e la diffusione del sapere  (Tom Nichols “La conoscenza e i suoi nemici”).

In questo mondo informativo nuovo e caoticamente liquido (ricordate Zygmunt Bauman?), che fine fanno le biblioteche? Una volta agenzie indiscusse della conservazione della conoscenza e diffusione del sapere.   Anche perché, il nuovo ecosistema informativo procedendo in maniera esponenziale e pervasiva – attraverso soprattutto la disintermediazione, la polarizzazione e la rimodulazione  dell’attenzione e della memoria – interferisce ormai a tal punto con le facoltà cognitive degli utenti da marginalizzare pratiche di trasmissione di conoscenze consolidate e imporre invece la propagazione virale di nuovi fenomeni comunicativi. Tra questi,  l’inquietante fenomeno delle  fake news.

Secondo Howard Rheingold,  tecnofilo inventore delle “comunità virtuali, sarebbero sufficienti delle semplici regole – come prendere informazioni sull’autore e valutare il design del sito web – per riconoscere e liberarsi delle fake news. Ma purtroppo, si tratta di un’analisi semplice e  ottimista. Un’analisi che non prende in considerazione la combinazione di preoccupanti aspetti psicologici e di  nuovi e sempre più insidiosi format tecnologici studiati ad hoc.

Ad esempio, il sistema fake news trova terreno fertilissimo nel cosiddetto “bias cognitivo di conferma” che trasferito nella Rete significa la tendenza a cercare informazioni che confermano ciò in cui già crediamo. Rinforzato poi – come spiega Tom Nichols nel suo “La conoscenza e i suoi nemici” – dall’effetto “Dunning-Kruger”, cioè dal fatto – dimostrato dai due ricercatori della Cornell University – che gli incompetenti che si aggirano in Internet “non solo giungono a conclusioni erronee e compiono scelte infelici, ma è proprio la loro incompetenza a privarli della capacità di rendersi conto degli errori compiuti”.

Dal canto suo, Eli Pariser ha ben descritto  – in un libro di successo uscito qualche anno fa – una delle più pericolose manipolazioni  tecnologiche al servizio delle fake news: “the filter bubble”. Nata originariamente per migliorare le esperienze di shopping on line, la tecnica della personalizzazione spinta è stata poi applicata anche alle ricerche su Internet. L’idea è quella di personalizzare ogni ricerca chiudendo di fatto l’utente in una bolla informativa autoreferenziale. Nei motori di ricerca, accanto alle normali query  basate sulla rilevanza e metadati, sono stati inseriti anche filtri aggiuntivi con lo scopo  di scandagliare i big data generati dalle preferenze e comportamenti dell’utente in Rete. In questo modo, attraverso i dati relativi ai profili personali degli utenti, filter bubble può piegare le ricerche alla “post-verità”. In altre parole, persone diverse otterranno risultati significativamente diversi (ognuno funzionale alla propria bolla informativa) malgrado  tutte abbiano inserito nel motore di ricerca la stessa  domanda.

La riscossa del mondo delle biblioteche, nel tentativo di rimettere un po’ di ordine in un caos informativo che disorienta e allontana gli utenti marginalizzando sempre di più  la competenza dei bibliotecari rispetto, è partita dall’ IFLA con un’infografica in 39 lingue: “Riconoscere le false notizie”. Un’infografica che elargisce buoni consigli: considera la fonte, approfondisci, verifica l’autore, fonti a supporto,  verifica la data,  si tratta di uno scherzo? Verifica i tuoi preconcetti, chiedi a un esperto ecc… L’idea alla base è che dal mondo delle biblioteche possa (e debba) arrivare un contributo decisivo per migliorare la competenza degli utenti e che tale miglioramento – sempre nell’ambito del pluralismo informativo e della massima accessibilità dei contenuti – possa essere un primo, ma fondamentale, argine rispetto a quella che sembra una irresistibile avanzata della sottocultura delle fake news.

In realtà, le biblioteche –  soprattutto in ambito anglosassone –hanno già cominciato a muoversi. Tutte  con il medesimo duplice obiettivo: promozione (e strumenti) per informazioni di qualità e formazione per gli utenti. Ad esempio, le biblioteche dell’Università di Toronto forniscono – attraverso i servizi di reference on line – suggerimenti  su come effettuare verifiche rispetto a notizie poco attendibili nonché link di approfondimento sul problema “fake news”. La Dallas Public Library ha invece deciso  di puntare su corsi di giornalismo per gli utenti con docenti supportati da bibliotecari con un particolare focus su come cercare e selezionare informazioni  attendibili e accurate. Anche la Biblioteca pubblica di Oakland ha investito  sull’alfabetizzazione organizzando sulle fake news  laboratori interattivi. Più tradizionale, invece, l’approccio scelto dalla Biblioteca di Harvard che ha realizzato una dettagliata guida su “Fake news, disinformazione e propaganda” dove, tra l’altro, si possono trovare articoli accademici sull’argomento con un elenco di risorse on line specializzate sul controllo dei fatti.

Approccio, infine,  “anticonvenzionale” quello scelto dalla University di Washington di Seattle che sotto il titolo provocatorio Calling bullshit traducibile con “chiamare cazzate”, ha organizzato un corso che in realtà mira in alto:  mettere in condizione gli utenti di smascherare le fake pseudo-scientifiche, vale a dire quelle menzogne subdole presentate sotto forma di studi, modelli o dati statistici, quindi “apparentemente” autorevoli: “le cazzate sono linguaggio, cifre statistiche, dati grafici e altre forme di presentazione intese a persuadere impressionando e travolgendo un lettore o un ascoltatore, con un palese disprezzo per la verità e la coerenza logica. In questo corso, ci concentriamo sulle cazzate come spesso appaiono nelle scienze naturali e sociali: sotto forma di modelli e dati fuorvianti che guidano erroneamente”.

In Italia, l’AIB, dopo aver organizzato un convegno nel 2017 “Archivi e biblioteche al tempo delle fake news” nel quale è stato ribadito: il ruolo degli archivi e biblioteche come strumenti di conoscenza critica della realtà e quindi fondamentali per la cittadinanza attiva, l’apprendimento, la salvaguardia della memoria culturale e il confronto delle idee, nel febbraio 2018 ha risposto alla consultazione pubblica lanciata dalla UE sulle cause della disinformazione on line e sui possibili rimedi. In questa occasione, la principale organizzazione italiana di biblioteche, oltre a riaffermare che la disinformazione on line non può essere contrastata con misure liberticide in quanto le fake news non devono essere mai confuse con la libertà di pensiero e opinione, ha indicato come rimedio principale la formazione permanente degli utenti. Un obiettivo da raggiungere intervenendo principalmente in tre settori: potenziando la rete di biblioteche di base e scolastiche, curando la formazione professionale dei bibliotecari e rafforzando l’accesso aperto alle informazioni pubbliche con particolare riguardo ai risultati della ricerca scientifica.

Tuttavia, oltre agli sforzi da parte di bibliotecari, educatori ecc. nella promozione di un’alfabetizzazione digitale all’informazione, per  fortuna c’è anche qualcos’altro, intanto azioni di  fact-checking basate su strumenti e tecnologie per assistere gli specialisti dell’informazione nella verifica e controllo dei fatti, ma soprattutto pratiche avanzate di multiliteracy. Vale a dire di un approccio innovativo che  affronta due cambiamenti epocali: l’esistenza di una crescente diversità linguistica e culturale dovuta all’aumento della migrazione transnazionale e la proliferazione di diverse modalità di comunicazione che si esplicano attraverso le nuove tecnologie quali Internet, i multimedia, i social media ecc. L’uso didattico di questo approccio che utilizza una combinazione di paradigmi può – ad esempio – aiutare i bibliotecari nel loro sforzo quotidiano di  verificabilità delle informazione e di protezione  da garantire agli utenti rispetto alle cattive conseguenze epistemiche causate dall’assimilazione di informazioni scadenti e/o false.

E proprio in relazione al sapere e al conseguente concetto di verità, risultano particolarmente interessanti – anche in relazione ai compiti che possono essere assunti dalle biblioteche – le riflessioni della filosofa Franca D’Agostini. Secondo la quale, “la vera novità dei nostri tempi non tanto il dilagare indisturbato di insensatezze, falsità mezze verità: in fin dei conti è cresciuta la possibilità di essere ingannati, ma anche quella di smascherare gli inganni…” L’aspetto nuovo è che finalmente ci si è resi conto che esiste un problema di verità, ovvero “un’emergenza verità”. Da qui l’esigenza pubblica di fissare una serie di diritti – che ha chiamato “aletici” dalla parola greca “aletheia”(verità) – “per mettere il più possibile i cittadini al riparo da inganni nel quadro della crescente democratizzazione della conoscenza che contrassegna la nostra epoca. L’obiettivo non è imporre una “verità di Stato”, ma creare un ambiente favorevole al rispetto dei dati di fatto, fornendo all’opinione pubblica gli strumenti per orientarsi”.

Giorgio Antoniacomi – bibliotecario presso la Biblioteca comunale di Trento – in un suo stimolante articolo “I percorsi ingannevoli nella gestione delle collezioni di una biblioteca pubblica tra censura e legittimazione della post verità: verso un paradigma dei diritti aletici, ha provato a declinare i diritti alla verità indicati dalla filosofa D’Agostini nell’ambito dell’azione/servizi delle biblioteche, nell’intento di garantire in questo modo agli utenti, tra l’altro: il diritto di essere informati in modo veridico; il diritto di essere nelle condizioni di giudicare e cercare la verità;  il diritto di essere sostenuti dalla biblioteca nella ricerca delle fonti affidabili di verità;  il diritto di avere nella biblioteca un’autorità aletica affidabile… e poi sul “dove” inserire questi nuovi “diritti alla verità” nell’ambito della  gerarchia delle fonti normative che regolano una biblioteca pubblica, Antoniacomi suggerisce la “carta dei servizi”  in quanto assimilabile “a una sorta di contratto che la biblioteca assume unilateralmente nei confronti dei propri utenti, a garanzia dei diritti degli utenti stessi”

In ogni caso, l’indispensabilità delle biblioteche e dei bibliotecari nella lotta alle fake news, non è considerata da tutti così scontata. Infatti, proprio dall’interno dell’universo bibliotecario americano arriva una voce discordante. M. Connor Sullivan – bibliotecario della Widener Library della Harvard University – ha recentemente pubblicato  sul Journal of Librarianship and Information Science un articolo,  controcorrente: Why librarians can’t fight fake news. Sullivan, partendo dal panico creato dalla diffusione di false notizie che hanno caratterizzato le elezioni presidenziali americane nel 2016, offre nell’articolo una panoramica sui possibili approcci della biblioteconomia e su quelli della scienza dell’informazione rispetto al problema della disinformazione.  Arrivando alla fine dell’excursus a una conclusione originale.  Vale a dire, che la sola riaffermazione dei principi e dei servizi biblioteconomici – così come sostenuto dall’ALA – non sia sufficiente per condurre vittoriosamente la battaglia contro le fake news. Ma, al contrario, sia necessario un approccio globale che vada oltre la tradizionale selezione tra buona o cattiva informazione, e che  invece affronti – con nuovi strumenti concettuali – il nuovo contesto psicologico e sociale della Rete sempre di più determinato  dalle interazioni tra individui e gruppi e le tecnologie digitali.

Pubblicato in biblioteca digitale, biblioteche italiane, futuro del libro, Intelligenza artificiale, Social Network, società dell'informazione, storia delle biblioteche, tecnologie digitali | Contrassegnato , , , , , , , , , , , , , , , , , | Lascia un commento

Serve un mondo meno digitale? O più “humanities” nel mondo digitale?

Il problema: la rivoluzione tecnologica che con le sue continue ondate dirompenti e pervasive stravolge tutto e tutti. Che fare? Quattro libri usciti recentemente– uno italiano e tre da oltreoceano –   tentano, da impostazioni diverse,  di offrire interpretazioni e fornire risposte.

Il testo italiano abbraccia una critica complessiva – “filosofica” –  sia riguardo il “senso”  della rivoluzione tecnologica sia rispetto i suoi “pesanti” effetti sulla società. Invece, i volumi” made in USA”, concentrano la loro critica  non sulla rivoluzione tecnologica in quanto tale, ma su il suo attuale modello di sviluppo,  in quanto troppo monopolizzato  dal cosiddetto blocco STEM (Science, Technology, Engineering and Mathematics) a discapito delle Humanities che viceversa dovrebbero – secondo i tre autori –  riacquistare assolutamente un ruolo centrale.

Il testo italiano è quello del decano dei sociologi italiani, Franco Ferrarotti: “Il viaggiatore sedentario. Internet e la società irretita”. Nelle sue pagine, il problema centrale è l’abuso della tecnologia e le conseguenze di questo abuso sull’individuo, soggiogato e alienato. La tesi di partenza è il fraintendimento della società attuale rispetto allo status della tecnologia, e cioè la confusione tra valore strumentale e valore finale.

Da qui a cascata, una serie di conseguenze nefaste per le persone e  società. A cominciare dalla perdita della struttura originaria della comunicazione. Secondo Ferrarotti, quando tecnicamente si può comunicare in tempo reale su scala planetaria, non c’è più nulla da comunicare. Si perde la comunicazione tra coloro che dialogano, e non rimane altro che un “deserto esistenziale”. C’è poi lo straniamento causato dal potere ipnotico dell’immagine e dalla frammentazione dell’esperienza, conseguenze della pervasività della Rete e dal potere della realtà virtuale.

Tuttavia, nell’allarmata descrizione di Ferrarotti, la tecnologia non è sola  sul banco degli imputati, al suo fianco ci sono anche  quelli che dovrebbero criticarla e non lo fanno: i sociologi. Il loro – denuncia Ferrarotti – è un inspiegabile e “assordante” silenzio davanti a siffatte trasformazioni in corso nella società contemporanea: “non capiscono che i valori strumentali, interpretati e fatti valere come valori finali, sono semplicemente strumenti di morte: uccidono la memoria, inaridiscono la vita interiore, disgregano l’individuo, mettendone in piazza tutti i segreti e quindi svuotandolo”.

Alla Stanford University, gli studenti – scherzosamente – vengono divisi in “Fuzzies” e “Techies”. I primi sono coloro che studiano le arti, le scienze umane, le scienze sociali. I secondi sono invece i tecnici, cioè gli appartenenti a ingegneria, scienze informatiche ecc… Scott Hartley, parte da  questa goliardica dicotomia per dimostrare il suo contrario: l’opposizione tra humanities e hard science non dovrebbe esistere,  è pericolosa. E svolge questa tesi nel suo The fuzzy and the techie. Why the liberal arts will rule the digital world”.

La contrapposizione – secondo Hartley – è frutto di una mentalità sbagliata per la quale educazione e preparazione degli studenti deve essere settoriale e specialista. Al contrario – sostiene Hartley –  per affrontare e risolvere gli attuali e futuri problemi scientifici, ambientali, sociali ecc. su larga scala, è necessaria una formazione il più possibile aperta anche e soprattutto in ambito tecnologico.

Un classico esempio citato dall’autore sono i Big Data, tecnologia emergente e potentissima che però ha un assoluto bisogno di creatività e competenze umanistiche. I dati in quanto tali sono grezzi, vuoti, non dicono nulla. Per farli esprimere è necessario interrogarli, e interpretarli. Chi meglio può farlo che un umanista abituato all’ermeneutica?

Christian Madsbjerg con il suo “Sensemaking” affronta lo stesso problema dei Big Data però in ambito aziendale. Qui, nel marketing, gli algoritmi la fanno da padrone. La tesi, in questo caso, è che per analizzare i Big Data, le aziende dovrebbero capire le persone che stanno dietro quei dati. Non facendolo, e affidandosi soltanto alla tecnologia, rischiano di perdere i contatti con i mercati per i quali stanno lavorando.

Madsnjerg sostiene la rivalutazione del giudizio umano basato su un’attenta osservazione dei contesti. Come esempio di riconsiderazione del fattore umano,  cita il caso della facoltà dell’Accademia navale statunitense, che dopo aver smesso di insegnare – alla fine degli anni ’90 – la navigazione celeste per affidarsi alla tecnologia satellitare GPS, è tornata su i suoi passi ripristinando i corsi di navigazione tramite le stelle.

Madsbjerg non si considera affatto un luddista. Comprende appieno il valore dei dati generati dagli algoritmi, ma è anche certo che una mente umana finemente sintonizzata può risolvere problemi che vanno oltre la portata dei computer privi di emozioni.

La riscoperta del contesto umano, è anche il focus dell’ultimo libro statunitense: “Cents and Sensibility” di Gary Saul Morson e Morton Schapiro docenti di scienze umane ed economiche presso la Northwestern University. In questo caso, la tecnologia da supportare con robusti inserimenti di humanities è quella dei modelli economici artificiali.

La soluzione proposta dagli autori è suggestiva: utilizzare come strumento di lavoro la letteratura. Gli scrittori svolgono – secondo gli autori – analisi approfondite, mentre gli economisti tendono a trattare le persone e i loro contesti come semplici aride astrazioni. I grandi romanzi aiutano a sviluppare empatia costringendo a vedere il mondo come gli altri lo vedono. E in conclusione, Morson e Schapiro si chiedono: un modello economico o un caso-studio possono mai disegnare profondamente e vividamente una persona come Tolstoj ha disegnato Anna Karenina?

Tuttavia, c’è una visione che lega e spiega meglio le tesi dei tre libri USA, cioè la riscoperta dell’importanza delle Humanities.  È lo scenario  “Second Machine Age” raccontato nel libro di Erik Brynijolfsson e Andrew McAfee,  The Second Machine Age: work, progress e prosperità in a time of brillant technologies”.

La nuova rivoluzione delle macchine sta causando un cambiamento esponenziale, digitale e combinatorio mai visto prima. E secondo gli autori sono ormai prossimi due passaggi fondamentali che muteranno definitivamente la società: la creazione di una vera intelligenza artificiale e la connessione di tutti gli umani tramite una rete digitale comune.

Tuttavia, l’uomo mantiene un grosso vantaggio sulle macchine: l’ideazione e l’immaginazione. I computer sono macchine eccezionali ma sanno generare solo risposte. Si aprirà sempre di più un grande spazio per chi dovrà porre le giuste domande, e a chi spetterà il compito se non alle  “Humanities”? Solo grazie a loro, le nuove risposte potranno metterci in grado d’affrontare al meglio i problemi sul tappeto e nello stesso  aiutarci nel progettare un futuro migliore.

Pubblicato in big data, Big Data culturali, Intelligenza artificiale, società dell'informazione, tecnologie digitali | Contrassegnato , , , , , , , | Lascia un commento