Gli algoritmi, ovvero il senso statistico dei Big Data

È del 2016 un libro dal titolo evocativo: “Che cosa sognano gli algoritmi. Tuttavia, l’intenzione dell’autore – Dominique Cardon – non è quella di misurarsi in una sorta di fantasioso duello con il famoso “Do Androids dream of electric sheeps” di Philip K. Dick, quanto piuttosto tentare di spiegare al lettore – dal punto di vista scientifico –  che cosa davvero accade nella cosiddetta “scatola nera” del calcolo algoritmico. O meglio, provare a mostrare il funzionamento degli algoritmi “dall’interno” ossia mentre sono all’opera nel cercare di  dare “un senso” al diluvio di Big Data che avvolge e determina le nostre vite.

L’approccio è molto interessante. Intanto, c’è il superamento della solita – scontata –  vulgata su big data e intelligenza artificiale ovvero sulla presunta opposizione umani vs macchine intelligenti. Cardon, infatti,  disegna una prospettiva diversa, molto più utile per una interpretazione critica e propositiva dell’innovazione tecnologica: le cosiddette “macchine intelligenti” non rappresentano qualcosa di alieno che minacciosamente punta a colonizzare spazi umani, ma al contrario si configurano come qualcosa di assimilato e centrale rispetto alla società in quanto è proprio dallo sviluppo tecnologico che viene – attraverso il suo orientamento e la sua organizzazione – un contributo decisivo alla “costruzione” della realtà odierna.

Quindi passa, con sintesi ed efficacia, a descrivere i 4 fondamentali algoritmi che in pratica – attualmente –  governano l’intero web e le nostre vite digitali. Partendo – in ordine cronologico – dal meno recente al più recente. Iniziando con la misura della “popolarità” mediante il conteggio dei “clic”; per  passare poi alla rivoluzione Google con il suo algoritmo “PageRank” ovvero  il rilevamento “dell’autorevolezza” attraverso lo scambio dei link ipertestuali; quindi al calcolo della “reputazione” grazie al mondo social network e i sistemi rating; e infine – con l’esplosione dei big data – alla “predittività”, cioè l’algoritmo – ultimo della serie – più evoluto che “impara” confrontando i “profili comportamentali” degli internauti. Insomma, il futuro del comportamento di un internauta sarà “predetto” grazie alle stime sui comportamenti passati di coloro che – statisticamente – più gli somigliano.

Gli algoritmi, come spiega Cardon, sono governati dalla statistica, dalle infinite correlazioni e regolarità messe a disposizione dai big data. Ad esempio, nel campo dell’innovazione tecnologica nelle applicazioni di AI, l’arrivo dei big data e degli algoritmi statistici, ha prodotto un cambio radicale di prospettiva, vale a dire il passaggio a tentativi di applicazioni “astrattamente intelligenti” ad applicazioni “di statistica intelligente”. Prima IBM e poi Google hanno ri-orientato i loro progetti. Enormi capacità di calcolo degli attuali computer, sempre maggiore disponibilità di big data, hanno portato a  testare contemporaneamente – rispetto a svariate soluzioni di problemi – infinite risposte fino a trovare quelle con maggiori regolarità statistiche.

Questo tipo di soluzione risulta evidente nello sviluppo AI applicato alle traduzioni simultanee. Qui Google – grazie all’enormità di big data acquisiti mediante le sue continue campagne di mass digitization con il progetto “Google Books” – ha messo a punto un’applicazione di intelligenza artificiale statistica – vale a dire “Google Traslate” – che non si preoccupa più di effettuare  una traduzione da una lingua a l’altra, ma lavora  semplicemente su stime statistiche per arrivare alle migliore traduzione possibile, e lo fa confrontando la parole o gruppi di parole – che in quel momento deve tradurre – con l’infinito numero di traduzioni che possiede in memoria grazie agli oltre 25 milioni di testi digitalizzati (big data) in tutte le lingue posseduti dalle principali biblioteche americane ed europee.

Pubblicato in algoritmo, biblioteca digitale, big data, Datafication, digitalizzazione, Google Books, tecnologie digitali | Contrassegnato , , , | Lascia un commento

Le biblioteche al tempo delle fake news

Nel 2016, ha fatto scalpore la decisione dell’Oxford English Dictionary di scegliere “post-truth” come parola dell’anno. All’improvviso,  tutti hanno scoperto di essere in una nuova era, incerta e preoccupante, quella della post-verità. In realtà, la disinformazione c’è sempre stata, compresa una sua certa legittimazione rintracciabile nei cascami filosofici del post-modernismo, a partire dal famoso assunto nietzschiano citato da tutti senza  quasi mai aver letto Nietzsche: “non esistono fatti ma solo interpretazioni”. Tuttavia, è innegabile che da un po’ di tempo a questa parte le cose sono ulteriormente e vorticosamente cambiate, e in peggio.

Internet ha rivoluzionato in pochissimo tempo il secolare status del mondo analogico trasformando – fondamentalmente –  l’informazione da risorsa scarsa a risorsa sovrabbondante. Non solo. Ha nello stesso tempo modificato geneticamente le modalità di produzione, diffusione e acquisizione delle informazioni. Poi con l’arrivo dei social media, l’impatto si è fatto devastante.

Al cambiamento quantitativo e qualitativo dell’informazione, si aggiunto un attacco senza precedenti alla legittimità dei modelli informativi e relative competenze del mondo analogico. Internet è apparsa come la scorciatoia verso un’erudizione fai da te e i social hanno imposto  una generica (pericolosa) sensazione di uguaglianza, del tipo: basta un account e tutti pari siamo…il tutto condito con massicce dosi di arroganza e narcisismo ben riscontrabili nel rifiuto (sempre più generalizzato)  di riconoscere quel principio razionale e di diseguaglianza basato sulla competenza, principio su cui – di fatto – si fonda la conoscenza e la diffusione del sapere  (Tom Nichols “La conoscenza e i suoi nemici”).

In questo mondo informativo nuovo e caoticamente liquido (ricordate Zygmunt Bauman?), che fine fanno le biblioteche? Una volta agenzie indiscusse della conservazione della conoscenza e diffusione del sapere.   Anche perché, il nuovo ecosistema informativo procedendo in maniera esponenziale e pervasiva – attraverso soprattutto la disintermediazione, la polarizzazione e la rimodulazione  dell’attenzione e della memoria – interferisce ormai a tal punto con le facoltà cognitive degli utenti da marginalizzare pratiche di trasmissione di conoscenze consolidate e imporre invece la propagazione virale di nuovi fenomeni comunicativi. Tra questi,  l’inquietante fenomeno delle  fake news.

Secondo Howard Rheingold,  tecnofilo inventore delle “comunità virtuali, sarebbero sufficienti delle semplici regole – come prendere informazioni sull’autore e valutare il design del sito web – per riconoscere e liberarsi delle fake news. Ma purtroppo, si tratta di un’analisi semplice e  ottimista. Un’analisi che non prende in considerazione la combinazione di preoccupanti aspetti psicologici e di  nuovi e sempre più insidiosi format tecnologici studiati ad hoc.

Ad esempio, il sistema fake news trova terreno fertilissimo nel cosiddetto “bias cognitivo di conferma” che trasferito nella Rete significa la tendenza a cercare informazioni che confermano ciò in cui già crediamo. Rinforzato poi – come spiega Tom Nichols nel suo “La conoscenza e i suoi nemici” – dall’effetto “Dunning-Kruger”, cioè dal fatto – dimostrato dai due ricercatori della Cornell University – che gli incompetenti che si aggirano in Internet “non solo giungono a conclusioni erronee e compiono scelte infelici, ma è proprio la loro incompetenza a privarli della capacità di rendersi conto degli errori compiuti”.

Dal canto suo, Eli Pariser ha ben descritto  – in un libro di successo uscito qualche anno fa – una delle più pericolose manipolazioni  tecnologiche al servizio delle fake news: “the filter bubble”. Nata originariamente per migliorare le esperienze di shopping on line, la tecnica della personalizzazione spinta è stata poi applicata anche alle ricerche su Internet. L’idea è quella di personalizzare ogni ricerca chiudendo di fatto l’utente in una bolla informativa autoreferenziale. Nei motori di ricerca, accanto alle normali query  basate sulla rilevanza e metadati, sono stati inseriti anche filtri aggiuntivi con lo scopo  di scandagliare i big data generati dalle preferenze e comportamenti dell’utente in Rete. In questo modo, attraverso i dati relativi ai profili personali degli utenti, filter bubble può piegare le ricerche alla “post-verità”. In altre parole, persone diverse otterranno risultati significativamente diversi (ognuno funzionale alla propria bolla informativa) malgrado  tutte abbiano inserito nel motore di ricerca la stessa  domanda.

La riscossa del mondo delle biblioteche, nel tentativo di rimettere un po’ di ordine in un caos informativo che disorienta e allontana gli utenti marginalizzando sempre di più  la competenza dei bibliotecari rispetto, è partita dall’ IFLA con un’infografica in 39 lingue: “Riconoscere le false notizie”. Un’infografica che elargisce buoni consigli: considera la fonte, approfondisci, verifica l’autore, fonti a supporto,  verifica la data,  si tratta di uno scherzo? Verifica i tuoi preconcetti, chiedi a un esperto ecc… L’idea alla base è che dal mondo delle biblioteche possa (e debba) arrivare un contributo decisivo per migliorare la competenza degli utenti e che tale miglioramento – sempre nell’ambito del pluralismo informativo e della massima accessibilità dei contenuti – possa essere un primo, ma fondamentale, argine rispetto a quella che sembra una irresistibile avanzata della sottocultura delle fake news.

In realtà, le biblioteche –  soprattutto in ambito anglosassone –hanno già cominciato a muoversi. Tutte  con il medesimo duplice obiettivo: promozione (e strumenti) per informazioni di qualità e formazione per gli utenti. Ad esempio, le biblioteche dell’Università di Toronto forniscono – attraverso i servizi di reference on line – suggerimenti  su come effettuare verifiche rispetto a notizie poco attendibili nonché link di approfondimento sul problema “fake news”. La Dallas Public Library ha invece deciso  di puntare su corsi di giornalismo per gli utenti con docenti supportati da bibliotecari con un particolare focus su come cercare e selezionare informazioni  attendibili e accurate. Anche la Biblioteca pubblica di Oakland ha investito  sull’alfabetizzazione organizzando sulle fake news  laboratori interattivi. Più tradizionale, invece, l’approccio scelto dalla Biblioteca di Harvard che ha realizzato una dettagliata guida su “Fake news, disinformazione e propaganda” dove, tra l’altro, si possono trovare articoli accademici sull’argomento con un elenco di risorse on line specializzate sul controllo dei fatti.

Approccio, infine,  “anticonvenzionale” quello scelto dalla University di Washington di Seattle che sotto il titolo provocatorio Calling bullshit traducibile con “chiamare cazzate”, ha organizzato un corso che in realtà mira in alto:  mettere in condizione gli utenti di smascherare le fake pseudo-scientifiche, vale a dire quelle menzogne subdole presentate sotto forma di studi, modelli o dati statistici, quindi “apparentemente” autorevoli: “le cazzate sono linguaggio, cifre statistiche, dati grafici e altre forme di presentazione intese a persuadere impressionando e travolgendo un lettore o un ascoltatore, con un palese disprezzo per la verità e la coerenza logica. In questo corso, ci concentriamo sulle cazzate come spesso appaiono nelle scienze naturali e sociali: sotto forma di modelli e dati fuorvianti che guidano erroneamente”.

In Italia, l’AIB, dopo aver organizzato un convegno nel 2017 “Archivi e biblioteche al tempo delle fake news” nel quale è stato ribadito: il ruolo degli archivi e biblioteche come strumenti di conoscenza critica della realtà e quindi fondamentali per la cittadinanza attiva, l’apprendimento, la salvaguardia della memoria culturale e il confronto delle idee, nel febbraio 2018 ha risposto alla consultazione pubblica lanciata dalla UE sulle cause della disinformazione on line e sui possibili rimedi. In questa occasione, la principale organizzazione italiana di biblioteche, oltre a riaffermare che la disinformazione on line non può essere contrastata con misure liberticide in quanto le fake news non devono essere mai confuse con la libertà di pensiero e opinione, ha indicato come rimedio principale la formazione permanente degli utenti. Un obiettivo da raggiungere intervenendo principalmente in tre settori: potenziando la rete di biblioteche di base e scolastiche, curando la formazione professionale dei bibliotecari e rafforzando l’accesso aperto alle informazioni pubbliche con particolare riguardo ai risultati della ricerca scientifica.

Tuttavia, oltre agli sforzi da parte di bibliotecari, educatori ecc. nella promozione di un’alfabetizzazione digitale all’informazione, per  fortuna c’è anche qualcos’altro, intanto azioni di  fact-checking basate su strumenti e tecnologie per assistere gli specialisti dell’informazione nella verifica e controllo dei fatti, ma soprattutto pratiche avanzate di multiliteracy. Vale a dire di un approccio innovativo che  affronta due cambiamenti epocali: l’esistenza di una crescente diversità linguistica e culturale dovuta all’aumento della migrazione transnazionale e la proliferazione di diverse modalità di comunicazione che si esplicano attraverso le nuove tecnologie quali Internet, i multimedia, i social media ecc. L’uso didattico di questo approccio che utilizza una combinazione di paradigmi può – ad esempio – aiutare i bibliotecari nel loro sforzo quotidiano di  verificabilità delle informazione e di protezione  da garantire agli utenti rispetto alle cattive conseguenze epistemiche causate dall’assimilazione di informazioni scadenti e/o false.

E proprio in relazione al sapere e al conseguente concetto di verità, risultano particolarmente interessanti – anche in relazione ai compiti che possono essere assunti dalle biblioteche – le riflessioni della filosofa Franca D’Agostini. Secondo la quale, “la vera novità dei nostri tempi non tanto il dilagare indisturbato di insensatezze, falsità mezze verità: in fin dei conti è cresciuta la possibilità di essere ingannati, ma anche quella di smascherare gli inganni…” L’aspetto nuovo è che finalmente ci si è resi conto che esiste un problema di verità, ovvero “un’emergenza verità”. Da qui l’esigenza pubblica di fissare una serie di diritti – che ha chiamato “aletici” dalla parola greca “aletheia”(verità) – “per mettere il più possibile i cittadini al riparo da inganni nel quadro della crescente democratizzazione della conoscenza che contrassegna la nostra epoca. L’obiettivo non è imporre una “verità di Stato”, ma creare un ambiente favorevole al rispetto dei dati di fatto, fornendo all’opinione pubblica gli strumenti per orientarsi”.

Giorgio Antoniacomi – bibliotecario presso la Biblioteca comunale di Trento – in un suo stimolante articolo “I percorsi ingannevoli nella gestione delle collezioni di una biblioteca pubblica tra censura e legittimazione della post verità: verso un paradigma dei diritti aletici, ha provato a declinare i diritti alla verità indicati dalla filosofa D’Agostini nell’ambito dell’azione/servizi delle biblioteche, nell’intento di garantire in questo modo agli utenti, tra l’altro: il diritto di essere informati in modo veridico; il diritto di essere nelle condizioni di giudicare e cercare la verità;  il diritto di essere sostenuti dalla biblioteca nella ricerca delle fonti affidabili di verità;  il diritto di avere nella biblioteca un’autorità aletica affidabile… e poi sul “dove” inserire questi nuovi “diritti alla verità” nell’ambito della  gerarchia delle fonti normative che regolano una biblioteca pubblica, Antoniacomi suggerisce la “carta dei servizi”  in quanto assimilabile “a una sorta di contratto che la biblioteca assume unilateralmente nei confronti dei propri utenti, a garanzia dei diritti degli utenti stessi”

In ogni caso, l’indispensabilità delle biblioteche e dei bibliotecari nella lotta alle fake news, non è considerata da tutti così scontata. Infatti, proprio dall’interno dell’universo bibliotecario americano arriva una voce discordante. M. Connor Sullivan – bibliotecario della Widener Library della Harvard University – ha recentemente pubblicato  sul Journal of Librarianship and Information Science un articolo,  controcorrente: Why librarians can’t fight fake news. Sullivan, partendo dal panico creato dalla diffusione di false notizie che hanno caratterizzato le elezioni presidenziali americane nel 2016, offre nell’articolo una panoramica sui possibili approcci della biblioteconomia e su quelli della scienza dell’informazione rispetto al problema della disinformazione.  Arrivando alla fine dell’excursus a una conclusione originale.  Vale a dire, che la sola riaffermazione dei principi e dei servizi biblioteconomici – così come sostenuto dall’ALA – non sia sufficiente per condurre vittoriosamente la battaglia contro le fake news. Ma, al contrario, sia necessario un approccio globale che vada oltre la tradizionale selezione tra buona o cattiva informazione, e che  invece affronti – con nuovi strumenti concettuali – il nuovo contesto psicologico e sociale della Rete sempre di più determinato  dalle interazioni tra individui e gruppi e le tecnologie digitali.

Pubblicato in biblioteca digitale, biblioteche italiane, futuro del libro, Intelligenza artificiale, Social Network, società dell'informazione, storia delle biblioteche, tecnologie digitali | Contrassegnato , , , , , , , , , , , , , , , , , | Lascia un commento

Serve un mondo meno digitale? O più “humanities” nel mondo digitale?

Il problema: la rivoluzione tecnologica che con le sue continue ondate dirompenti e pervasive stravolge tutto e tutti. Che fare? Quattro libri usciti recentemente– uno italiano e tre da oltreoceano –   tentano, da impostazioni diverse,  di offrire interpretazioni e fornire risposte.

Il testo italiano abbraccia una critica complessiva – “filosofica” –  sia riguardo il “senso”  della rivoluzione tecnologica sia rispetto i suoi “pesanti” effetti sulla società. Invece, i volumi” made in USA”, concentrano la loro critica  non sulla rivoluzione tecnologica in quanto tale, ma su il suo attuale modello di sviluppo,  in quanto troppo monopolizzato  dal cosiddetto blocco STEM (Science, Technology, Engineering and Mathematics) a discapito delle Humanities che viceversa dovrebbero – secondo i tre autori –  riacquistare assolutamente un ruolo centrale.

Il testo italiano è quello del decano dei sociologi italiani, Franco Ferrarotti: “Il viaggiatore sedentario. Internet e la società irretita”. Nelle sue pagine, il problema centrale è l’abuso della tecnologia e le conseguenze di questo abuso sull’individuo, soggiogato e alienato. La tesi di partenza è il fraintendimento della società attuale rispetto allo status della tecnologia, e cioè la confusione tra valore strumentale e valore finale.

Da qui a cascata, una serie di conseguenze nefaste per le persone e  società. A cominciare dalla perdita della struttura originaria della comunicazione. Secondo Ferrarotti, quando tecnicamente si può comunicare in tempo reale su scala planetaria, non c’è più nulla da comunicare. Si perde la comunicazione tra coloro che dialogano, e non rimane altro che un “deserto esistenziale”. C’è poi lo straniamento causato dal potere ipnotico dell’immagine e dalla frammentazione dell’esperienza, conseguenze della pervasività della Rete e dal potere della realtà virtuale.

Tuttavia, nell’allarmata descrizione di Ferrarotti, la tecnologia non è sola  sul banco degli imputati, al suo fianco ci sono anche  quelli che dovrebbero criticarla e non lo fanno: i sociologi. Il loro – denuncia Ferrarotti – è un inspiegabile e “assordante” silenzio davanti a siffatte trasformazioni in corso nella società contemporanea: “non capiscono che i valori strumentali, interpretati e fatti valere come valori finali, sono semplicemente strumenti di morte: uccidono la memoria, inaridiscono la vita interiore, disgregano l’individuo, mettendone in piazza tutti i segreti e quindi svuotandolo”.

Alla Stanford University, gli studenti – scherzosamente – vengono divisi in “Fuzzies” e “Techies”. I primi sono coloro che studiano le arti, le scienze umane, le scienze sociali. I secondi sono invece i tecnici, cioè gli appartenenti a ingegneria, scienze informatiche ecc… Scott Hartley, parte da  questa goliardica dicotomia per dimostrare il suo contrario: l’opposizione tra humanities e hard science non dovrebbe esistere,  è pericolosa. E svolge questa tesi nel suo The fuzzy and the techie. Why the liberal arts will rule the digital world”.

La contrapposizione – secondo Hartley – è frutto di una mentalità sbagliata per la quale educazione e preparazione degli studenti deve essere settoriale e specialista. Al contrario – sostiene Hartley –  per affrontare e risolvere gli attuali e futuri problemi scientifici, ambientali, sociali ecc. su larga scala, è necessaria una formazione il più possibile aperta anche e soprattutto in ambito tecnologico.

Un classico esempio citato dall’autore sono i Big Data, tecnologia emergente e potentissima che però ha un assoluto bisogno di creatività e competenze umanistiche. I dati in quanto tali sono grezzi, vuoti, non dicono nulla. Per farli esprimere è necessario interrogarli, e interpretarli. Chi meglio può farlo che un umanista abituato all’ermeneutica?

Christian Madsbjerg con il suo “Sensemaking” affronta lo stesso problema dei Big Data però in ambito aziendale. Qui, nel marketing, gli algoritmi la fanno da padrone. La tesi, in questo caso, è che per analizzare i Big Data, le aziende dovrebbero capire le persone che stanno dietro quei dati. Non facendolo, e affidandosi soltanto alla tecnologia, rischiano di perdere i contatti con i mercati per i quali stanno lavorando.

Madsnjerg sostiene la rivalutazione del giudizio umano basato su un’attenta osservazione dei contesti. Come esempio di riconsiderazione del fattore umano,  cita il caso della facoltà dell’Accademia navale statunitense, che dopo aver smesso di insegnare – alla fine degli anni ’90 – la navigazione celeste per affidarsi alla tecnologia satellitare GPS, è tornata su i suoi passi ripristinando i corsi di navigazione tramite le stelle.

Madsbjerg non si considera affatto un luddista. Comprende appieno il valore dei dati generati dagli algoritmi, ma è anche certo che una mente umana finemente sintonizzata può risolvere problemi che vanno oltre la portata dei computer privi di emozioni.

La riscoperta del contesto umano, è anche il focus dell’ultimo libro statunitense: “Cents and Sensibility” di Gary Saul Morson e Morton Schapiro docenti di scienze umane ed economiche presso la Northwestern University. In questo caso, la tecnologia da supportare con robusti inserimenti di humanities è quella dei modelli economici artificiali.

La soluzione proposta dagli autori è suggestiva: utilizzare come strumento di lavoro la letteratura. Gli scrittori svolgono – secondo gli autori – analisi approfondite, mentre gli economisti tendono a trattare le persone e i loro contesti come semplici aride astrazioni. I grandi romanzi aiutano a sviluppare empatia costringendo a vedere il mondo come gli altri lo vedono. E in conclusione, Morson e Schapiro si chiedono: un modello economico o un caso-studio possono mai disegnare profondamente e vividamente una persona come Tolstoj ha disegnato Anna Karenina?

Tuttavia, c’è una visione che lega e spiega meglio le tesi dei tre libri USA, cioè la riscoperta dell’importanza delle Humanities.  È lo scenario  “Second Machine Age” raccontato nel libro di Erik Brynijolfsson e Andrew McAfee,  The Second Machine Age: work, progress e prosperità in a time of brillant technologies”.

La nuova rivoluzione delle macchine sta causando un cambiamento esponenziale, digitale e combinatorio mai visto prima. E secondo gli autori sono ormai prossimi due passaggi fondamentali che muteranno definitivamente la società: la creazione di una vera intelligenza artificiale e la connessione di tutti gli umani tramite una rete digitale comune.

Tuttavia, l’uomo mantiene un grosso vantaggio sulle macchine: l’ideazione e l’immaginazione. I computer sono macchine eccezionali ma sanno generare solo risposte. Si aprirà sempre di più un grande spazio per chi dovrà porre le giuste domande, e a chi spetterà il compito se non alle  “Humanities”? Solo grazie a loro, le nuove risposte potranno metterci in grado d’affrontare al meglio i problemi sul tappeto e nello stesso  aiutarci nel progettare un futuro migliore.

Pubblicato in big data, Big Data culturali, Intelligenza artificiale, società dell'informazione, tecnologie digitali | Contrassegnato , , , , , , , | Lascia un commento

Biblioteche nel diluvio dei Big Data: prospettive per nuovi servizi tra “data curation” e “open data”

SynthSysDATAdiagram-cmykI Big Data – per ora – hanno solo “sfiorato” il mondo delle biblioteche. Si è trattato  di un “rendezvous” che  lascia però presagire ulteriori sviluppi “rivoluzionari”. L’ingresso pieno di questa nuova tecnologia in Biblioteca potrà, infatti, suscitare nuovi importanti significati con ricadute non soltanto tecnologiche ma anche organizzative. Si profila una sfida in grado di determinare un vero e proprio rivolgimento degli attuali assetti bibliotecari. Si può immaginare che l’impatto dei Big Data possa perfino  spostare il tradizionale baricentro delle biblioteche dalle collezioni ai dati. Questo – probabilmente – comporterebbe un ritorno – nell’organizzazione dei sistemi bibliotecari – a forme più centralizzate (più attrezzate nella  gestione della complessità dei Big Data) con il conseguente declino dei modelli distribuiti basati su biblioteche di medio – piccole dimensioni.

Parallelamente, alla luce di questi scenari, anche il ruolo del bibliotecario sembra destinato a cambiare drasticamente. Già ora,  nei paesi anglosassoni e del nord Europa,  si sta affermando una nuova figura professionale: il “liaison librarian”, ovvero un bibliotecario, che a stretto contatto con il mondo della ricerca universitaria,  svolge attività qualificate di consulenza. Ma, questa nuova definizione, potrebbe presto essere a sua volta scavalcata, da un’altra ancora più nuova anch’essa figlia della rivoluzione dei Big Data: quella di “data librarian”, vale a dire un bibliotecario anche e soprattutto capace di “affrontare” grandi masse di dati maneggiando gli  strumenti della “data curation”.

Al momento, le biblioteche hanno cominciato a misurarsi con i Big Data offrendo supporto per la gestione dei dati della ricerca e progettando piattaforme per l’accesso pubblico agli Open Data. Nel mondo scientifico la crescita dei dati in formato digitale ha assunto da tempo un andamento esponenziale. Per molteplici discipline (astronomia, fisica, climatologia, vulcanologia, medicina,    chimica, matematica ecc..) ormai si parla di “data intensive”. Negli USA, secondo uno studio dell’Università del Tennessee, su oltre 100 biblioteche universitarie, almeno il 40% è impegnato a sviluppare programmi per supportare gli scienziati  nelle procedure di “big data curation”. Tra queste, il sistema bibliotecario John Hopkins dell’Università di Baltimora che supporta il progetto  “Sloan Digital Sky Survey” per la gestione dei Big Data astronomici, oppure “l’UC3 Curation Center” della “California Digital Library” che ha iniziato a fornire servizi d’assistenza con sistema di storage a pagamento, fino alle biblioteche della Bodleian di Oxford che affiancano i ricercatori della prestigiosa università  ad amministrare i petabyte di dati da essi generati. Secondo un’altra indagine effettuata da università austriache e britanniche nel 2015, gli ambiti “big data” dove finora c’è stata più richiesta di supporto alle biblioteche sono quelli riguardanti l’assistenza sul formato dati, le stime per lo storage e le questioni tecniche e legali nelle quali possono trovarsi i ricercatori rispetto al copyright.

James R. Jacobs, bibliotecario di Stanford, sostiene che “le biblioteche per le loro competenze negli standard dei metadati e nelle strategie di conservazione, possono candidarsi a partner fondamentali nei processi di costruzione di sistemi pubblici basati sugli Open (Big) Data”. Mentre, il coordinatore del sistema bibliotecario scientifico dell’Università di New Mexico – William Michener – ha fatto osservare che nessuno meglio delle biblioteche può occuparsi della conservazione dei datasets scientifici generati con finanziamenti pubblici.

Insomma, i dati prodotti con i soldi pubblici devono essere liberamente accessibili ai cittadini, ma non basta essere semplicemente “Open”, i dati per essere davvero utilizzabili, devono anche essere “Intelligently Open”. E qui le biblioteche possono avere un ruolo importante nel rendere “di qualità” i dati, e cioè intellegibili, autentici, affidabili, di rilevanza scientifica, e poi anche “nell’arricchirli” con adeguate descrizioni tramite metadati.

Diverse iniziative sono in campo e vedono sistemi di biblioteche che offrono piattaforme per l’accesso pubblico agli Open Data. Le biblioteche degli Enti locali emiliano – romagnoli raccolgono, organizzano e diffondono dati e in questo modo  promuovono il diritto all’informazione, allo studio e alla cultura dei cittadini. I datasets “open” mettono a disposizione informazioni sulle biblioteche del circuito, sugli archivi storici e su i musei presenti sul territorio provinciale. “Open Data” è anche il progetto delle Biblioteche di Roma. Tramite il portale “Biblio Tu”, sono stati resi disponibili dati che sono la diretta conseguenza dell’operato delle biblioteche sul territorio: servizio di prestito, anagrafica delle sedi, patrimonio documentale. Tutti datasets fruibili per il download e soprattutto per il libero riuso.

Un importante e innovativo progetto di “Open Data” viene anche direttamente dal mondo delle biblioteche: è quello della Library Of Congress che recentemente ha annunciato di aver deciso di rendere “open” e riusabili ben 25 milioni di record bibliografici. Carla Hayden, bibliotecaria della LOC, ha spiegato lo spirito e lo scopo del progetto: “La Library of Congress è un monumento alla conoscenza della nostra nazione, e dobbiamo assicurarci che le porte siano aperte a tutti, non solo fisicamente ma anche digitalmente…rendere accessibili i dati bibliografici del catalogo on line è un grande passo in avanti. Sono impaziente di vedere come le persone utilizzeranno queste informazioni”.

Nel dettaglio, l’iniziativa prevede la messa a disposizione di un enorme dataset che copre 45 anni dell’attività della Biblioteca: dal 1968 al 2014. Ogni record rilasciato contiene una serie di informazioni standardizzate: titolo, autore,  anno pubblicazione, soggetto,  note ecc., e sono dati riguardanti una vasta gamma di  documenti della biblioteca: libri,  file computer, manoscritti, mappe, musica e materiali visivi. Il rilascio del dataset prevede due modalità: accessibilità gratuita per i cittadini mediante il sito data.gov e distribuzione a pagamento in formato MARC solo per grandi clienti commerciali e biblioteche di tutto il mondo.

Infine, sull’importanza innovativa nel riuso di dati bibliografici, Beacher Wiggins – direttore della LOC per le acquisizioni e l’accesso bibliografico – ha sintetizzando il progetto esprimendo un auspicio suggestivo: «Oltre al loro tradizionale valore,  i dati bibliografici rilasciati potranno  essere utilizzati per una vasta gamma di ricerche culturali, storiche e letterarie… da una  più efficiente condivisione delle informazioni alla visualizzazioni e altre possibilità che  possiamo cominciare a prevedere…speriamo che questi dati vengano analizzati da scienziati sociali, analisti di dati, sviluppatori, statistici e tutti coloro che possono fare un lavoro innovativo con grandi set di dati per migliorare l’apprendimento e la formazione di nuove conoscenze “

Pubblicato in biblioteca digitale, big data, Big Data culturali, big data curation, Datafication, open data | Contrassegnato , , , , , , | Lascia un commento

Dal documento ai dati: la scomparsa del record bibliografico nel web

informaizoni_bibliograficheTutto ha inizio con Tim Berners Lee. È il 2001, quando l’inventore del Web scrive: “Le macchine diventeranno capaci di analizzare tutti i dati sul Web, il contenuto, i link e le transazioni tra persone e computer. La “Rete Semantica” che dovrebbe renderlo possibile deve ancora nascere, ma quando l’avremo i meccanismi quotidiani di commercio, burocrazia e vita saranno gestiti da macchine che parleranno a macchine, lasciando che gli uomini pensino soltanto a fornire l’ispirazione e l’intuito”.

È la visione di quello che oggi chiamiamo Web Semantico. A 16 di distanza, il web si sta via via trasformando in un ambiente dove i documenti pubblicati (pagine HTML, file, immagini, e così via) possono essere associati a informazioni e dati (metadati) che ne specificano il contesto semantico in un formato adatto all’interrogazione e l’interpretazione (es. tramite motori di ricerca) e, più in generale, all’elaborazione automatica.

Le biblioteche, dal canto loro, malgrado le ricorrenti rivoluzioni tecnologiche, hanno continuato a fare quello che hanno sempre fatto: favorire l’incontro tra informazioni e lettori. E l’hanno fatto, mettendo a punto sistemi informativi basati sull’indicizzazione dei documenti: i cataloghi. Tuttavia, a un certo punto, nella loro storia, si è ri-presentato il momento di ripensare ai processi catalografici in modalità automatizzata. Il nuovo inizio è in ambito anglosassone: si tratta di rendere più efficiente archiviazione e reperimento delle informazioni nelle università statunitensi.

Il nuovo approccio – siamo nel 1945 – è teorizzato da Vannevar Bush, che in un mondo ancora completamente analogico, progetta una sorta di computer  ante litteram capace non solo di archiviare meccanicamente i testi ma anche di collegarli tra loro anticipando anche l’ipertestualità: il Memex (Memory Expansion).

Il progetto Memex, anche se solo teorico, rappresenta un momento importante nello sforzo di immaginare nuove soluzioni per organizzare quantità sempre maggiori di informazioni. Anche perché, da quel punto in poi, comincerà a imporsi – grazie alla nascente rivoluzione informatica – l’idea di performance tecnologica come valore assoluto.  E soprattutto nell’ambito dei sistemi basati sulle tecnologie della comunicazione, la variabile “velocità d’accesso” diverrà via via in un certo senso equivalente  (se non addirittura prevalente) rispetto  ai significati delle informazioni veicolate, al punto da far addirittura affermare – sull’onda della prima rivoluzione informatica- al fisico americano Lewis M. Branscomb: “i documenti sono ormai solo sottoprodotti occasionali dell’accesso all’informazione e non la sua principale incarnazione”.

In pratica, dal progetto Memex in poi, la rivoluzione tecnologia ha avuto un abbrivio  esponenziale. Nel giro di qualche decennio, la società è mutata prima in “società dell’informazione” poi nel “pervasivo ecosistema digitale” nel quale attualmente siamo tutti immersi. Le biblioteche,  parte tradizionalmente importante del sistema d’accesso alla conoscenza, hanno assistito (per lo più passivamente) a un iper-potenziamento della performance tecnologica indotta da internet e poi dal web: connettività, velocità, ipertestualità, social media, web semantico ecc. Una rivoluzione tutta velocità e big e data sempre più lontana dalla forma-libro e dalla forma-documento, pilastri del vecchio sapere analogico strutturato.

Ma prima delle più recenti rivoluzioni, le biblioteche avevano già aperto all’informatica per quel che riguarda le procedure di catalogazione. La vecchia scheda cartacea, negli anni ’60 dello scorso secolo,  aveva cominciato la sua trasformazione in record bibliografico mediante il formato di conversione MARC: è stato il primo passo per le biblioteche verso la transizione dalla carta al bit. La descrizione bibliografica ha iniziato il suo processo di smaterializzazione, rimanendo però compatta e strutturata per quel che riguarda le informazioni veicolate: documento bibliografico e non ancora dati bibliografici. In pratica, continua a essere la versione elettronica della vecchia descrizione su scheda cartacea.

  È  con gli inizi del XXI secolo che il muro – nel frattempo alzatosi – tra biblioteche e il sapere globalizzato e immateriale della Rete, comincia a vacillare. Il bibliotecario statunitense – Roy Tennant – suscita scalpore con il suo artico “MARC must die”, nel quale invita il mondo delle biblioteche ha superare i vecchi standard che costringono i dati bibliografici in un mondo a parte. La prima cosa da fare – secondo Tennant – è abbandonare il vecchio MARC, e poi subito dopo lavorare  a nuovi standard che consentano ai cataloghi delle biblioteche di aprirsi alle tecnologie del web.

Mentre i bibliotecari lavorano a nuovi standard, le tecnologie del web però corrono. Viaggiano verso il web semantico. Le nuove tecnologie si chiamano: linked data e RDF (Resource Description Framework). È la ricerca della massima granularità:  ridurre tutta l’informazione del web in dati interoperabili e soprattutto processabili in maniera automatica dai computer connessi nella rete globale. Nello stesso tempo, la vecchia informazione analogica va convertita, frantumata e sminuzzata per essere anch’essa ridotta in dati.  Per le biblioteche tutto questo significa: destrutturazione del documento, destrutturazione del record bibliografico.

Si tratta per le biblioteche di cominciare ad attuare una sorta di “rivoluzione copernicana” nella concezione del record bibliografico, ovvero spostare il focus dall’oggetto al contenuto della risorsa catalogata. Andare, insomma, oltre la materialità dei documenti, oltre il supporto fisico, verso l’immaterialità del web. La chiave è il passaggio dalle descrizioni alle relazioni, o meglio: l’abbandono del modello basato su descrizioni e intestazioni che hanno dato forma ai dati bibliografici nell’epoca del libro a stampa,  e il passaggio al nuovo modello (proveniente dai database relazionali) entità – relazioni per il quale l’informazione è frazionata appunto in entità e poi definita dalle relazioni tra queste entità.

La prima realizzazione di questa “rivoluzione copernicana” è FRBR (Functional Requirements for Bibliographic Records): lo schema sviluppato, a partire dai primi anni del XX secolo, dall’IFLA (International Federation of Library Associations). Il modello entità – relazioni è rivisto, all’interno di FRBR,  in chiave bibliografica. Le entità assumono il valore di cose specifiche d’interesse per l’utente (opera, espressione, manifestazione, item,  persona, ente ecc.), mentre le relazioni tra queste entità consentono all’utente – tramite  ricerca –  di individuare i collegamenti tra le entità e quindi “navigare” tra i dati bibliografici.

Ma, per realizzare la funzione “navigare”,  i dati che rappresentano gli attributi delle entità devono essere connessi tra loro in un reticolo, e per rendere questa navigazione davvero efficace, esaustiva e soddisfacente per utenti sempre più tentati – nelle loro ricerche – dalla modalità “Google” , il reticolo dei dati bibliografici dovrebbe espandersi oltre il catalogo tradizionale ed essere in qualche modo parte del più vasto mondo del web.

Per questo, il ripensamento sul catalogo deve andare oltre la biblioteca. In questo senso, il modello FRBR può essere considerato già superato, in quanto basato su un’analisi ancora molto legata al mondo delle biblioteche. Si tratta, infatti, di non pensare più in termini di “dati prodotti dalle biblioteche” ma di “dati prodotti in generale delle istituzioni della memoria”.

Una riflessione importante che si concretizza –  a partire dal 2010 – nello sviluppo di un nuovo standard: RDA (Resource Description and Access).  Con RDA si compie un ulteriore salto concettuale e tecnologico verso la decostruzione (definitiva) del record bibliografico. Per raggiungere l’obiettivo di integrare il mondo delle istituzioni della memoria (biblioteche, musei e archivi) con quello del web, RDA è implementato come standard di contenuto: separazione netta e definitiva dal supporto. Infatti, fornisce solo istruzioni su come descrivere e registrare i dati individuati, ma non si occupa né della presentazione né della visualizzazione. Insomma, RDA può essere indifferentemente utilizzato a prescindere dai formati utilizzati.

Nel trattamento delle risorse, RDA riprende le entità individuate da FRBR: opera, espressione, manifestazione e item. Entità che poi sono rappresentate da un insieme di dati che corrispondono agli attributi delle identità stesse. La navigazione tra le entità descritte da RDA abbatte – finalmente – quel famoso muro che separa le biblioteche dal web. Grazie alla compatibilità di RDA con la nuova tecnologia linked data, la navigazione tra entità può procedere oltre e integrarsi nel web dei dati  avanzando verso la ricerca globale.

Come ha dichiarato Gordon Dunsire – responsabile del comitato per lo sviluppo di RDA“il lavoro da svolgere di qui in avanti per far crescere RDA e seguirlo nella sua evoluzione, consiste da una parte collaborare alla costruzione degli strumenti necessari, primi fra tutti vocabolari e ontologie, dall’altra nella conversione dei record che si trovano nei cataloghi delle biblioteche, archivi e musei in formati compatibili con RDA, che rappresenta la porta di accesso al web semantico”.

Pubblicato in biblioteca digitale, big data, Formati, FRBR, futuro del libro, linked data, RDA, RDF, società dell'informazione, Standard, storia delle biblioteche, tecnologie digitali, web semantico | Contrassegnato , , , , , , , | Lascia un commento