Si sta propagando una mitologia dei Big Data? Sembra di sì. Tutto è cominciato su Wired quando Chris Anderson profetizzando “The End of Theory” sosteneva che: “i dati da soli senza un modello, sono sufficienti per comprendere i fenomeni… e che gli scienziati dovrebbero abbandonare i vecchi metodi e cominciare a imparare da Google…”. Da quel momento l’appetito per i “pentabyte” si è via via dilatato auto-alimentandosi con concetti tipo “quantità enormi di dati spiegano da sé” oppure “i numeri parlano da soli”. Recentissimamente, con “Big Data: a revolution that will transform how we live, work, and think” è poi anche arrivato l’invito esplicito alla società contemporanea di “lasciare cadere le proprie ossessioni sui fenomeni di casualità in cambio di correlazioni semplici in quanto in futuro interesserà sempre di più sapere il cosa succede e non il perché succede……”.
Ma, in realtà, la situazione non è così semplice. E rispetto alla presunta aura di verità, obiettività e precisione che circonda i Big Data, la questione è aperta. Ci sono, infatti, altri punti di vista in grado di smontare premature certezze e “data fondamentalismi” vari. Tra questi, la ricerca di Danah Boyd e Kate Crawford “Critical questions for big data” (maggio 2012) che oltre a confutare la convinzione che i Big Data “possano offrire di per sé una più alta forma di intelligenza e conoscenza dando vita a intuizioni e/o rivelazioni prima impossibili”, analizza il fenomeno in maniera complessiva. Segnalando, tra l’altro, seri problemi metodologici nel loro utilizzo nell’ambito dei social media.
Un esempio in tal senso è fornito da Twitter. Sono state fatte svariate ricerche basate su Big Data “grezzi” corrispondenti a tweet disponibili. I ricercatori hanno usato questa massa di dati per esaminare una serie di modelli creati ad hoc: “ritmi d’umore”, “impegno evento mediatico”, “insurrezioni politiche” ecc. Ma, Twitter non è un campione affidabile, non rappresenta “tutte le persone”. Account e utenti spesso non sono equivalenti: alcuni utenti hanno più account, mentre alcuni account sono utilizzati da più utenti, e poi ci sono gli account “twitter-bot” che producono automaticamente contenuti senza alcun intervento umano. Inoltre, Twitter stesso ha rivelato che ben il 40% degli utenti attivi creano un proprio account solo per ascoltare…. Per non parlare poi delle stime sballate di Google Flu trends negli USA: con un picco di influenza indicato rivelatosi poi quasi doppio rispetto a quello reale, errore probabilmente dovuto agli effetti moltiplicatori sulle query di ricerca impostate sul Google dovuti all’allarme mediatico sull’influenza in arrivo.
C’è poi chi come Mark Andrejevic nel suo “Infoglut”, mette in guardia le istituzioni rispetto a un altro problema indotto dall’uso compulsivo dei Big Data: il sovraccarico delle informazioni. Il governo USA ha deciso che ogni agenzia federale dovrà dotarsi di una strategia sui Big Data. Si cerca di governare il fenomeno, mentre una “Big Data Commission” – da poco istituita – cercherà di supportare il governo federale rispetto a temi delicati sui quali impattano i Big Data: privacy, sicurezza e proprietà intellettuale. Andrejevic rivendica il primato delle narrazioni sociologiche rispetto a distinzioni tra i numeri che si nutrono soltanto di correlazioni. Rispetto ai Big Data, le istituzioni non possono comportarsi come Google, e cioè raccogliere sempre più dati su tutto dimenticandosi di coglierne il senso. Insomma, l’analisi predittiva dei dati (data mining) non può – secondo Andrejevic – diventare l’obiettivo delle istituzioni perché la rinuncia a capire sarebbe la fine della politica e della democrazia.
Rimane l’importanza della rivoluzione innescata dai Big Data. Una forza “bruta” che sta facendo comunque emergere un nuovo sistema di conoscenza e di ri-modellazione economica della società. Per il World Economic Forum i Big Data rappresentano il “nuovo petrolio”, mentre il “data analytics” si appresta a diventare il quarto fattore di produzione dopo capitale, forza lavoro e materie prime. Ma, mitologia dei Big Data significa mancanza di senso critico e metodologico nel loro utilizzo e conseguenti scelte sbagliate nella strutturazione di domande che riguardano la costituzione dei saperi, i processi di ricerca, le interazioni con le informazioni.
Possiamo continuare a utilizzare i Big Data come in un certo senso i Maya utilizzarono i loro dati astronomici? Cioè, cercando regolarità nelle sterminate sequenze di dati senza un metodo scientifico? La “teoria” della “fine della teoria” è un nonsenso. L’accumulazione dei dati può rappresentare una preziosa fonte di informazione, ma senza una comprensione teorica, senza una metodologia è impossibile aggiungere tridimensionalità alle interpretazioni. In pratica, è impossibile studiare e capire i dati.