La sfida di Europeana e dell’European Library per l’integrazione dei dati del patrimonio culturale europeo

Un paper recentemente pubblicato coglie la centralità dell’integrazione dei dati culturali del patrimonio europeo attraverso le tecnologie semantiche e in particolare i Linked Data, e il fatto che sia proprio questa la sfida principale con la quale devono misurarsi le principali piattaforme per l’aggregazione e distribuzione delle risorse digitali, ovvero Europeana e l’European Library.

Una prima risposta all’integrazione dei dati è quella di Europeana con l’implementazione del data model EMD. Utilizzato come modello unico, rappresenta un approccio mirato all’armonizzazione dei dati in modo non monolitico attraverso l’applicazione dei principi del web semantico, con l’obiettivo di integrare – in un ambiente aperto – i vari modelli utilizzati all’intero dei datasets del patrimonio culturale europeo. Invece, l’altra piattaforma – l’European Library – si è specificatamente occupata dell’integrazione dell’universo bibliotecario supportando finora tutti i più comuni standard bibliografici: MARC21, UNIMARC, MODS, METS, Dublin Core, ma anche convertendo i metadati per EDM.

Tuttavia, malgrado questi importanti sforzi sia nell’ambito della modellazione che in quello della standardizzazione, rimangono comunque aperti molti problemi di complessità ed eterogeneità rispetto ai dati bibliografici. Ad esempio, la stessa informazione è spesso rappresentata in modo diverso da biblioteca a biblioteca, o addirittura rappresentata diversamente anche all’interno della stessa biblioteca. Si tratta di problemi che nel caso di grandi aggregatori “cross-domain” (come sono appunto Europeana e European Library) risultano essere ancora più pressanti e numerosi.

Ma, nello stesso tempo, sono proprio le caratteristiche “speciali” di queste grandi piattaforme – che concernono dimensioni, ricchezza e multilinguismo dei datasets – ha suscitare negli utenti particolari aspettative, vale a dire: servizi avanzati nell’ambito del multilinguismo, implementazioni di relazioni semantiche sia tra le risorse aggregate che verso risorse più estese ed eterogenee residenti nel web semantico.

Nell’affrontare queste sfide, Europeana sta procedendo con l’arricchimento automatico dei metadati attraverso una selezione dei “value vocabolaries” come thesauri, authority list ecc. I requisiti in base ai quali sono selezionati i “value vocabolaries” rispondo a vari criteri, in particolare al fatto di essere: multilingue, tecnologicamente disponibili tramite Linked Data o attraverso repository ad hoc. Inoltre, altro aspetto molto importante, Europeana incoraggia i propri partner a fornire risorse in grado di contestualizzare e valorizzare il proprio dominio di provenienza, con la giusta consapevolezza che solo se si è in grado di sfruttare tali specifiche risorse semantiche si possono poi innescare significativi sviluppi nell’integrazione dei dati.

Un esempio interessante di contestualizzazione e valorizzazione del proprio dominio, è quello del Getty Art and Architecture Thesaurus (AAT), già utilizzato da decine di musei presenti in Europeana. Finora, in Europeana, i concetti adoperati dall’AAT sono solo apparsi – all’interno dei record inviati – come semplici etichette. Ma, ora con la pubblicazione del Thesaurus come Linked Data, tutto cambia. Si stanno, infatti, inserendo AAT URI nei dati degli altri fornitori. Questo, tra l’altro, consentirà a Europeana di poter recuperare tutti i dati semantici multilingue a essi connessi.

Anche l’European Library – nel suo lavoro d’aggregazione e integrazione dei dati bibliografici – sta affrontando vari problemi. A cominciare dal fatto che le classificazioni a soggetto delle biblioteche usano sistemi dipendenti dalle varie lingua. Una sfida è allineamento di questi vocabolari. Tra i metodi utilizzati, c’è l’accesso multilingue MACS che copre inglese, francese e tedesco. Un processo di normalizzazione che è stato applicato a tutti i dati bibliografici della European Library, compresi quelli Dublin Core e  MARC delle biblioteche che non partecipano a MACS. Invece, per quel che riguarda gli autori, è in atto un consolidamento delle informazioni da collegare poi al VIAF (The Virtual International Authority File).

L’obiettivo dell’European Library è integrare i risultati di tutti questi lavori nei suoi servizi e nello stesso tempo diffonderli attraverso le infrastrutture di ricerca a cominciare da Europeana. Si tratta, anche in questo caso, di progettare un nuovo modello dati per la pubblicazione come Liked Data di dati bibliografici, oggetti digitali e collezioni. Un modello che dovrà prendere in considerazione i diversi livelli di dettaglio semantico dei dati aggregati: dai dati MARC ai Dublin Core. Comunque di un qualcosa di molto simile al modello EDM di Europeana, e come esso basato su diversi vocabolari: RDA, Dublin Core, SKOS.

Un’altra delle sfide che sta affrontando la European Library è l’integrazione come Linked Open Data dei dati MACS. Un traguardo che può mettere a disposizione una risorsa multilingue di grande utilità. I sistemi di intestazione MACS (LCSH, RAMEAU e SWD) sono già disponibili come Linked Data, ma l’integrazione dei MACS links nei vari datasets non è ancora ben organizzata, in quanto non supportata da un processo continuo con relativa produzione di incoerenze. L’obiettivo è offrire ai dati MACS un proprio spazio e una rappresentazione più fine, ispirata ad esempio all’EDOAL (Expressive and Declarative Ontology Alignment Language) oppure alla PROV ontology. Questo raffinamento permetterebbe una migliore diffusione e riutilizzo di MACS da parte di terzi, e una sua più facile integrazione con i nuovi sistemi di intestazione a soggetto con la determinazione di maggiore visibilità per il sistema bibliotecario di intestazione a soggetto sul Web.

Infine, un altro esempio concreto di integrazione dati a livello europeo, viene dall’iniziativa “Europeana 1914-1918. L’European Library ha messo a disposizione metadati sulla Prima Guerra Mondiale provenienti da 11 istituti d’Europa. Per rendere possibile l’accesso multilingue, si è partiti dalle intestazioni a soggetto della Library of Congress espandendole poi mediante le traduzioni nelle lingue dei vari fornitori di contenuti. Si è poi proceduto alla rappresentazione di questi concetti come SKOS per la loro assunzione nell’EDM model, così da permettere all’European Library di tenere tutti i dati aggiunti nel contesto del progetto e nello stesso tempo fornire i links ai concetti originali residenti presso la Library of Congress.

 

Questa voce è stata pubblicata in biblioteca digitale, big data, digitalizzazione, European Library, Europeana, linked data, linked open data, web semantico e contrassegnata con , , , , , , , , , , . Contrassegna il permalink.