1 janvier 1970

Vers un réseau sémantique de paléoclimatologie – Emile ‐ Geay – 2013 – Géochimie, géophysique, géosystèmes – Indépendance Financière

Par Caroline

3.2.1 Qu’est-ce que le Web sémantique?

[20] Quiconque connaît les ordinateurs sait qu’il comprend à peine le langage humain. Une recherche Google, par exemple, analyse le World Wide Web à la recherche d’instances de certains mots-clés et renvoie des liens vers des documents contenant ces mots-clés, classés par une certaine mesure de pertinence. Le Web actuel relie des chaînes de caractères, sans aucune idée de leur signification. En revanche, la technologie sémantique[parexemple[egBerners – Lee et coll.., 2001]vise à donner un sens à ses constituants; il définit diverses entités (par exemple, un lieu, une personne, un document) et décrit les relations entre elles (par exemple, Albert Einstein est une personne qui a écrit des articles sur la physique tout en vivant en Suisse, en Allemagne et en Californie). Il le fait en utilisant des énoncés à trois composants ou «triplets»: un sujet de l’énoncé, un prédicat exprimant une propriété de l’énoncé et un objet lié au sujet via ce prédicat. Par exemple, dans l’expression «Albert Einstein est une personne», le sujet de la déclaration est «Albert Einstein», l’objet «personne», et le prédicat reliant les deux est «est un». Les objets d’une déclaration peuvent faire l’objet d’une autre déclaration et les prédicats peuvent eux-mêmes être les sujets d’autres déclarations, créant ainsi un graphique d’informations potentiellement illimité. Dans cette simplicité réside son principal atout: les relations élémentaires sont faciles à définir, mais la taille potentiellement infinie du graphe fait que des raisonnements complexes peuvent être automatiquement effectués comme une propriété émergente des très nombreux triplets. La technologie sémantique sous-tend le succès récent des ordinateurs pour traiter les requêtes en langage humain, comme Watson d’IBM (http://www‐03.ibm.com/innovation/us/watson/science‐behind_watson.shtml) ou Siri d’Apple. Ils sont également à la base de nombreuses innovations récentes en matière de gestion des connaissances (http://www.huffingtonpost.com/steve-hamby/semantic-web-technology_b_1228883.html). La clé de ce succès est la représentation des connaissances (KR), un domaine émergent de l’informatique au cœur du Web sémantique. KR étudie comment formaliser les relations afin que les informations puissent avoir un sens pour les machines. Au cœur de la représentation des connaissances se trouve une ontologie. Les ontologies définissent les relations entre les entités et fournissent un vocabulaire de base pour organiser les informations dans un domaine. Un vocabulaire commun facilite l’interopérabilité entre les données modélisées à l’aide de l’ontologie. La Dublin Core Metadata Initiative (http://dublincore.org/) fournit un vocabulaire suffisant pour décrire de manière générale la plupart des documents publiés; Les ontologies spécifiques à un domaine, comme le Web sémantique pour la Terre et les technologies environnementales (SWEET, http://sweet.jpl.nasa.gov/) décrivent des classes d’entités, des relations entre classes et des relations plus spécifiques à la modélisation des données des sciences de la Terre. Les sous-classes héritent des propriétés des classes parentes; l’appartenance à une sous-classe implique l’appartenance à la classe parente. L’adhésion à une ontologie permet également un raisonnement formel dans lequel des propriétés non décrites explicitement peuvent être déduites de propriétés connues. À titre d’exemple simple de l’ontologie SWEET, l’effet de serre est une sous-classe des phénomènes généraux du réchauffement climatique. Par simple inférence, tout article traitant de l’effet de serre traite du concept plus large de réchauffement climatique. La dernière propriété d’un tel article n’a pas besoin d’être explicite pour être vraie.

[21] La représentation des connaissances n’est pas une baguette magique. Mais s’il ne peut résoudre aucune question scientifique en soi, il peut rendre de nombreux problèmes beaucoup plus faciles. Tout comme le même entier peut être exprimé en représentation romaine ou hindou-arabe, ce dernier rend les calculs beaucoup plus faciles que le premier. De même, l’expression de données via des vocabulaires structurés peut aider à résoudre de nombreux problèmes liés à l’accès, à la manipulation et à l’interprétation. En termes simples, en déplaçant le fardeau de la description sur les données elles-mêmes, on peut construire un code plus léger pour le lire, l’écrire et le manipuler.

[22] Dans les sciences de la Terre, la représentation des connaissances a permis de résoudre un certain nombre de problèmes réels: la mise en place d’observatoires virtuels[[Fox et coll.., 2009]suivi des effets volcaniques à travers plusieurs sous-disciplines des géosciences[[Fox et coll.., 2007]ou accélérer considérablement l’analyse du métabolisme des cours d’eau pour la gestion des écosystèmes des bassins versants[[Gil et coll.., 2011]. EarthCube est parfaitement conscient du potentiel de KR pour résoudre de nombreux problèmes de gestion des données, avec un groupe de travail entier consacré aux ontologies (http://earthcube.ning.com/group/semantics-and-ontologies). Il faut noter que plusieurs ontologies existent déjà dans les sciences de la Terre (par exemple, SWEET, GeoSCI-ML, http://www.geosciml.org/), et certaines sont spécifiques à EarthCube[[Berg – Cross et coll.., 2012]. Des efforts initiaux ont également été faits pour encoder les données climatiques via des ontologies (http://iridl.ldeo.columbia.edu/ontologies/). Quel que soit le format adopté par les paléoclimatologues, il devrait être rendu compatible avec ceux-ci, peut-être via l’utilisation de modèles de conception d’ontologie[[Janowicz et Hitzler, 2012a].

3.2.2 Avantages et inconvénients sémantiques

[23] Lorsque nous engageons des collègues sur la technologie sémantique dans le paléoclimat, on nous pose toujours cette question pertinente: «Que peut faire un cadre sémantique qu’une base de données standard ne peut pas? La réponse la plus honnête est probablement «rien»[[Janowicz et Hitzler, 2012b]mais les questions d’efficacité viennent rapidement au premier plan: on peut aller n’importe où à vélo, mais c’est souvent trop lent ou peu pratique pour le faire. De même, alors qu’une grande partie d’EarthCube pourrait conceptuellement être construite avec des outils existants, le fait que ce ne soit pas le cas témoigne de la difficulté de l’entreprise; nous pensons qu’un cadre sémantique abaisserait ces barrières. Pour les besoins de la discussion, nous nous limiterons à la représentation des connaissances en utilisant le cadre de description des ressources (RDF), bien qu’il soit intéressant de noter qu’une grande partie de la même chose serait également vraie pour les implémentations non-RDF.

[24] Format de données graphiques pour représenter des informations, RDF est en fait l’épine dorsale d’un web sémantique. Bergman [[2009]fournit un aperçu complet de la technologie sémantique en RDF, énumérant pas moins de 60 avantages par rapport aux approches concurrentes. RDF est facilement exprimé («sérialisé») dans de nombreux formats, y compris – mais sans s’y limiter – les fichiers texte XML (eXtensible Markup Language). Il existe également des «triple stores» de base de données open source qui permettent de stocker RDF de manière à faciliter les requêtes distribuées. Lorsqu’elles sont mises à disposition en tant que points de terminaison SPARQL, les données à l’intérieur peuvent être interrogées sur Internet. Bien que cela soit également vrai pour le stockage des données dans une base de données relationnelle, le stockage des données dans un triple magasin ne nécessite pas de schéma a priori, contrairement aux bases de données relationnelles. Pour étendre un ensemble de données, il suffit d’ajouter des triplets supplémentaires. Peut-être plus important encore, beaucoup moins de limites, voire aucune, sont placées sur l’extensibilité d’un ensemble de données par rapport à une base de données relationnelle où le choix initial du schéma peut limiter les types d’informations qui peuvent être enregistrés et les types de requêtes qui peut être effectuée. C’est un avantage crucial: la science est une entreprise dynamique, et à mesure qu’elle progresse, la terminologie, la notation et la compréhension changent inévitablement. Il est donc essentiel qu’une base de données paléoclimatique puisse se développer de manière organique. Citer Bergman [[2009]: «Cette adaptabilité même est ce qui permet à RDF d’être considéré comme une conception axée sur les données. Nous pouvons faire face à un monde partiel et incomplet; nous pouvons apprendre au fur et à mesure; nous pouvons commencer petit et simple et évoluer vers plus de compréhension et de structure; et nous pouvons préserver toute la structure et tous les investissements que nous avons précédemment faits. Cette flexibilité est particulièrement intéressante car de grandes organisations comme NSF envisagent d’adopter un format qui pourrait les engager pendant plusieurs décennies.

[25] Tout aussi important, comme les données RDF sont livrées avec leur propre «dictionnaire» sous la forme d’une ontologie, l’interrogation d’un triple magasin peut être effectuée sans connaissance préalable de la structure des données. L’interrogation distribuée via SPARQL vise à briser les barrières entre les «silos» de données segmentées où le RDBM règne en maître. RDF est en fait la base du framework Linked Open Data[[Bizer et coll.., 2009]un ensemble de bonnes pratiques pour stocker et échanger des données sur le Web. La publication de données paléoclimatiques en ligne en tant que données ouvertes liées signifie qu’elles seront instantanément accessibles à une large communauté, aidant à valoriser les données en encourageant la réutilisation, et permettra aux algorithmes d’apprentissage automatique de trouver des modèles communs entre les données paléoclimatiques et d’autres sources (par exemple, données de la station météorologique, sortie du modèle climatique). Enfin, il existe déjà des bibliothèques de création, d’écriture, de stockage, de recherche et d’analyse de bases de données RDF disponibles dans des langages open source tels que R et Python (http://code.google.com/p/rdflib/). Certains magasins triples open source offrent déjà des capacités formelles de raisonnement et d’inférence.

[26] Quels sont les inconvénients d’une représentation sémantique? Il est évident qu’il est plus complexe que les outils existants comme, par exemple, netCDF (http://www.unidata.ucar.edu/software/netcdf/). Plus de complexité signifie une courbe d’apprentissage plus raide et, à moins que rien ne soit fait, une adoption plus lente. Cependant, bien que netCDF soit idéalement adapté aux données maillées caractéristiques de la sortie de modèle numérique, il est en fait très mal adapté au stockage d’ensembles de données très hétérogènes composés de plusieurs proxies à partir de plusieurs emplacements à des résolutions temporelles multiples, toutes caractéristiques des réseaux paléoclimatiques. Dans une certaine mesure, cette complexité est donc justifiée par l’hétérogénéité des données paléoclimatiques elles-mêmes. En outre, plus de 100 «RDFizers» existent déjà, permettant aux utilisateurs de transformer une feuille de calcul Excel en une représentation RDF avec un minimum de connaissances en programmation. Dans ce sens, nous devons noter qu’il existe également des outils pour traduire entre RDF et le format RDB plus traditionnel (http://www.w3.org/2001/sw/rdb2rdf/), donc adopter RDF est tout sauf un mort‐ fin. Il facilite également la création d’applications Web ou de bureau qui aident les contributeurs aux données paléoclimatiques à formater correctement les données et les métadonnées avant de les télécharger dans un référentiel central ou sur leur propre page Web.

[27] Une autre préoccupation courante est la surcharge de mémoire liée au stockage des données en RDF. En cette ère naissante du Big Data, les paléoclimatologues se retrouvent paradoxalement plus en proie à la rareté, plutôt qu’à l’excès, des observations. L’espace de stockage n’est donc pas une préoccupation majeure. Néanmoins, on souhaiterait évidemment une solution de stockage aussi efficace que possible. Les triplets – parfois – plus détaillés peuvent présenter une surcharge de stockage, bien que cela soit atténué par un RDF bien formé qui adhère à une ontologie robuste et des sérialisations binaires des données (par exemple, HDT (http://www.w3.org/ Soumission / 2011 / SUBM ‐ HDT ‐ 20110330 /) ou Sesame (http://rivuli‐development.com/2011/11/binary‐rdf‐in‐sesame/)).

[28] Il existe certaines limites pratiques à l’utilisation de RDF comme moyen de modélisation et de stockage des données. Bien qu’il soit possible de modéliser en tant que tel, RDF n’est pas le moyen le plus efficace de stocker des données tabulaires ou des tableaux multidimensionnels. Dans de tels cas, il peut être préférable d’employer une approche hybride, séparant les métadonnées – qui sont efficacement stockées sous forme de triplets – et les données sources elles-mêmes, conservées dans leur format d’origine ou stockées dans une base de données relationnelle. Néanmoins, la modélisation des données comme RDF permet une intégration flexible à partir de plusieurs sources sans le même niveau de conservation nécessaire pour stocker les données dans un système relationnel. Une fois modélisé, il est possible de modéliser tout ou partie du graphe sous forme de tableaux relationnels[[Ramanujam et coll.., 2009]. À l’heure actuelle, les performances des requêtes sur les données graphiques dans les magasins triples peuvent décevoir certains utilisateurs, en particulier par rapport à une base de données relationnelle. Une comparaison directe des performances des requêtes entre les données modélisées en RDF et les données stockées dans une base de données relationnelle est difficile à quantifier, car les performances sont un produit du logiciel de base de données et du modèle relationnel utilisé (http://www.w3.org/wiki/ RdfStoreBenchmarking). Pour de nombreuses requêtes, cependant, les modèles relationnels surpassent actuellement les triplets. Le modèle sémantique flexible rend plus de requêtes possibles, mais il est plus difficile à optimiser. De plus, alors que la triple construction de la sémantique des données a été proposée il y a près de quatre décennies[[Abrial, 1974]Les triple stores dédiés n’ont pas la maturité des logiciels et outils de gestion de bases de données relationnelles.