1、Le Web smantique Construit sur la base de technologies existantes (protocole HTTP (HyperText Transfert Protocol), identifiant URI (Uniform Resource Identifier), qui dsigne de manire unique un document sur le Web), le Web smantique, par une participation toujours plus active de la communaut des inter
2、nautes, constitue une nouvelle tape dans la logique de partage qui caractrise le Web actuel. par Alexandre BERTAILS*, Ivan HERMAN* et Sandro HAWKE* INTERNETS ET WEBS DE DEMAIN RALITS INDUSTRIELLES NOVEMBRE 2010 84 L e Web tel que nous le connaissons aujourdhui est encore conforme la vision quen avai
3、t Tim Berners-Lee il y a quinze ans : il sagit dun Web de documents. Ceux-ci sont crits en HTML (Hypertext Markup Language), identifis de manire unique par des URLs (Uniform Resource Locator) et relis entre eux par des liens hypertextes. Lutilisateur surfe manuelle- ment de page en page et peut depu
4、is quelques annes interagir avec le Web grce aux technologies du Web 2.0 (Ajax). Cependant, linformation reste essentiellement textuel- le et lutilisateur ne voit que le sommet de liceberg : les donnes relles, brutes et structures, ne lui sont pas accessibles. Elles sont stockes, la plupart du temps
5、, dans des bases de donnes et lutilisateur nen visualise que le rendu. Or toute la valeur du Web est en ralit dans ces don- nes ! Les exposer facilite la recherche de linformation ainsi que sa comprhension. Ltape suivante pour le Web est donc de pouvoir lier toutes ces donnes et de les combiner lois
6、ir dans des applications composites (mashups). Le Web a besoin dtre quip des technolo- gies ncessaires la cration dun Web de donnes (We b of Data). Les technologies du Web smantique compltent le Web actuel avec des outils smantiques. Il ne sagit donc pas de crer un nouveau Web ou un Web spar de lexi
7、stant : ce Web de donnes repose entirement sur les technologies et concepts qui ont fait le succs du Web tel que nous le connaissons aujourdhui (voir la photo 1). N.B : Dans la suite de cet article, nous ferons lamalga- me entre les termes URI et URL, bien quils ne dsi- gnent pas tout fait la mme ch
8、ose. LE WEB DE DOCUMENTS On trouve des donnes un peu partout : dans des docu- ments XML, des feuilles de tableur, des fichiers textes plats et surtout dans des bases de donnes relation- nelles. Comment et pourquoi y appliquer les concepts du Web ? Le Web repose sur trois technologies fondamentales :
9、 Le langage HTML permet de dcrire la structure dune page Web ; Une URI dsigne de manire unique un document sur le Web ; HTTP est un protocole dcrivant les requtes et rponses changes entre deux machines (client/ser- veur). Depuis sa cration, le concept dURI a t tendu de manire pouvoir identifier autr
10、e chose que des pages Web, comme par exemple des objets ou tout concept abstrait. De mme, le besoin de plus de structure dans la notion de document a conduit la gnralisation de HTML en XML (Extensible Markup Language). Tout un ensemble de technologies a alors d tre spcifi pour interagir avec XML : e
11、spaces de noms, schmas, requtage XQuery/XPath, DOM, etc. * W3C, bertailsw3.org * W3C, ivanw3.org * W3C, sandrow3.org 084-089 Bertails 8/11/10 12:56 Page 84ALEXANDRE BERTAILS, IVAN HERMAN ET SANDRO HAWKE RALITS INDUSTRIELLES NOVEMBRE 2010 85 DCENTRALISER Le modle darchitecture centralise est la rpons
12、e la plus simple pour organiser du contenu. Or, le Web est fondamentalement dcentralis et cest ce qui fait son succs. Le Web de donnes a lui aussi besoin dtre dcentralis afin dviter certains problmes classiques : viter les goulots dtranglement permet de garantir les performances ; rduire les points
13、individuels de dfaillance (Single Point of Failure SPOF) rduit la dpendance tech- nique ; empcher une politique de publication centralise permet de saffranchir du bon vouloir dun tiers et est donc une garantie de libert. On peut donc tendre larchitecture du Web de docu- ments au Web de donnes, en ut
14、ilisant des technologies dj existantes. Lobjectif est quune machine soit capable de comprendre, parcourir et utiliser ces don- nes. Voyons maintenant comment on peut appliquer les recettes du Web aux donnes. IDENTIFIER PAR UNE URI (UNIFORM RESOURCE IDENTIFIER) Les bonnes pratiques de conception des
15、sites Web met- tent en avant le choix des URIs pour dsigner les sous- parties des sites, les services, etc. Il en est de mme avec les donnes. Chaque ide/concept/ressource tant identifie par une URI qui lui est propre, une attention particu- lire doit tre apporte au choix de cette URI. Ainsi, un tre
16、humain qui lit une URI donne doit dj avoir une bonne ide de ce qui lui est associ. LURI ne doit donc pas tre ambigu et doit tre pense avec un souci de prennit : que dsignera cette URI, dans dix ans ? Une bonne pratique est de pr- ciser quelle logique de construction des URIs a t suivie. Des informat
17、ions transverses peuvent tre associes aux donnes. Un bon exemple est de prendre en compte leur volatilit : lorsquun consommateur rcupre les donnes associes une URI en utilisant le protocole HTTP , il peut choisir de les mettre en cache durant une priode de prissabilit rcupre dans la rponse. De mme,
18、HTTP supporte la ngociation de contenu. On peut aussi demander un format particulier, une langue particulire, etc. EXPOSER AVEC RDF (RESOURCE DESCRIPTION FRAMEWORK) Le Web de donnes a besoin dun modle commun de reprsentation de linformation. Cest le rle de la tech- nologie principale du Web smantiqu
19、e : RDF. Il sagit Photo 1 : Technologies du Web smantique. 084-089 Bertails 8/11/10 12:56 Page 85INTERNETS ET WEBS DE DEMAIN RALITS INDUSTRIELLES NOVEMBRE 2010 86 dun modle de donnes extrmement simple et souple cr il y a environ une dizaine dannes. Pour un dpt de donnes particulier, commencez par id
20、entifier tous les concepts qui vous intressent et asso- ciez-leur une URI. Chacun de ces concepts pourra tre le sujet dune question qui pourra lui tre associe. Cette question est aussi appele prdicat. La rponse cette question est appele objet et peut tre associe soit un autre concept (par exemple un
21、e URI), soit une valeur simple. Toute linformation est donc contenue dans un triplet sujet prdicat objet , ou encore triplet RDF . L exemple suivant utilise le format de sria- lisation N3 pour reprsenter des informations concer- nant les concepts France et Paris : 654473742203817.Bertrand Delano . C
22、e formalisme est issu de la Logique de Description du premier ordre. Le modle sous-jacent est un graphe (1) o le sujet et lobjet sont deux nuds relis par une arrte tiquete par un prdicat (2). Voici donc une reprsentation visuelle de lexemple prcdent sous la forme dun graphe (voir le graphique 1). Po
23、ur requter un graphe de donnes, on peut utiliser le langage de requte prvu cet effet : SPARQL (Query Language for RDF). On peut en ralit faire plus simple, juste en rendant les URIs drfrenables : tant donne une ressource et lURI qui lui est associe, une requte HTTP GET sur cette URI doit permettre d
24、e rcuprer un ensemble de triplets, par exemple ceux o la ressource apparat. Le choix des URIs dans lexemple prcdent nest pas satisfaisant, car on veut pouvoir identifier des concepts trs diffrents : personnes, lieux, gouvernements, entre- prises, produits, musiques, musiciens, coles, plantes, espces
25、, etc. Et surtout, on veut pouvoir partager ces concepts sur le Web. Nous avons vu que nous pouvons utiliser des URIs pour cela. Cependant, tout concept nest pas une page Web : on a besoin de pouvoir spa- rer ces deux entits. La rponse ce problme a dj t introduite prcdemment : on peut utiliser les p
26、ropri- ts du protocole HTTP pour ngocier avec le serveur un contenu particulier, au choix, les donnes ou une description Web au format HTML. CONSTRUIRE ET DCONSTRUIRE UNE URI Le concept Paris nest pas une page Web : Paris exis- tait par exemple bien avant la cration de la page Web http:/www.paris.fr
27、. Cette page semble pourtant tre un bon candidat pour dsigner ce concept. Il existe dif- frentes stratgies pour construire et dconstruire des URIs. Nous prsentons ici deux stratgies avec leurs implications. L interprtation dun fragment dans une URI (introduit par lutilisation du caractre # et appel
28、hash URI) dpend du contexte dutilisation. Dans une page HTML, il dsigne un lment particulier du docu- ment. Dans RDF, il dsigne une sous-partie du concept. HTTP GET ignore simplement le fragment et rcupre le document entier. Utiliser une hash URI permet donc de rcuprer un contenu entier via HTTP GET
29、 tout en dsignant une sous-partie. Voici un exemple dune telle URI : http:/www.paris.fr/arrondis- sements#5eme. Une stratgie beaucoup plus populaire dans la commu- naut est lutilisation dune slash URI. Cest par exemple la solution retenue par DBpedia (3). Par exemple, la ressource dsignant Bertrand
30、Delano sur DBpedia est http:/dbpedia.org/resource/Bertrand_ Delano. Il est intressant de noter que DBpedia intro- duit une redirection HTTP 303 SEE OTHER lorsque la page Web correspondant cette URI est demande. Le navigateur Web est alors redirig vers lURI http:/dbpedia.org/page/Bertrand_Delano. Uti
31、liser des URIs changeables sur le Web permet alors de rfrencer des concepts venant dautres sources de donnes : cest lessence mme dun Web de donnes ! Le nom de domaine dsigne alors qui est responsable des donnes associes lURI. Voici ce que peut don- ner lexemple prcdent si on lui applique ce principe
32、 (1) par comparaison, le modle sous-jacent de XML est un arbre. (2) en ralit, cest un peu plus quun graphe puisque les prdicats peuvent eux-mmes tre sujets ou objets dun triplet. (3) DBpedia est au Web smantique ce que Wikipedia est au Web de documents : il sagit dune extraction automatique, au form
33、at RDF , de Wikipedia. Graphique 1. 084-089 Bertails 8/11/10 12:56 Page 86ALEXANDRE BERTAILS, IVAN HERMAN ET SANDRO HAWKE RALITS INDUSTRIELLES NOVEMBRE 2010 87 Cet exemple introduit la problmatique des vocabu- laires. Comme nous lavons vu, construire une URI pour une ressource nest pas difficile. En
34、 ralit, RDF spcifie que les prdicats sont aussi des ressources, et donc de vritables URIs. Ils peuvent eux-mmes tre sujets ou objets dautres triplets, permettant ainsi de les dcrire (traductions en diverses langues, proprits, etc.). Il suffit ensuite de puiser dans les vocabulaires existants pour dc
35、rire ces donnes. Par exemple, DBpedia applique ce principe la perfection en ruti- lisant massivement des termes issus dautres vocabu- laires que le sien. On peut maintenant rcrire lexemple prcdent en rutilisant des vocabulaires dj existants (4) (voir le graphique 3). Voici dautres exemples de vocabu
36、laires communment utiliss : FOAF (Friend-of-a-Friend) permet de dcrire des individus. Cest le vocabulaire idal pour modliser les rseaux sociaux ; DublinCore est un vocabulaire spcialis dans la des- cription de mtadonnes ; GeoInfo est spcialis dans les coordonnes gogra- phiques. LES PRINCIPALES TECHN
37、OLOGIES Le W3C (World Wide Web Consortium) hberge plu- sieurs groupes de travail chargs de dvelopper et maintenir les technologies associes au Web. Le W3C et ses Membres ont labor et spcifi un ensemble de standards (appels Recommendations) constituant les technologies du Web smantique. Comme nous la
38、vons vu, RDF dsigne le modle de donnes du Web smantique. Plusieurs formats de srialisation sont possibles, tels que Turtle ou RDF/XML. RDFa permet, quant lui, dembarquer du RDF directement dans HTML. RDFS (RDF Schema) et OWL (Web Ontology Language) permettent de dcrire des ensembles de donnes, de la
39、 mme manire quune grammaire peut dfinir les bonnes constructions dune langue. SKOS (Simple Knowledge Organization System) permet une reprsentation stan- dard de tout type de vocabulaire contrl et structur sur le Web. RIF est un format de reprsentation de rgles destination des moteurs de rgles. SPARQ
40、L dsigne la fois le langage de requte pour RDF et le service Web qui permet de soumettre une requte. Ce langage trs simple fonctionne essentielle- ment par filtrage de motifs sur des graphes et sinspire de la syntaxe de SQL et de N3. Par exemple, voici une requte valide sur DBpedia permettant de ret
41、rouver les Grandes coles parisiennes et leur nombre dlves (ces informations sont disponibles dans Wikipedia donc dans DBpedia) : SELECT DISTINCT ?ecole ?nombreeleves WHERE ?ecole . ?ecole . ?ecole ?nombreeleves (4) RDF permet de raccourcir les URIs en dfinissant des prfixes. Par exemple, dbpprop:pop
42、ulation est quivalent http:/dbpedia.org/property/population . Graphique 2. 084-089 Bertails 8/11/10 12:56 Page 87OPPORTUNITS Il y a quinze ans, Tim Berners-Lee inventait le Web et demandait aux entreprises, aux gouvernements bref, tout le monde de mettre leurs documents sur le Web et de les lier ent
43、re eux. L ide paraissait un peu folle, mais force est de constater quelle a fait son che- min. Aujourdhui, aucune entreprise ne songerait ne pas tre prsente sur le Web avec un site respectant les standards. Le Web est devenu un mdium fonda- mental dans la vie de tous les jours et prend une part touj
44、ours plus importante dans lconomie. Main- tenant que ce mme Tim Berners-Lee demande aux mmes personnes de mettre leurs donnes sur le Web, on peut sinterroger sur lopportunit de le faire et ventuellement se demander quel est ltat actuel du Web de donnes. 2009 et 2010 dans la continuit restera lanne d
45、e lenvol du Web de donnes, non pas pour les technologies arrivant maturit (elles le sont pour la plupart, depuis quelques annes), mais pour ladop- tion des technologies du Web smantique. En effet, le point dinflexion de la courbe dadoption a t atteint et diverses initiatives ont vu le jour, plus exc
46、i- tantes les unes que les autres. La plupart de ces contributions au Web de donnes font partie dune initiative appele le Linked Open Data (Web de don- nes ouvert). En octobre 2009, le New York Times a ouvert une partie de son index. Celui-ci accumule des millions de termes (datant, pour les plus an
47、ciens, de 1851) rpar- tis selon cinq vocabulaires : sujets, personnes, organi- sations, lieux gographiques et ouvrages (livres, films, etc.). Un effort particulier a t ralis dans la mise en relation avec des sources de donnes externes, telles que DBpedia ou Freebase. La qualit de ces donnes et le choix dune licence Creative Commons permet- tent tout un chacun daccder ces donnes, mais surtout de les maintenir et les enrichir, et donc de par- ticiper augmenter la valeur du journal. Les grands acteurs du Web ne sont pas en reste. En mai 2009, Google a annonc lintroduction de