* * * * *

Abonnez-vous !

Innovablog, Le Web où l’Innovation ordinaire : design, ergonomie, interfaces riches, web 2.0, eCommerce,…

  • A propos de l’auteur
  • Archives
  • Contacts
  • 25
    fév 08
    Catégorie : Analyse

    Le Web Sémantique : Où sont les outils de création de contenu riche ?



    Je tenais à vous faire partager cet excellent article de Nitin Karandikar publié sur Read/WriteWeb sur le thème du Web Sémantique. On y parle sémantique, XML, RDF, Microformats, applications de gestion de contenu, modèle économique, SEO, etc… En voici donc une traduction aussi fidèle que possible.

    Web sémantique

    Beaucoup a été écrit récemment sur les concepts, approches et applications du Web Sémantique. Mais quelque chose manque encore. En termes de compréhension, recherche et affichage du contenu, il n’y a pas de doute que le web sémantique est doucement en train de devenir réalité (ex. : il y eu de belles démonstrations au récent SDForum). Cependant, un fossé se creuse avec les outils de production de contenu sémantique, qui n’ont pas encore opéré ce changement de paradigme.

    D’un côté, la plupart des auteurs sont à l’aise et maîtrisent les outils de création sémantique de bureau comme Microsoft Word, FrontPage, Adobe GoLive ou d’autres. C’est particulièrement vrai pour les professionnels et autres experts qui créent du contenu technique de référence pour les applications web, comme des référentiels juridiques, des manuels de comptabilité ou des documents de production. La montée actuelle des outils de production de contenu donne des articles et des pages web d’une grande qualité, alors que leurs possibilités de création XML sont réellement limitées.

    D’un autre côté, parser des documents Word ou des pages web HTML pour en extraire du XML sémantisé ne donne que très peu de résultat ; la plupart de la connaissance sémantique est perdue. Il ne semble pas qu’aucun outil populaire de création native de contenu sémantique soit encore naturel et facile d’utilisation pour un auteur de contenu.

    Top-Down ? Ou Bottom-Up ?

    MicroformatsBien sur, il y a de nombreuses façons de contourner ce problème. Permettre aux auteurs ou lecteurs d’ajouter des balises aux articles ou posts donne une mesure de classement, mais cela ne permet pas de saisir la véritable essence sémantique du document. Le parsing sémantique automatique (particulièrement dans un domaine donné) est une voie - à la Spock, twine et Powerset – mais est encore limité dans sa vision et requiert une large puissance de calcul, de plus, si nous pouvions donner les outils adéquats aux auteurs dès le début, l’extraction du sens sémantique serait bien plus facile.

    Par exemple, imaginons que vous soyez en train de créer un référentiel de contenu, en achetant les services d’auteurs experts ou en utilisant une communauté collaborative, dans le but de créer une grande quantité d’enregistrements similaires – disons, un livre de recettes de cuisine, un recueil de schémas de circuits électriques ou quelques chose de similaire. Naturellement vous voudriez créer un savoir sémantique propre au champ de recherche, dans le but de classifier et de rechercher du contenu de multiples façons, et notamment grâce aux requêtes intelligentes.

    Idéalement, les auteurs voudraient créer le contenu sous forme de XML riche, ce qui rendrait le parsing sémantique plus aisé. Le côté bénéfique est que la publication du contenu en sera alors facile et cela de multiples façons, ce qui sera bénéfique d’un point de vue SEO, puisque les moteurs de recherche pourront ainsi comprendre le contenu plus facilement. Mais les outils qui permettent de créer un tel XML de façon naturelle et simple d’utilisation pour les auteurs ne semblent pas aller dans ce sens ; et la création d’un outil propriétaire pour chaque champ de travail semble difficile et onéreux.


    Image : andrea.paiola

    Exemple des bancs d’essai de véhicules

    Prenons un exemple plus concret : imaginons que vous éditez un site web intitulé Banc-d’essai-des-nouveaux-véhicules.com (New-Car-Reviews.com dans le texte original), un site hypothétique qui passerait en revue les nouvelles voitures ; vous paieriez des experts pour écrire ces revues annuelles des nouveaux modèles sortis. Contrairement aux autres caractéristiques des automobiles, les bancs d’essai ne peuvent pas facilement s’enregistrer dans une base de données et ainsi permettre des requêtes. Conceptuellement, vos commentaires sont similaires à celui de cette Volvo S40 2.4i 2008 sur le site automobile Kelley Blue Book.

    Imaginez ceci : lorsque vos auteurs ont écris à la base leur article, au lieu d’écrire le contenu de cette façon :

    <span id=”ctl00″>Vous aimerez cette voiture si…</span>
    …description_positive…
    <span id=”ctl00″>Vous pourriez ne pas apprécier cette voiture si…</span>
    …description_négative…

    Pourquoi ne l’auraient-ils pas écris ainsi

    <avantages><label> Vous aimerez cette voiture si…</label>
    <text>…description_positive…<text>
    </avantages>
    <inconvénients><label> Vous pourriez ne pas apprécier cette voiture si…</label>
    <text>…description_négative…<text>
    </inconvénients>

    En d’autres termes :

    1. Vous pouvez facilement ré-arranger le contenu de façons différentes, comme pour les supports mobiles, les flux RSS, les API de services web, les mashups et bien d’autres ;
    2. Alors que les moteurs de recherche commencent à prendre en compte la notation sémantique, vous en tirerez un bénéfice en terme de SEO ;
    3. Vous pouvez proposer à vos lecteurs différentes façon de requêter sur le contenu de façon intelligente (« montrez-moi les voitures familiales ET celles qui … en comparaison de celles qui fonctionnent mieux en tout terrain ET qui possèdent 7 places assises »), en utilisant la récente release de SPARQL.

    En tant qu’éditeur de contenu, vous souhaitez que votre contenu soit facile d’accès et utilisé autant que possible, et le fait de lui donner du sens est un grand pas dans cette direction. De la même façon, vous ne pouvez pas demander aux auteurs d’utiliser des outils de pur XML comme un XMLSpy ; de même MS Word crée un XML illisible qui préfère formatter plutôt que donner du sens.

    Une solution pour cet exemple bien particulier existe déjà : les Microformats pourraient être utilisés pour résoudre le problème des annotations des avantages et inconvénients. Alors que la solution des Microformats fonctionne à merveille pour des types bien spécifiques d’information – comme la description des individus et des adresses – elle est trop limitée pour être applicable dans un contexte global pour ajouter de l’information sémantique au contenu web en général.

    Le problème global doit être résolu si nous souhaitons voir l’adoption du Web Sémantique. Ce serait une aubaine pour tous les auteurs experts, incluant même ceux qui créent des articles pour l’industrie de la presse d’information. Mais il ne semble pas y avoir de solution à l’horizon, en termes de technologies, outils ou process pour promouvoir la création d’un contenu plus riche de sens.

    Réactions : Mais y a-t-il une rentabilité possible ?

    Lorsque j’ai posé cette question à un groupe de bloggeurs émérites ainsi qu’à des chefs de file de l’industrie dans le domaine du Web Sémantique, les résultats de furent pas encourageants. Il ne semble pas qu’il y ai grand intérêt dans la création d’outils de création de contenu sémantique. Le principal frein est le manque d’un business modèle clair pour que les auteurs se lancent dans cette approche.

    Jeremy Liew de Lightspeed Venture Partners a récemment publié une série d’articles sur le Web Sémantique : Meaning = Data + Structure, basé sur une structure créée par l’individu ; le domaine du savoir ainsi que le comportement de l’utilisateur, qui se focalisent eux sur le problème de la production de sens à partir du contenu.

    Il s’interroge sur la logique commerciale des auteurs de faire l’effort d’ajouter des balises XML à leur contenu, et décrit les approches d’extraction propres à chaque domaines comme les meilleures solutions :

    « Le challenge d’obtenir des auteurs de baliser en XML ne se pose pas qu’en termes d’outils, mais également en termes de motivation IMO. A moins et jusqu’à ce qu’un avantage comparatif justifie l’effort additionnel requis, et que cet avantage soit plus important que celui qu’offre d’autres projets, vous ne verrez pas beaucoup de balisage XML, excepté de la part du secteur académique et de ceux dont les intérêts sont plus philosophiques qu’économiques.

    C’est pourquoi je crois que les approches d’extraction spécifiques à chaque domaine seront bien plus nombreuses – l’avantage comparatif de meilleures recherches et structures convainquent les utilisateurs de réaliser cette extraction, et parce que justement c’est propre au secteur, l’effort additionnel est moindre ».

    Il a raison, bien sur; ces approches d’extraction spécifique à chaque secteur vont définitivement devenir les plus populaires, et commencent dès maintenant à décoller. Elles procurent une valeur ajoutée significative à l’auteur. Quoi qu’il en soit, la tâche est difficile et onéreuse pour l’accomplir correctement, de sorte que la rentabilité est pour le moins douteuse pour les early adopters.

    Alex Iskold de ReadWriteWeb est un autre leader de pensée dans ce domaine. Il a déjà publié une série d’articles fantastiques sur le sujet du Web Sémantique, notamment sur le problème de l’annotation des données, les différentes approches employées, ainsi qu’un exemple pour le web structuré.

    Ses commentaires font échos à ceux de Liew :

    “Il semble qu’il y ai bien peu d’incitation pour les auteurs à annoter leur information.

    Le problème est que si vous allez plus en profondeur vous vous heurtez à RDF. La version légère est Microformats. Mais le problème n’est pas le format, c’est l’incitation.”

    Tim O’Reilly a écrit à propos de ce problème il y a une année : Différentes Approches au Web Sémantique, dans laquelle il faisait écho du même sentiment :

    “Cela semble assez simple, mais pourquoi cette approche n’a-t-elle pas décollé ? Parce qu’il n’y a pas de bénéfice immédiat pour l’utilisateur. Il ou elle doit être attaché à l’objectif de création de structures cachées à l’intérieur même des données. C’est une tâche additionnelle, réalisée au profit des autres. Et comme je l’ai écrit auparavant, l’un des secrets du succès du Web 2.0 est de mobiliser son propre intérêt, non le volontariat dans une « architecture naturelle de la participation ». »

    Conclusion

    J’imagine faire partie d’une minorité. A mon avis si les créateurs de contenu pouvaient ajouter un sens sémantique tout en créant le contenu en premier (ce qui n’est, conceptuellement, guère plus pesant pour les auteurs), alors la valeur du contenu augmenterait exponentiellement à très faible coût. Cela semble être une rentabilité défendable pour les éditeurs de contenu.

    Le business modèle pour les éditeurs d’annoter les pages web ainsi que le contenu existants est certainement très faible. Mais pour le contenu nouveau, si vous le créez de toute façon pour votre site, pourquoi n’y ajouteriez vous pas des balises sémantiques pour le rendre plus accessible et utilisable ?

    Et vous, qu’en pensez-vous ? Merci de laisser un commentaire au dessous.

    Crédit image du dessus : RWW / nennett

    Cet article vous a plu ? Ne perdez plus aucune info : abonnez-vous gratuitement !

    A vous de jouer ! Laissez un commentaire :

    XHTML: Vous pouvez utiliser ces tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>

    Innovablog motorisé par WordPress
    Theme Wordpress par Olivier Favre
    Site Map
    RSS Feed
    Contenu intégralement sous licence Creative Commons