Du contenu roi aux données reines

Souvenez-vous… il y a quelques années, le contenu était considéré comme la matière première du web : Celui qui maîtrisait le contenu maitrisait le web (les portails qui agrégeaient de très nombreuses sources de contenu concentraient également l’audience). Puis il y a eu MySpace, les Skyblogs, Facebook, Twitter, FourSquare… et maintenant il parait que c’est la communauté qui est reine. Certes, les plateformes sociales sont indéniablement en haut des tableaux d’audience, mais je reste convaincu que sans contenus une communauté n’est pas viable. Comprenez par là que ce sont les contenus qui alimentent les conversations et font tourner les communautés. De ce point de vue là, les plateformes sociales ne sont qu’un intermédiaire entre le contenu et les internautes. Un intermédiaire à valeur ajoutée, mais qui présente tout de même une certaine fragilité dans sa pérennisation (cf. De la qualité des contenus sur Facebook).

Sans rentrer dans la polémique, je pense ne pas me tromper en disant que le contenu reste roi, la communauté se nourrit de ce contenu pour générer des interactions sociales (mais là encore il y a des subtilités : Ne confondez plus communautaire et social). La grande question que je me pose est la suivante : Qu’est-ce qui alimente les rédacteurs de ce contenu ? C’est là où les données entrent en scène, non pas les données que les rédacteurs possèdent déjà, mais plutôt les données disponibles publiquement que les internautes peuvent  interroger et manipuler à loisir.

Les données à la base du… journalisme de données

Nous parlons bien ici de données brutes en très grande quantité (des chiffres) qu’il serait trop coûteux de traiter. En les exposant publiquement, ce travail de compilation / trituration / interprétation est déléguée à la communauté qui va ainsi pouvoir nourrir une réflexion ou appuyer des prises de position. Et à ce petit jeu, certains journalistes en ont fait leur spécialité, cela s’appelle du journalisme de données (datajournalism en anglais). L’idée est d’extraire des informations pertinentes de quantités importantes de données.

Pour vous aider à comprendre l’intérêt de cette pratique, amusez-vous à compter le nombre d’articles qui font référence à Google Trends, les statistiques de recherche sont les données sur lesquelles repose toute l’argumentation de ces articles. Autre illustration avec ce graphique très intéressant qui met en évidence les performances extraordinaires (=suspectes) des coureurs du tour de France :

Anayse des performances extraordinaires des coureurs du tour de France
Analyse des performances extraordinaires des coureurs du tour de France

Ces données sont extraites du portail ActuVisu qui permet justement de manipuler des bases de données (cf. Datajournalisme : du nouveau en France avec ActuVisu). Les données sont dans ce cas de figure la matière première d’une réflexion, ou plutôt d’une investigation. Les possibilités sont nombreuses et la profession se met en marche pour développer de nouvelles compétences dans ce domaine. Pour mieux comprendre ce phénomène, je vous recommande les trois articles suivants : Pourquoi le data-journalisme, c’est l’avenir en marcheQuatre voies du datajournalism et Illusions et malentendus sur le journalisme de données.

Après les portails de contenus, les portails de données

L’exemple français d’ActuVisu illustre une tendance de fond initiée il y a 5 ans avec la fondation GapMinder qui fournit justement un accès à de très nombreuses données et statistiques (leur crédo : “Unveiling the beauty of statistics for a fact based world view“).

Mieux comprendre le monde avec GapMinder
Mieux comprendre le monde avec GapMinder

Tout l’intérêt de ce portail est d’une part d’agréger le plus grand nombre de données possible (de préférence en les rendant exploitables et compatibles) ainsi que de fournir un outil simple pour manipuler et visualiser ces données. Il existe d’autres initiatives comme ManyEyes d’IBM, Socrata ou plus modestement Worldmapper. Notez que ces interfaces pour données sont une notion chère à Tim Bernes-Lee (cf. ReadWriteWeb Interview With Tim Berners-Lee, Part 2: Search Engines, User Interfaces for Data, Wolfram Alpha, And More…), preuve que ce sujet est important.

Un créneau très porteur qui intéresse les moteurs de recherche de Google, qui a racheté en 2007 l’outil de visualisation qui propulse GapMinder et qui propose également Google Public Data Explorer dans son labo. Ce rachat fait sens dans la mesure où Google est très certainement un des mieux placé pour collecter les données éparpillées aux 4 coins du web. Reste encore le problème des données non-publiques.

Libération des données publiques avec Open Data

Les initiatives d’Open Data consiste à libéraliser les données publiques pour apporter plus de transparence (à l’image du portail anglais WhereDoesMyMoneyGo?) et pour nourrir des réflexions et projets sociétaux (lire à ce sujet Open Data : des licences libres pour concilier innovation sociale et économique). L’administration américaine a été la première à se lancer en ouvrant le portail Data.gov, suivie par d’autres pays comme l’Angleterre, l’Australie et la Nouvelle-Zélande (cf. Quel modèle pour le data.gov Français ?).

Le portail des données publiques anglaises Data.gov.uk
Le portail des données publiques anglaises Data.gov.uk

Il est important de comprendre que ces initiatives ne sont pas tant une manoeuvre politique ou un outil de surveillance qu’un levier d’innovation pour accélérer l’émergence de nouveaux modèles sociétaux ou de nouveaux projets relatifs à l’environnement, l’éducation, la santé…

Pour le moment le chantier est toujours en cours en France mais des initiatives locales permettent déjà d’accéder à des poches de données : État des lieux de l’OpenData en France.

Les données comme trésor de guerre des moteurs

Comme nous venons de le voir, les données sont donc une matière première particulièrement convoitée. À partir de ce constat, il n’est pas surprenant de voir que les grands moteurs de recherche s’intéressent de près à ces données et cherchent à les exploiter pour apporter une couche d’intelligence aux résultats de recherche. Illustration avec le tout nouveau Bing Shopping qui propose des pages de résultats structurées :

Les résultats de recherche structurés de Bing Shopping
Les résultats de recherche structurés de Bing Shopping

L’idée derrière tout ça est de proposer non pas un moteur de recherche mais un outil d’aide à la décision (cf. New version of Bing Shopping). Et pour structurer des résultats, que faut-il ? Des données ! Autant Microsoft a opté pour des partenariats, autant Google est passé à la vitesse supérieure avec notamment l’acquisition d’ITA, un fournisseur de données touristiques spécialisé sur l’aérien qui va permettre à Google de faire de l’intégration verticale sur ce créneau : With ITA Purchase, Google Now Owns the Skies.

La vente de billets d’avion en ligne est un business très juteux, il est donc normal que Google casse sa tirelire pour blinder sa position. Il y a par contre des secteurs à priori moins rémunérateurs mais pour lesquels un outil de consolidation / manipulation / visualisation des données offrirait une position dominante à son éditeur : L’immobilier, l’emploi, les loisirs (IMDB est un bon exemple de données structurées à valeur ajoutée) ou encore le sport (citons l’exemple de Footbalistic). Je vous recommande à ce sujet l’article de GigaOm qui détaille ces exemples : Who Will Google Buy Next for Structured Data?.

L’idée ici est d’investir dans une base de donnée verticale et de monétiser son exploitation. Constituer une base de données de référence est un chantier titanesque, et seuls les acteurs avec les plus gros moyens peuvent y parvenir. Mais une fois le monopole établi, les possibilités sont nombreuses pour rentabiliser cet investissement. Google Maps est un autre exemple intéressant d’une gigantesque base de données (géographiques) dont nous avons maintenant beaucoup de mal à nous passer et dont le propriétaire a tout le temps pour trouver des solutions de monétisation viables.

Plus intéressant, un article de GigaOm nous révèle que ITA ne se restreint pas au secteur du tourisme aérien mais édite également une solution de manipulation de données accessible sur NeedleBase.comMeet the Web Database Company Google Just Bought. Cette solution ne permet pas de manipuler des données publiques mais de groupes de données dont l’utilisateur a les droits. Toujours est-il que cette solution est à la fois puissante et intuitive, tout ce dont nous avons besoin pour faire du journalisme de données :

Manipulation de données avec NeedleBase
Manipulation de données avec NeedleBase

Tout récemment Google a fait une acquisition qui va dans ce sens en mettant la main sur Metaweb, une gigantesque base de donnée “ouverte” où sont répertoriés 12 million d’entités sémantiques (visibles sur Freebase.com) : Google Acquires ‘Open Database’ Company Metaweb To Enrich Search Results.

Vers des systèmes auto-alimentants

Voici donc la stratégie de Google : Acheter des données avec l’idée de la monétiser une fois que le marché sera devenu dépendant de leur exploitation. Mais sommes-nous réellement dépendant des données ? Vous particulièrement, probablement pas, mais de nombreux aspects de votre quotidien repose sur une exploitation fine de données. Nous pourrions même aller plus loin en disant que l’exploitation des bonnes données pourrait améliorer votre quotidien (cf. Nos vies gérées par les données) ou la productivité d’une entreprise.

Les objets de notre quotidien pourraient ainsi capter un grand nombre de données vous concernant et fournir ainsi des statistiques très précieuses sur votre mode de vie et la façon d’optimiser votre alimentation, vos trajets, votre budget, votre suivi médical… Imaginez alors l’intérêt d’un coach qui serait à même d’interpréter ces données et de vous offrir de précieux conseils pour améliorer votre quotidien. Ces conseils et les données qui en sont à l’origine deviendraient rapidement une drogue pour des hommes et des femmes soucieux de leur bien-être : The upcoming Internet pandemic: data addiction.

Reste encore à régler le problème de la collecte : Seule une minuscule minorité des habitants de cette planète serait d’accord pour s’équiper des outils de mesure de votre quotidien (sommeil, alimentation, exercices physiques, trajets, dépenses…). Une minorité de geeks, sauf si un acteur industriel avec de gros moyens décide de fournir gratuitement les outils de mesure et de collecte en faisant un pari sur l’avenir (et sur la monétisation de ces données). Et cet industriel avide de données, encore une fois c’est Google avec son projet de compteur intelligent PowerMeter.

Suivie de votre consommation quotidienne avec Google PowerMeter
Suivie de votre consommation quotidienne avec Google PowerMeter

Et même si Google ne peut pas remplacer tous les compteurs électriques des pays occidentaux, il peut fournir la plateforme pour consolider les données et les re-publier : Google Releases API for Energy Tool PowerMeter. La promesse de Google est simple : Vous aider à mieux comprendre vos habitudes de consommation pour optimiser vos dépenses… tout en revendant les statistiques aux industriels pour qu’ils puissent développer des appareils ménagers plus en phase avec le mode de vie de ces clients.

Loin de moi l’idée de jouer les paranoïaques et de dénoncer ces pratiques, car si tout le monde y trouve son intérêt il n’y a pas de raison de s’en priver. Il n’empêche que si je fais la somme de tout ce que Google peut potentiellement savoir sur moi, ça commence à faire beaucoup :

  • Mes contacts avec Gmail ou Android (carnet d’adresse + historique des appels) ;
  • Mon profil (âge, parcours…) avec Google Me ;
  • Mes achats avec Checkout ;
  • Mes centres d’intérêt avec l’historique de mes recherches ;
  • Mes déplacements avec Latitude ;
  • Mes loisirs (les programmes TV que je regarde) avec Google TV ;
  • Mes lieux de vacances avec Picasa…

Et ce n’est qu’un début car avec la sémantisation progressive du web, le moteur d’indexation pourra consolider toujours plus de données sur les internautes, mobinautes et même tvnautes. Les données seront donc la matière première à une nouvelle génération d’outils, services et prestations en rapport avec l’amélioration du quotidien de chacun. Des données qui seront l’objet d’une bataille acharnée pour en contrôler la possession, la collecte ou l’exploitation.

J’anticipe donc un web dominé par les contenus et données où Google jouera un rôle prépondérant. Facebook ou Twitter peuvent-ils prétendre à un rôle important dans ce tableau ? J’en doute car il faut des moyens considérables et surtout des appuies industriels et politiques, tout ce qui leur fait défaut actuellement. Longue vie au couple royal !

39 commentaires pour: “Du contenu roi aux données reines”

  1. Sous cet angle, les outils type ERP de collecte de données seraient les précurseurs de cette tendance de fonds vers les données.

  2. Oui mais les ERP ne concernent que l’intra-entreprise. Les données collectées par l’ERP pourraient être enrichies de nombreuses sources externes.



    Ou peut-être l’inverse en fait : Des ERPs qui enrichissent les données-clients internes a-à l’aide de données publiques. Pourquoi pas…

  3. “un web dominé par les contenus et données où Google jouera un rôle prépondérant”

    C’est pas deja le cas ?

  4. Le rachat de metaweb par google va dans cette direction.
    L’adage populaire de ‘ne pas mettre ses œufs dans le même panier’ prend ici tout sons sens.

  5. Une autre belle illustration de ce propos : bundle.com

  6. @ Charles > Oui c’est un peu le cas et la situation va empirer.

    @ Providenz > Tout à fait, j’avais oublié de mentionner cette acquisition.

  7. et google qui rachete freebase ;-D

  8. Très bon article. A vouloir trop de transparence, n’allons-nous pas nous noyer dans la masse d’information sur internet ?

  9. Les futures enjeux sont justement de présenter/trier/filtrer/relier ces informations.

    Outre la phase d’ergonomie, il faudra également passer par une phase de normalisation pour interroger toutes ces données ou passer par des phases de consolidations pour avoir une interface commune à plusieurs sources.

  10. Excellent article. Quelques liens supplémentaires pour l’exemple.
    1. Quelques annuaires de contenus :
    . http://www.infochimps.org
    . http://www.swivel.com
    . http://www.timetric.com

    2. Initiatives dataviz sympathiques :
    . http://www.powerpivot.com
    . http://www.icharts.net
    . http://www.roambi.com

  11. Toutes les personnes travaillant sur le web sémantique ne cessent de démontrer les avantages de disposer des contenus “sémantisés”…

    Mais je me pose la question de la monétisation de ces données.
    Il est déjà difficile pour les éditeurs de blogs de se faire rémunérer et cela semble déjà difficile de lutter contre la repompe de leurs contenus.
    Avec la sémantique, quel modèle économique peut s’appliquer aux éditeurs de ces “données” alors que les automatisations deviendront encore plus puissantes et faciles à réaliser tout en étant à la fois peut-être plus difficile d’en identifier la source, puisqu’on parle souvent de données brutes qui seraient réexploitées dans d’autres applications ou sites internet pour être servies complètement différemment ?

  12. @ Christophe Jean > Les microformats sont une première réponse à l’aspect “normalisation des données”, non ?

  13. Frédéric, excellent article et très complet. L’enjeu est tellement énorme que ça laisse rêveur (allez, en poussant un peu on peut en faire un film de SF avec l’entité Google !).

  14. Moi il me semble que ça sera un peu plus compliqué, du moins à partir des données ou contenu.

    Dans l’hypothèse où google vendrait l’observation du comportement des individus, et à partir du moment où Google aurait le contenu, google passerait son temps à s’observer lui même, ce qui est – je suppose – invendable. Déjà, aujourd’hui, je crois que 20% des requêtes du web sont pour google, ce qui signifie qu’il ne reste “que” 80% d’observable et donc vendable pour google.

    Google est fort pour transformer un contenu qu’il n’a pas en données que l’on peut rechercher… exemple typique avec google map, où il n’a pas la géographie, mais où il les transforme en données qu’on peut trouver (je sais pas si je suis clair ?? ) (et de toutes façons peut être que je me trompe)

    L’ennui est que les données cherchables deviennent une fin en soi… ça perturbe l’observation.

    Egalement, il me semble que il faut faire le rapport entre un contenu et un comportement. Je pense que c’est surtout là l’enjeu des “outils d’aide à la décision”… c’est surtout pour essayer d’observer quelle est cette décision, et moins pour améliorer la présentation des résultats, ou rendre un service à l’utilisateur (de toutes façons, il va la prendre, sa décision).

    De cette question sur le rapport contenu-données-comportement vous ne dites rien ? Me trompe-je peut être encore.

    Je pense que c’est pour cette raison que google maintient un rapport fort avec l’actualité (ses petits logos qui changent avec les anniversaires, google news, présence très rapide sur les gros coups médiatiques, etc). Outre la sympathie du public, il est ainsi mieux placé pour observer les comportements.

  15. Et dans 10 ans, Google remplace le gouvernement des Etats Unis grâce à son nouvel algorithme ?

  16. Voilà qui est fascinant, mais en même temps bien flippant.
    Encore une preuve de la dualité du progrès, le prix du confort.
    Bon, moi je retournes au minitel et à la tsf!

  17. Sylvain Gendrot

    Encore un bon article, merci Fred :D

    Pour répondre à ista:
    D’abord le contenu ne sert que d’appât pour faire venir un maximum d’utilisateurs. C’est pour celà que Google offre gratuitement le contenu (ex: map)
    Google enregistre ton comportement et en fait une grande base de donnée.
    Ensuite l’accès à cette base est revendu à des entreprises, ces entreprises l’analyse (= analyse du comportement) et s’en servent pour la prise de décision.

    Prenons un exemple:
    je fabrique une voiture et je prévoit de mettre de série un port pour brancher son lecteur mp3, mais quels le lecteur le plus utilisé par mes futurs clients. (Je connais leur profil puisque j’ai construit la voiture par rapport à lui)
    Donc là j’apelle Google pour qu’il me donne les habitudes d’achat des gens correspondant à mon profil.
    Avec ça je fait une analyse et je sais quel lecteur mp3 est principalement utilisé.

    Donc ce qui m’intéresse ce n’est pas le contenu en lui-même (le lecteur mp3 ou le site d’achat), mais le comportement des utilisateurs par rapport à celui-ci (quel lecteur mp3 a été le plus acheté)

    Je rajoutera qu’il faut voir le nombre de sites qui utilisent des scripts de Google tels que google-analytics.com ou googleusercontent …. merci Firefox et l’add-on NoScript !!

  18. In responds to Content King Queens. I firmly believe that content too is very a very important part of SEO for websites. I know you can build a lot of backlinks doing this or that. But what happens when you get the unique visitor to your site and you have nothing to offer? No content to keep them equals to no sale.

  19. Fred,

    Comme toujours une analyse riche et clairvoyante.

    Il me semble que, quand tu évoques le datajournalisme et ses datajournalists, tu aurais pu évoquer la difficulté d’être un bon datajournalist, car au-delà des données collectées et présentées par les outils, il convient encore de les interpréter et de leur donner du sens, ce qui est tout sauf trivial. Ce type de professionnel devra posséder, notamment, des compétences journalistiques, de statisticien, de capacité de recul, de prise de décision comme un bon manager…
    A défaut, nous aurons du “datajournalisme de caniveau”…

  20. Bonjour Frederic,

    Pour moi, le web poursuit son évolution vers l’intelligence et même la conscience. Les données sont une matière première nécessaire dans cette évolution.

    Je penses aux étapes suivantes :

    1) Le contenu comme finalité. Ca, c’est fait !
    - d’abord des contenus statiques
    - puis des contenus dynamiques
    - puis la création de contenu par l’internaute

    2) La relation comme finalité. Ca, c’est fait !
    - le contenu est un moyen pour créer et entretenir la relation.
    Nos réponses à ton article peuvent en être l’illustration.

    3) L’intelligence “passive” comme finalité. Ca, c’est en cours !
    - Le contenu et la relation sont des moyens pour créer de l’intelligence. C’est à dire, de l’information enrichie qui n’existait pas de manière brute. L’intelligence pourrait se matérialiser par une capacité à organiser les données issues du contenu et des systèmes sociaux de manière dynamique et contextuelle.

    4) L’intelligence “active” comme finalité. Ca, c’est pour plus tard !
    L’intelligence pourra être un moyen pour créer de la “conscience artificielle”. Le système va développer une stratégie “Métacognitive”. Par exemple , Après avoir lu ton article et nos commentaires, le robot Google viendra te donner son propre avis, argumenté et te demandera de réagir. Ce qui lui permettra de faire émerger de nouvelles données stratégiques, dont il s’enrichira.

    Quel est ton avis ?

  21. @ Raphael > Hum… les interactions sociales autour de l’article (commentaires, notes, bookmark, RT…) serviraient à le sémantiser puis à nourrir un agent intelligent capable de faire des propositions pour enrichir la discussion (relancer les commentaires) et poursuivre la reflexion (ainsi que le travail de sémantisation). Très intéressant tout ça…

Laissez un commentaire