Incohérence de Google Knowledge Graph – Etude de cas

Est ce que le Knowledge Graph de Google est parfait ?

La réponse courte : Non.

Google se repose sur des sources de données (Wikidata, Wikipedia, Ex Freebase, sites web) pour proposer aux internautes des réponses directes et des informations sur des sujets et des entités (personnes, lieux, concepts…). Ces sources de données sont souvent soutenues et modérées par des communautés. Des personnes comme moi, vous qui « veillent » sur la bonne qualité des données d’où le coté subjectif et d’où la source à l’erreur.

Exemple d’incohérence du Knowledge Graph :

Aujourd’hui je prends un exemple (que Thomas m’a signalé) d’incohérence du Knowledge Graph sur Google afin d’étudier le cas et comprendre le pourquoi du comment. Prenons la requête « Tommy Cash » sur Google. Google affiche le Knowledge Panel suivant :

Knowledge graph panel issue

C’est beau ? Non, l’age ne vous semble pas incohérent avec les photos ?

Dans cet exemple Google est perdu entre deux personnes (entités ?) qui s’appellent Tommy Cash et pense que c’est une seule. Par mauvaise chance, les homonymes sont tout les deux artistes 🙂 :

Tommy 1 : Rapeur Estonien, né en 1991 (selon lesinrocks.com), pas de page Wikipedia ni Wikidata

Tommy 2 : Chanteur américain de musique country, né en 1940, page Wikipedia et propriété Wikidata.

Sur l’url de la SERP on voit le paramètre « kgmid=/m/01vjbsl ». kgmid fait référence pour « Knowledge Graph Machine-generated Identifier » ce qui représente l’identificateur unique d’une entité dans le Knowledge Graph de Google. On fait la recherche « Tommy Cash » dans l’API du Knowledge Graph pour avoir les entités qui sortent pour cette requête et on obtient :

Knowledge Graph api

La première entité, correspond à Tommy 2, a le score le plus élevé : 386.832001, et a le mid kg:/m/01vjbsl qui correspond à la même entité affichée dans la SERP ci-dessus.

La deuxième entité correspond à Tommy 1, a un score de 325.455566, et a un mid kg:/g/11c3ymtrfg.

Maintenant si on remplace dans l’url l’id de T2 par celui de T1 ce qui donne : https://www.google.fr/search?&hl=fr-FR&q=Tommy+Cash&shndl=0&source=sh/x/kp&kgmid=/g/11c3ymtrfg le panel de l’entité Tommy 1 apparaît :

la-vrai-entite-tommy-cash-estonien

Alors pourquoi Google affiche les informations de Tommy 2 et les photos de Tommy 1 ?

Première constatation, sur un Knowledge panel, les images ne sont pas liées à l’entité. Google essaie de former une collection de 5 à 8 images pour meubler le panel. Souvent, une des images correspond à l’image « officielle » rattachée à l’entité. Dans notre cas, y’en a aucune qui appartient à l’entité de Tommy 2. Alors c’est quoi la source de ces images ?

Dans notre cas, les photos qui apparaissent dans le Knowledge Panel, sont présentes sur les sites suivants :

  • Chaine Youtube de Tommy 1
  • Une vidéo Youtube de Tommy 1
  • Des sites qui parlent de Tommy 1

Ce qui est commun entre les différentes sources, c’est qu’elles décrivent avec les données structurées de Schema.org soit une image à lui soit lui en tant que personne. Exemple sur la chêne Youtube on définit un objet de type « Person » qui a comme url son profile Google+.

youtube-image-tommy

 

On va sur son profile, la page décrit encore une fois la personne ‘TOMMY CASH’ et renseigne sa photo (Schema:image)

 

tommy-cash

De l’autre coté, Tommy 2 n’a pas d’images optimisées pour la requête ni décrites d’une manière structurée. Toutefois, il en a une associée à l’entité (celle sur son Wikipedia https://fr.wikipedia.org/wiki/Tommy_Cash). Sur son site: tommycash.com, il pourrait se décrire avec Schema:Person en précisant l’image et en faisant référence à sa page Wikipedia avec la propriété SameAs.

Pour finir, ce cas, malgré sa spécificité (homonymes),  montre l’imperfection du Knowledge Graph de Google mais aussi les risques derrière. Protégez vos entités, aidez Google à mieux comprendre ce web gigantesque.

Vous avez besoin d’aide pour maîtriser votre Knowledge Graph ? N’hésitez pas à me contacter pour en parler !

6 réflexions au sujet de “Incohérence de Google Knowledge Graph – Etude de cas”

  1. Salut Aymen,

    Merci pour ce super article, très intéressant et instructif, et en même temps qui promet tellement d’optimisations à mettre en place!

    J’ai une question concernant ton screenshot sur lequel tu affiche en même temps la page youtube et en même temps un panneau de microdatas, tu vois ça depuis la console ou ce sont deux images collées? Parce que ça pourrait être tellement efficace de voir en direct quelles données structurées sont implémentées !

Laisser un commentaire