Mots d'images


TinEye est le premier moteur de recherche qui utilise des technologies d’identification d’images pour rechercher des images sur le net. Cela signifie que les critères de recherche ne sont pas textuels (mots clés), mais constitués d’images (des ensembles de pixels). Concrètement, si vous lui soumettez une image, le logiciel vous ramènera toutes les occurrences de cette image qu’il connait, même si elles ont été modifiées ou recadrées. Il utilise pour cela un algorithme produisant une empreinte digitale de l’image recherchée qui est ensuite comparée à l’index. Lancé en mai 2008 par la société canadienne Idée Inc, ce service est passé maintenant en version beta publique. Depuis son lancement, il a continué à indexer le web pour agrandir sa base de données, seul moyen de gagner de l’efficacité. Le système est utilisable gratuitement par tout internaute, il suffit de s’inscrire ici. TinEye propose aussi l’installation d’un plug-in et/ou d’un bookmarklet, qui permet de procéder à une recherche d’image en un seul clic à partir de votre browser.

Mais quelle est donc l’utilité de ce service ?

La première est sans conteste la possibilité pour les auteurs (les photographes, graphistes, etc) ou les détenteurs de droits (banques d’images, archives, etc), de traquer les vols d’images sur internet. Plus subtilement, cela peut aussi aider à trouver les sources, l’origine d’une image, son histoire et sa manière d’être présente sur internet (mais l’internet, ce n’est qu’une partie du monde ;-) Pour le reste, faisons confiance au « génie humain » pour découvrir de nombreuses autres applications que celles prévues par le logiciel...

Quelle en est l’efficacité ?

Globalement - sur des images connues ! - l’effet est assez bluffant. L’efficacité des algorithmes utilisés et la vitesse de traitement sont surprenantes. TinEye est capable de retrouver des images même recadrées, redimensionnées, recolorées, retouchées, voire « photomontées ». Il est capable aussi - son algorithme semble très performant pour cela - de rechercher des graphismes bien définis, comme des logos commerciaux. Les pages Cool Searches et Widgets, d’où je tire l’exemple ci-dessus, présentent des exemples de recherche très éloquents... mais n’oubliez pas que ce sont des pages à caractère publicitaire pour lesquelles on a sélectionné les exemples « qui vont bien » !

Quelles en sont les limites ?

On entrevoit rapidement que l’efficacité du système est en relation directe avec l’étendue de sa base de données. TinEye annonce avoir engrangé plus d’un milliard de photos dans son index. C’est sûrement bien moins que Google. [1] Mais leurs robots continuent de parcourir le net pour indexer des images. Vous pouvez d’ailleurs leur demander d’aller visiter un site (le vôtre, par exemple). Je l’ai fait il y a 3 jours et depuis j’attends toujours le passage du robot ;-) Il est fort probable que les petits sites ou les sites à faible trafic ne soient pas visités en priorité...
En admettant qu’ils réussissent à construire un index suffisamment étendu pour être plus que représentatif il restera toujours des zones non explorées qui constituent autant de doutes pour l’auteur d’une recherche : les images en Flash ne sont pas prises en compte tout comme celles figurant sur des pages que les robots [2] ne sont pas autorisés à visiter. Les pirates ont donc toujours une longueur d’avance sur les gendarmes ;-)

Combien ça coûte ?

Le logiciel se présente actuellement en version beta publique pour laquelle on doit s’inscrire. Nous ne pouvons donc pas savoir si le service va devenir payant, car TinEye est peu disert sur la question. Seul un usage commercial à venir est évoqué. Il consistera en un service de veille sur un ensemble d’images avec envoi de notification au demandeur en cas de succès. Cette fonction devrait intéresser les petites et moyennes entreprises. (De grands comptes comme l’AFP ou Associated Press bénéficient déjà de solutions spécifiques fournies par d’autres logiciels de la même firme.) On peut espérer que cela permettra de laisser le libre accès aux petits usagers occasionnels.

TinEyes montre une nouvelle direction pour les moteurs de recherche d’images en élargissant le champ des possibles. Il peut sembler bizarre que Google ne soit pas sur ce coup là. Mais il est peut-être déjà sur le coup suivant... TinEyes est, somme toute, dans un créneau bien spécifique, car il n’identifie pas les objets, mais « seulement » les formes essentielles d’une image. C’est ce qui le rend très performant pour découvrir les multiples variantes d’une même image. Les grandes étapes à venir pour la recherche d’images seront probablement l’identification d’images d’objets, puis de personnes, le tout éventuellement en combinaison avec du texte... mais ce n’est pas pour tout de suite.

Notes:

[1] Il est très difficile de savoir combien d’images contient l’index de Google, la société ayant décidé en 2005 de ne plus communiquer sur la taille de sa base de données. En 2005, elle s’élevait à 2,187 milliards d’images. On peut postuler que ce chiffre à bien pû doubler depuis... Une recherche d’images avec juste « jpg » comme terme de recherche affiche aujourd’hui 1,44 milliard d’occurrences... (test sans valeur réelle, c’est juste pour voir). Pour comparaison, Flickr contient aujourd’hui 3 milliards d’images, mais le champion est Facebook avec 10 milliards.

[2] Si vous avez accès au code source de votre site, vous pouvez y placer des metatags spécifiques ou un lien vers un fichier robots.txt pour donner des instructions aux robots (crawlers) qui visitent votre site régulièrement et quelques fois à l’insu de votre plein gré. Vous pourrez y spécifier vos autorisations. Si vous n’avez pas la conscience tranquille, vous pourrez même autoriser tous les robots à visiter votre page, sauf celui de TinEye ! Il y a des robots malveillants qui ne tiennent aucun compte de ces instructions, mais TinEye déclare respecter ces instructions.


Addenda du 15.01.2009:

Je « remonte » un lien proposé par Patrick Pecatte en commentaires. Il renvoie à une excellente synthèse sur la recherche d’images par l’image qui m’avait échappé (et dont le titre est quasi identique au mien ;-)
Merci.

Béat Brüsch, le 14 janvier 2009 à 16.13 h
Rubrique: Les nouvelles images
Mots-clés: banque d’image , copyright , logiciel , retouche , technologie
5 commentaires
Les commentaires sont maintenant fermés.