SPAMINDEXING 2.0 : un « Far West » de cauchemar pour les moteurs de recherche [Robert Viseur]

  • le mois dernier
Xerfi Canal a reçu Robert Viseur, enseignant-chercheur en informatique et management de l’innovation, chef du service TIC, Université de MONS (Belgique), pour parler du spamindexing 2.0.
Une interview menée par Jean-Philippe Denis.

Category

🗞
News
Transcript
00:00Bonjour Robert Wieser, vous êtes enseignant-chercheur en informatique et
00:14management de l'innovation, vous êtes chef du service de la technologie de l'information et
00:18de la communication à l'université de Mons. Article dans Management et Data Science avec
00:23un mot nouveau que je ne connaissais pas avant de vous lire, le spam indexing 2.0.
00:28Les moteurs de recherche fassent au défi des IA génératives, c'est passionnant parce qu'en
00:34gros vous nous dites ils ont un gros problème les moteurs de recherche, ça s'appelle le spam
00:39indexing. Alors c'est un problème qui est relativement ancien, donc à savoir que dès
00:45que les moteurs de recherche sont apparus, un métier est également apparu qui est le métier
00:50de référenceur et qui vise en fait à optimiser le contenu des sites web et des pages inclus dans
00:55ces sites web pour qu'elles apparaissent bien classées dans les résultats des moteurs de
00:59recherche. On va retrouver en fait deux types d'approche du référencement, une approche qui
01:04est dit white hat, donc ce sont des pratiques qui sont communément acceptées par les moteurs de
01:07recherche, donc de l'optimisation du contenu des pages, principalement travailler sur la densité
01:12des mots-clés, travailler également sur la structure du site, sur le maillage hyperlien
01:18qui pointe vers ce site, donc là on est sur des pratiques white hat qui ne posent pas spécialement
01:22de problèmes. A l'opposé, vous avez les techniques black hat qui vont essayer de détourner finalement
01:29le fonctionnement du moteur de recherche de manière à le gruger et à faire apparaître du contenu
01:34mieux classé qu'il ne devrait être normalement. Donc on va retrouver principalement trois grandes
01:39méthodes, le cloaking, on identifie le robot du moteur de recherche, on lui envoie un contenu qui
01:43est sur-optimisé pour le moteur. Les pages satellites, on va créer toute une série de sites
01:50secondaires qui visent juste en fait à booster un site principal qui est le site du e-commerçant
01:54par exemple, et on va retrouver également le keyword stuffing, donc c'est du bourrage de mots-clés,
01:58on va multiplier en fait la présence de mots-clés dans des zones par exemple invisibles du site web
02:03ou dans les urls, donc on a également des techniques originales de ce type-là. Et donc ce
02:08spam indexing va être la conséquence en fait de cette utilisation de techniques black hat qui
02:15vise à pousser certains types de contenus dans l'index du moteur de recherche. La grande question
02:20que changent les IA génératives ? Ce qui justifie de parler de spam indexing 2.0 ? Alors ce que
02:25changent les IA génératives c'est que donc il y a déjà toute une série de techniques qui étaient
02:29utilisées comme je viens de le dire auparavant, mais en fait les techniques basées sur les IA
02:34génératives elles vont permettre deux choses. La première c'est de repartir en fait de
02:39techniques anciennes qui visaient à collecter, à scraper en fait du contenu de site avec un
02:44contenu intéressant, contenu qui était ensuite repositionné au profit d'un gestionnaire de site
02:51malhonnête je dirais. C'était potentiellement peu efficace pour des raisons de lutte contre les
02:57contenus dupliqués, c'était aussi globalement risqué parce que c'est une violation du droit
03:02d'auteur de l'auteur de départ. Ce que les IA génératives apportent ici c'est la possibilité
03:09de transformer en fait assez profondément ce contenu, de le traduire éventuellement aussi
03:13dans un second temps et donc d'handicaper en fait très fortement l'identification de ces
03:20pratiques et la preuve que les contenus ont été contrefaits. Donc ça c'est une première nouveauté.
03:26La deuxième nouveauté c'est qu'auparavant quand vous vouliez par exemple créer un réseau de pages
03:33satellite vous deviez produire le contenu. Donc soit de payer quelqu'un en interne pour le faire
03:36ce qui est assez cher, soit de passer par des plateformes de freelance à bas prix pour générer
03:41le contenu. Aujourd'hui vous avez la possibilité de générer directement le contenu par Prompting et
03:46donc en fait vous avez une démultiplication en fait des opportunités de spammer en fait
03:54l'index des moteurs de recherche avec des contenus de très faible qualité, soit pour booster un site
04:00de départ, et donc ça c'est le principe des pages satellite, soit pour créer massivement en fait des
04:07réseaux de sites web de faible qualité qui vont être basés soit sur du dropshipping, soit qui
04:12vont être monétisés soit par du dropshipping, soit par de l'affiliation. Alors vous me direz quel
04:17est le problème pour les moteurs de recherche ? En fait le problème c'est que l'identification de
04:21ces contenus générés par IA Générative est relativement compliquée. En fait à l'heure
04:24actuelle, on connaît bien ça dans le domaine éducatif avec la lutte contre l'IA plagiarisme,
04:29généralement les détecteurs ne sont pas efficaces. Donc les moteurs de recherche ont ce problème et
04:34ce problème est doublé par le fait que la détection idéalement devrait être automatisée,
04:39et qu'ils ne peuvent pas se permettre d'éliminer en fait des contenus qui auraient été générés avec
04:44l'assistance des IA Générative pour de l'aide à la rédaction ou pour de la rédaction supervisée
04:50par exemple. Bien sûr. On a toujours su Internet c'est le Far West, voilà donc là on est rentré
04:57dans le Far West 2.0 avec les IA Générative, passionnant. Avec quelques belles questions de
05:02recherche puisqu'on connaît mal l'ampleur du phénomène et qu'également toutes les techniques
05:07de lutte continuent à devoir être inventées. Voilà, il y a des empires construits hier qui
05:11vacillent aussi, c'est le cas typiquement de Google par exemple. Merci beaucoup Robert Wieser.
05:15Merci à vous.

Recommandée