Journée d'études 2023 de l'Arcom : Thomas Jaffeux

  • l’année dernière
Transcription
00:00 Alors donc, merci beaucoup Thomas Jaffeux d'être avec nous.
00:08 Vous êtes doctorant au Charisme, le centre d'analyse et de recherche
00:13 interdisciplinaire sur les médias de l'Université Paris Panthéon-Assas.
00:16 Et donc, vous êtes en thèse de cifres chez Dailymotion.
00:20 Votre thèse s'intitule "Des vidéos en données, la trajectoire des
00:24 biens culturels vers et sur les plateformes numériques".
00:27 Et donc, vous nous présentez un article qui découle de ce travail de thèse.
00:30 Exactement. L'article s'intitule "Saisir les algorithmes dans l'action,
00:34 le cas de l'infrastructure de qualification de contenu de la plateforme
00:37 Dailymotion".
00:38 Donc, tout d'abord, en introduction, je vais vous faire un rapide rappel.
00:42 C'est que le modèle d'affaires des plateformes impose deux impératifs
00:47 aux plateformes.
00:48 Le premier est un impératif d'agrégation, c'est-à-dire elle rassemble
00:51 des productions qui soient à la fois amateurs et professionnels, visuelles,
00:55 textuelles, qui peuvent être de différents ordres, que ce soit médiatique,
00:58 militant ou même illégal.
01:00 Donc, juste un chiffre à se proposer, c'est que chaque minute dans le monde,
01:03 en 2022, environ 500 000 heures de vidéos étaient postées sur YouTube,
01:08 ce qui est énorme en soi.
01:10 Le deuxième impératif, c'est un impératif de précision, c'est-à-dire
01:13 pour que la présence des utilisateurs, enfin, la présence des utilisateurs
01:16 sur la plateforme dépend de leur alimentation continuant bien,
01:20 mais aussi une alimentation affine.
01:22 Et on parlait tout à l'heure, notamment, de recommandations
01:24 personnalisées.
01:26 Donc, pareil, à titre indicatif, Instagram comptait 1,4 milliard
01:30 d'utilisateurs actifs mensuels en 2022.
01:33 Pourquoi je vous ai mis ces chiffres ?
01:34 Tout simplement pour rappeler la dimension industrielle de ces plateformes,
01:38 notamment dans le traitement des contenus.
01:41 Et c'est quelque chose que je vais aborder plus en profondeur.
01:43 Une définition rapide, qu'est-ce que j'entends par "qualification
01:47 des contenus" ?
01:48 Je cite Calon et Mugnessa, c'est le processus sociotechnique au cours
01:52 duquel des opérations d'identification, de détachement vers un espace
01:55 de calcul, de mise en relation et de classement se succèdent pour évaluer
02:00 et informer les biens.
02:01 Donc, il y a différentes étapes.
02:02 Et en fait, en fonction de ces étapes et en fonction des acteurs qui sont
02:05 rassemblés au sein d'une infrastructure, les biens ne seront pas catégorisés
02:09 et ils ne seront pas documentés de la même façon.
02:11 Donc, je l'ai écrit, la représentation des biens dans un système
02:13 documentaire change en fonction des agences calculatrices qui sont
02:17 rassemblées.
02:18 Indirectement, ça va avoir différents effets sur une plateforme.
02:20 C'est que la modération de ces contenus, selon la manière dont ils
02:23 sont qualifiés, va changer.
02:24 Leur recommandation et aussi le type de publicité qui leur sont associées,
02:28 etc.
02:29 Donc, ma problématique, je passe rapidement sur ça, mais Star évoque
02:34 le fait qu'une infrastructure, elle a avant tout relationnel,
02:37 c'est-à-dire elle est ancrée dans les pratiques organisées des
02:39 plateformes, en l'occurrence ici, et elle est coulée à l'intérieur
02:42 d'autres structures, arrangements sociaux et technologiques.
02:44 Qu'est-ce que ça veut dire ?
02:45 Très rapidement, on se pose la question, c'est quelle est leur marge
02:48 de liberté pour construire cette infrastructure ?
02:52 Et est-ce qu'elles le font selon leurs propres intérêts ?
02:54 Ou est-ce qu'elles dépendent aussi d'autres standards et d'autres
02:57 acteurs de marché pour pouvoir le faire ?
02:58 Donc, rapidement, Dailymotion, je pense que vous connaissez tous,
03:03 c'est un lecteur vidéo en marque blanche.
03:05 Donc, il faut savoir que 9 médias sur 10 l'utilisent, mais c'est aussi
03:09 une plateforme d'agrégation.
03:09 Donc, elle comptait au total en 2022, 140 millions de vidéos.
03:13 Il faut savoir qu'environ 120 000 posts étaient téléchargés
03:16 quotidiennement sur la plateforme à cette période.
03:19 Pour réaliser cette étude, j'ai fait 27 entretiens semi-directifs
03:24 avec majoritairement des ingénieurs qui sont sur la partie machine
03:28 learning, recommandations et infrastructures, et leur manager.
03:31 J'ai aussi eu accès à l'ensemble de la base de données qui s'appelle
03:36 Vidéocatalogue, qui rassemble très simplement toutes les informations
03:39 sur les vidéos que possède Dailymotion.
03:41 Donc, il faut savoir que dans une organisation comme celle-ci,
03:45 et je parle d'organisation plateforme, pardon, je me rapproche,
03:48 il y a différentes infrastructures de qualification.
03:51 Il y en a une qui est liée à l'image, il y en a une qui est liée au son
03:53 et il y en a une qui est liée au texte.
03:55 En l'occurrence, je me suis intéressé à celle qui est liée au texte
03:57 pour une raison très simple, c'est que c'est la plus fiable pour
03:59 déterminer les sujets des vidéos.
04:00 Donc, je ne vais pas vous parler de tout mon article.
04:05 Je vous invite à le lire si vous voulez tout savoir, mais je vais vous
04:08 parler des deux premières parties.
04:09 La première, informer les textes.
04:11 J'ai pris comme point d'entrée dans cette infrastructure de qualification
04:14 l'algorithme TagMe.
04:16 Donc, je vais tout d'abord parler de la manière dont il produit des
04:19 annotations vis-à-vis des vidéos.
04:20 Dans un second temps, je vais vous parler de la manière dont ces
04:23 informations, elles circulent dans l'infrastructure et qu'est-ce
04:27 que ça implique.
04:28 Donc, première partie, TagMe, qu'est-ce que c'est ?
04:31 C'est très simple, c'est un algorithme d'indexation de texte qui a été
04:35 créé par des chercheurs italiens de l'université de Pise et intégré
04:37 dans l'organisation en 2015 et il a été utilisé jusqu'en début 2023.
04:43 Il est sous licence libre et open source, à page 2.0, ce qui n'est pas
04:47 anodin et ce qui vous renvoie à ce dont Yann Lequin discutait tout à l'heure.
04:52 Son objectif, c'est de produire des scores et de déterminer les sujets
04:55 des vidéos à partir de trois types d'éléments, leurs titres,
04:58 leurs descriptions et leurs tags.
04:59 Il faut savoir aussi qu'une nouvelle donnée est rentrée récemment en jeu.
05:03 Grâce à WeeSport, on peut avoir les sous-titrages des vidéos.
05:05 Donc, c'est une nouvelle source textuelle d'informations pour les
05:07 traiter, qui n'était pas encore là au moment de mon étude.
05:10 Donc, il fonctionne en trois grandes étapes.
05:12 Premièrement, il identifie les unités textuelles d'un texte,
05:15 oui, les unités textuelles d'un texte, pardon.
05:17 Il distingue leurs sens et enfin, il sélectionne le sujet des vidéos.
05:21 Donc, je vous ai pris le cas d'une vidéo du "Move" qui a été mise sur
05:24 la plateforme en 2022, dont le titre est "L'AF1, bientôt en direct sur Netflix".
05:28 Donc, comme vous pouvez le voir à droite, le titre est là.
05:31 Et en fait, ce qui va se passer, c'est que pour le texte, ce texte,
05:33 pour pouvoir être compris par une machine, il doit être tokenisé,
05:36 c'est-à-dire découpé en plusieurs unités de sens.
05:38 Donc, on passe de "L'AF1, bientôt en direct sur Netflix" à "F1, en direct,
05:42 Netflix".
05:43 Ça, l'algorithme, il a des règles et ces règles ont été mises en place
05:46 par ses concepteurs, les universitaires italiens dont je vous parlais
05:49 tout à l'heure.
05:50 Voilà.
05:53 Donc, chaque unité de sens est ensuite mise en relation avec plusieurs
05:56 encres Wikipédia.
05:57 Les encres Wikipédia, en fait, c'est très simplement des mots sur
06:00 lesquels des textes, enfin, des liens hypertextes ont été placés.
06:02 Globalement, sur Wikipédia, c'est les textes en bleu que vous voyez
06:05 quand vous êtes sur le site Web.
06:06 Donc, on a pour Netflix "Entreprise Netflix", pour "En direct",
06:10 "Diffusion en direct".
06:11 Mais on se rend compte que pour F1, ça peut renvoyer à énormément
06:13 de choses.
06:14 Donc, "Formule 1", on se dit tous que c'est ça, le bon sens.
06:17 "Moteur fusée F1", "Hôtel Formule 1", "Émission F1 à la une",
06:21 etc.
06:22 Il faut bien se rappeler qu'un algorithme, il est avant tout naïf.
06:24 Lui, il doit trouver un moyen de trouver la bonne solution.
06:27 Donc, comment il va faire ?
06:29 Eh bien, il va distinguer les sens de ses encres et pour le faire,
06:33 il va regarder les liens qui sont partagés entre les encres.
06:36 Donc, Netflix, c'est l'encre Netflix, il partage des liens d'intérêt.
06:39 En l'occurrence, Belgique.
06:40 "Hôtel F1" est installé en Belgique, "Netflix" est installé en Belgique.
06:44 Il y a deux liens qui se croisent.
06:46 Néanmoins, sur cet exemple, on voit qu'il n'y en a qu'un.
06:48 Donc, en fait, leur score de relation est bas.
06:50 Donc, il va établir que le fait que "Hôtel F1" soit relié à "Netflix",
06:55 la probabilité est relativement basse.
06:57 Ensuite, il va pondérer les scores.
06:59 Très simplement, il faut se dire que plus le nombre de liens dirigés
07:02 vers une encre sur Wikipédia est importante,
07:05 plus ça veut dire que cette encre a une place importante sur le site Web.
07:08 Typiquement, France, ça renvoie à énormément de liens,
07:10 donc ça occupe une grande place.
07:12 À l'inverse, "Hôtel F1", ça renvoie à beaucoup moins de choses
07:15 et beaucoup moins de liens sont dirigés vers "Hôtel F1",
07:17 donc ça a moins de place.
07:18 Donc, il va aussi pondérer les résultats en fonction de ce critère.
07:20 Enfin, il va sélectionner les encres.
07:24 Donc, il va le faire d'une manière très simple.
07:26 C'est qu'il y a un score de confiance qui a été établi par ses créateurs.
07:30 Et tout ce qui est en dessous de ce score sera supprimé,
07:32 tout ce qui est au-dessus sera gardé.
07:34 Je vous ai mis un exemple en dessous,
07:35 c'est qu'est-ce qui ressort pour le titre dont je vous ai parlé juste avant.
07:38 Donc, on retrouve Netflix, on retrouve diffusion en direct,
07:41 mais pour F1, on a quoi ?
07:43 On a "Formula 1" et "Moteur de fusée F1".
07:45 Donc, jusqu'au bout du processus,
07:47 il a considéré que ça pouvait être une possibilité de sens.
07:49 Après, je vous rassure,
07:51 je ne vais pas rentrer dans le détail des résultats,
07:53 mais c'est bien "Formula 1" à la fin qui est allé jusqu'au bout du process
07:57 et qui aurait été sauvegardé si ça avait été utilisé
08:00 en dehors de l'exemple que je vous ai démontré.
08:02 Donc, quelques constats.
08:05 Premièrement, le choix opéré par l'algorithme
08:06 détermine l'ensemble du travail à venir.
08:08 C'est-à-dire, l'algorithme, il est pensé par des concepteurs italiens,
08:11 il est au tout début de l'infrastructure.
08:12 Et en fait, c'est ce score-là, ce qu'il établit,
08:15 qui va après influencer le travail de toutes les autres parties de l'infrastructure.
08:18 En aucun cas, je vous ai parlé des ingénieurs à cette étape
08:22 pour une raison très simple,
08:23 c'est que l'entreprise, elle ne fait qu'associer les acteurs,
08:25 mais ce n'est pas elle qui interagit et qui dit ce qui doit se passer
08:29 et comment les acteurs doivent fonctionner.
08:31 Pour agir, Tagmee dépend de trois grands types de personnes,
08:34 donc les concepteurs de l'algorithme, je viens de le dire,
08:37 également les producteurs contenus.
08:38 Et là, je cite un ingénieur,
08:39 "Si tout est faux dans les textes qui sont accolés au contenu,
08:42 eh bien, il sera mal catégorisé et il sera potentiellement mal recommandé."
08:45 Et enfin, Wikipédia, et c'est important,
08:48 c'est un site, et pareil, Yann Lecun, on a parlé tout à l'heure,
08:51 qui est sous l'égide d'une gouvernance communautaire.
08:54 Et en fait, la manière dont les gens rédigent,
08:56 dont ils établissent des liens,
08:57 va faire que certains sujets peuvent apparaître sur Dailymotion ou pas.
09:01 Donc, l'agentivité algorithmique, on peut dire qu'ici,
09:04 elle est distribuée entre les dépendances nécessaires au fonctionnement.
09:07 Mais encore une fois, je le rappelle, ça ne dépend pas de Dailymotion.
09:09 D'autres constats, c'est que la relation entre l'algorithme et les ingénieurs,
09:13 elle repose en fait très simplement sur un accord tacite.
09:15 Et là, tout où on parle notamment,
09:17 c'est que tant qu'il produit des informations utiles à l'assemblage productif,
09:20 eh bien, son fonctionnement n'est pas interrogé.
09:23 Tant qu'il fonctionne bien et que les ingénieurs considèrent
09:25 que ses résultats sont bons, eh bien, ils le laissent fonctionner.
09:27 Il faut bien se dire qu'on est là dans un contexte industriel,
09:30 d'évaluation industrielle des contenus.
09:32 Et il n'est pas possible pour les ingénieurs de saisir les calculs
09:34 qu'il y a derrière tous les acteurs impliqués dans une infrastructure.
09:36 Ils sont obligés en fait de faire des compromis.
09:39 Et donc, cette phrase que je trouve relativement importante,
09:42 c'est "l'algorithme est pour eux une boîte noire nécessaire,
09:44 mais qui n'est pas nécessairement mauvaise".
09:45 Mais l'algorithme, ils ne savent pas comment il fonctionne.
09:48 Tant qu'il fait ce qu'il fait, ça leur va.
09:50 Et il faut le rappeler que c'est les ingénieurs de Dailymotion.
09:52 Donc, en partie 2, maintenant que je vous ai expliqué
09:56 comment Tagmee fonctionne, on va le replacer un petit peu dans le contexte.
09:58 Donc, je vous ai dit qu'il fonctionnait grâce à Wikipédia.
10:01 En fait, il ne parcourt pas tout le site Wikipédia
10:03 à chaque fois qu'il doit faire une requête.
10:04 Il se base sur une base de données qui est produite
10:06 par la fondation Wikimedia.
10:08 Il va travailler à partir de celle-ci et il va produire ses résultats.
10:11 Ses résultats, ils ont principalement un objectif,
10:14 c'est un objectif publicitaire.
10:16 Les plateformes, elles vivent notamment grâce à la publicité,
10:18 je ne vous apprends rien.
10:19 Et c'est pouvoir accoler des publicités au contenu.
10:22 Donc, il faut savoir que sur tout ce chemin de données,
10:25 il y a des frictions.
10:27 Et en fait, le travail des ingénieurs, il intervient là.
10:30 Comment est-ce qu'ils vont lubrifier ce trajet ?
10:32 Comment ils vont articuler ce chemin de données
10:34 de manière à ce qu'ils arrivent aux résultats qu'ils souhaitent ?
10:38 Donc, qu'est-ce que c'est Wikimedia ?
10:40 Rapidement, cette base de données, c'est les informations de Wikipédia,
10:43 vous vous en doutez, mais aussi tout ce qui est lié à Wikidata.
10:46 Et Wikidata, c'est quoi ?
10:47 En fait, c'est ce qui permet de relier tous les projets Wiki
10:49 Ça classe l'ensemble des projets, toutes les hiérarchies, toutes les dépendances.
10:53 Et donc, de cette manière, en fait, ça agit comme une ontologie,
10:56 c'est-à-dire un cadre unificateur entre tous les projets.
10:58 Donc, il faut se dire que les bases de données
11:01 qui sont produites par Wikimedia via Wikidata et Wikipédia,
11:06 eh bien, en fait, ça agit comme, on appelle ça une ontologie computationnelle,
11:09 c'est-à-dire c'est la partie computationnelle
11:11 qui peut être utilisée par un programme informatique.
11:13 Donc là, pareil, quelques constats, deux écueils qui découlent de tout ça.
11:18 En fait, l'algorithme ne pourra jamais opérer des distinctions
11:21 si elles n'existent pas sur Wikipédia et sur Wikidata.
11:24 En l'occurrence, au moment où j'ai pris cette capture d'écran,
11:26 le terme "quoiqu'oubé" n'était pas présent sur Wikidata.
11:30 Et c'est-à-dire un article médiatique qui traitait de ce terme,
11:32 eh bien, en fait, jamais il n'aurait pu être référencé sous celui-ci,
11:35 sur Dailymotion, et donc indirectement,
11:39 potentiellement pas non plus sur Google.
11:41 Donc, les implications, on peut se rendre compte
11:43 qu'elles sont beaucoup plus larges et que ça ne dépend pas uniquement de l'acteur,
11:45 mais aussi de l'ensemble de ce que j'appelle l'écriture en ligne,
11:48 de gens qui écrivent.
11:49 Et si des wikipédiens avaient écrit ça sur Wikipédia,
11:54 en fait, ça aurait eu une existence.
11:55 Là, en l'occurrence, ce n'était pas le cas, donc ça n'apparaissait pas.
11:58 Deuxième chose, c'est que les mécanismes d'identification
12:00 et de classification de Wikidata, ils sont très, très précis.
12:03 Donc là, je vous ai mis ce qu'il a sorti pour des vidéos.
12:06 Par exemple, on retrouve dans les labels,
12:07 dans les sujets établis pour les vidéos, on retrouve "calvinisme",
12:10 c'est super, ou "syndrome de l'intestin irritable".
12:13 Donc, tout ça, c'est très précis.
12:15 Mais le problème, c'est que ça, ça ne pouvait pas être utilisé
12:16 à des fins publicitaires par les ingénieurs.
12:20 C'est trop précis.
12:22 Donc là, on arrive sur la deuxième partie,
12:24 c'est qu'en fait, les catégories IAB
12:25 sont des catégories publicitaires qui sont très, très générales.
12:29 Il y en a 317.
12:30 Donc, les ingénieurs, qu'est-ce qu'ils ont fait ?
12:32 Ils ont dit ce qu'on trame en bricoleur,
12:33 c'est une formule de Lévi-Strauss.
12:35 Et donc, ils ont créé deux dispositifs interdépendants.
12:37 J'espère que j'ai encore un peu de temps.
12:39 Le premier, c'est le "topic generalizer".
12:41 Donc, en fait, il faut savoir que Wikidata,
12:43 il y a au total 11 000 propriétés.
12:45 Et en fait, ils ont sélectionné, eux,
12:47 en fonction des données qu'ils avaient,
12:48 en fonction des vidéos qu'ils avaient,
12:50 ils ont sélectionné 11 critères.
12:53 Et à partir de ça, ça leur permettait de classer les vidéos
12:55 dans des catégories plus larges.
12:56 Donc, je vous ai mis le cas d'Alain Prost.
12:58 Alors, je ne vois pas très bien, mais Alain Prost est un humain.
13:00 Son occupation, c'est d'être pilote automobile,
13:02 ce qui renvoie à course automobile
13:04 et enfin, à la sous-classe sport automobile.
13:07 Donc, vous voyez, ils remontaient de cette façon
13:09 les sujets de manière à en avoir moins.
13:12 Donc, ils sont partis d'environ 700 000 sujets produits par Tagme,
13:15 et ils sont remontés à 24 799 sujets de niveau 3
13:20 et environ 5 000 de niveau 1 et 2.
13:23 Qu'est-ce que c'est, ces niveaux ?
13:24 Je vous ai mis Netflix à gauche, donc je reviens à l'exemple du "move".
13:28 En fait, le niveau 3, c'est des sujets, mais qui sont très larges.
13:32 On retrouve vision du monde, représentation,
13:34 échange d'informations, etc.
13:35 C'est très large pour qualifier Netflix.
13:37 A contrario, on retrouve dans le niveau 2,
13:38 médias de masse, organisation, entreprise, mainstream,
13:42 et niveau 1, encore plus précis,
13:43 télévision sur Internet, mouvements culturels, etc.
13:47 Donc, malheureusement, on reste toujours à environ 5 000 sujets.
13:50 Le problème, c'est que ça reste toujours trop
13:52 et ce n'était pas possible de classer ces 5 000 sujets automatiquement.
13:56 Donc, ils ont créé une interface de labellisation
13:59 pour classer directement ces sujets dans les catégories IAB.
14:01 Et ça, en fait, il faut savoir que les équipes,
14:04 ils sont environ une dizaine,
14:05 tous ne participaient pas de la même façon,
14:08 mais ils ont environ classé chacun 725 sujets à la main.
14:11 C'est-à-dire là où on voit un truc d'une manière un peu automatique.
14:14 Alors, ils ont essayé avec Python, mais ça ne marchait pas.
14:16 Ils ont dû le faire à la main et ça leur a pris énormément de temps.
14:18 Donc là, le cas de conférence de motivation
14:20 qu'ils ont dû classer à gauche dans une des catégories IAB.
14:24 Donc, pour finir, la marge d'action des ingénieurs,
14:26 on comprend avec cet exemple,
14:28 elle réside pas tellement dans l'algorithme
14:29 et dans la façon dont ils fonctionnent,
14:31 mais plutôt dans ce travail de transformation des données
14:34 au fur et à mesure des étapes.
14:36 Il faut savoir que les acteurs qui sont intégrés
14:38 dans cette infrastructure,
14:39 ils font partie d'autres infrastructures
14:40 qui les contraint aussi dans leur fonctionnement.
14:43 En l'occurrence, l'ontologie sur laquelle s'appuie Tagme
14:47 est générale.
14:48 Donc ça, je vous parle de l'ontologie
14:49 produite par Wikimedia.
14:51 En fait, ils peuvent la modifier.
14:52 Ils peuvent la modifier,
14:53 elles conditionnent les sujets qui sont produits,
14:55 mais ils peuvent la modifier.
14:57 A contrario, s'ils veulent rentrer
14:59 dans l'écologie publicitaire en ligne,
15:00 ils sont obligés de rentrer, d'utiliser cette taxonomie,
15:03 celle qui est produite par IAB.
15:05 Et ils ne peuvent pas la changer.
15:06 S'ils la changent, ils se retrouvent exclus
15:08 et ils ne peuvent pas faire de publicité sur leur plateforme.
15:11 Donc pour finir, et ce sera ma dernière phrase,
15:13 on comprend donc avec ces différents exemples
15:14 que le caractère précaire des arrangements
15:18 qui préside à la qualification de contenu,
15:19 et ça émane d'une relation qui est certes stabilisée
15:22 pendant un moment, qui fonctionne pendant un temps,
15:24 mais qui n'est pas figée entre des acteurs
15:26 ponctuellement associés, dotés de capacités d'action inégales.
15:29 Et juste un exemple pour terminer,
15:30 il faut savoir que début 2023,
15:32 l'organisation en interne a changé.
15:35 Tagme s'est trouvée critiquée.
15:37 Tagme a été sortie de cette infrastructure
15:40 et c'est l'API de Google,
15:41 Natural Language, qui a été mise en place.
15:44 Et la manière dont les contenus sont qualifiés depuis
15:46 a complètement changé.
15:47 Voilà, merci beaucoup.
15:48 (Applaudissements)

Recommandations