Journée d'études 2023 de l'Arcom : Thomas Jaffeux

Arcom

Regardez Journée d'études 2023 de l'Arcom : Thomas Jaffeux - Arcom sur Dailymotion

Transcript

00:00 Alors donc, merci beaucoup Thomas Jaffeux d'être avec nous.

00:08 Vous êtes doctorant au Charisme, le centre d'analyse et de recherche

00:13 interdisciplinaire sur les médias de l'Université Paris Panthéon-Assas.

00:16 Et donc, vous êtes en thèse de cifres chez Dailymotion.

00:20 Votre thèse s'intitule "Des vidéos en données, la trajectoire des

00:24 biens culturels vers et sur les plateformes numériques".

00:27 Et donc, vous nous présentez un article qui découle de ce travail de thèse.

00:30 Exactement. L'article s'intitule "Saisir les algorithmes dans l'action,

00:34 le cas de l'infrastructure de qualification de contenu de la plateforme

00:37 Dailymotion".

00:38 Donc, tout d'abord, en introduction, je vais vous faire un rapide rappel.

00:42 C'est que le modèle d'affaires des plateformes impose deux impératifs

00:47 aux plateformes.

00:48 Le premier est un impératif d'agrégation, c'est-à-dire elle rassemble

00:51 des productions qui soient à la fois amateurs et professionnels, visuelles,

00:55 textuelles, qui peuvent être de différents ordres, que ce soit médiatique,

00:58 militant ou même illégal.

01:00 Donc, juste un chiffre à se proposer, c'est que chaque minute dans le monde,

01:03 en 2022, environ 500 000 heures de vidéos étaient postées sur YouTube,

01:08 ce qui est énorme en soi.

01:10 Le deuxième impératif, c'est un impératif de précision, c'est-à-dire

01:13 pour que la présence des utilisateurs, enfin, la présence des utilisateurs

01:16 sur la plateforme dépend de leur alimentation continuant bien,

01:20 mais aussi une alimentation affine.

01:22 Et on parlait tout à l'heure, notamment, de recommandations

01:24 personnalisées.

01:26 Donc, pareil, à titre indicatif, Instagram comptait 1,4 milliard

01:30 d'utilisateurs actifs mensuels en 2022.

01:33 Pourquoi je vous ai mis ces chiffres ?

01:34 Tout simplement pour rappeler la dimension industrielle de ces plateformes,

01:38 notamment dans le traitement des contenus.

01:41 Et c'est quelque chose que je vais aborder plus en profondeur.

01:43 Une définition rapide, qu'est-ce que j'entends par "qualification

01:47 des contenus" ?

01:48 Je cite Calon et Mugnessa, c'est le processus sociotechnique au cours

01:52 duquel des opérations d'identification, de détachement vers un espace

01:55 de calcul, de mise en relation et de classement se succèdent pour évaluer

02:00 et informer les biens.

02:01 Donc, il y a différentes étapes.

02:02 Et en fait, en fonction de ces étapes et en fonction des acteurs qui sont

02:05 rassemblés au sein d'une infrastructure, les biens ne seront pas catégorisés

02:09 et ils ne seront pas documentés de la même façon.

02:11 Donc, je l'ai écrit, la représentation des biens dans un système

02:13 documentaire change en fonction des agences calculatrices qui sont

02:17 rassemblées.

02:18 Indirectement, ça va avoir différents effets sur une plateforme.

02:20 C'est que la modération de ces contenus, selon la manière dont ils

02:23 sont qualifiés, va changer.

02:24 Leur recommandation et aussi le type de publicité qui leur sont associées,

02:28 etc.

02:29 Donc, ma problématique, je passe rapidement sur ça, mais Star évoque

02:34 le fait qu'une infrastructure, elle a avant tout relationnel,

02:37 c'est-à-dire elle est ancrée dans les pratiques organisées des

02:39 plateformes, en l'occurrence ici, et elle est coulée à l'intérieur

02:42 d'autres structures, arrangements sociaux et technologiques.

02:44 Qu'est-ce que ça veut dire ?

02:45 Très rapidement, on se pose la question, c'est quelle est leur marge

02:48 de liberté pour construire cette infrastructure ?

02:52 Et est-ce qu'elles le font selon leurs propres intérêts ?

02:54 Ou est-ce qu'elles dépendent aussi d'autres standards et d'autres

02:57 acteurs de marché pour pouvoir le faire ?

02:58 Donc, rapidement, Dailymotion, je pense que vous connaissez tous,

03:03 c'est un lecteur vidéo en marque blanche.

03:05 Donc, il faut savoir que 9 médias sur 10 l'utilisent, mais c'est aussi

03:09 une plateforme d'agrégation.

03:09 Donc, elle comptait au total en 2022, 140 millions de vidéos.

03:13 Il faut savoir qu'environ 120 000 posts étaient téléchargés

03:16 quotidiennement sur la plateforme à cette période.

03:19 Pour réaliser cette étude, j'ai fait 27 entretiens semi-directifs

03:24 avec majoritairement des ingénieurs qui sont sur la partie machine

03:28 learning, recommandations et infrastructures, et leur manager.

03:31 J'ai aussi eu accès à l'ensemble de la base de données qui s'appelle

03:36 Vidéocatalogue, qui rassemble très simplement toutes les informations

03:39 sur les vidéos que possède Dailymotion.

03:41 Donc, il faut savoir que dans une organisation comme celle-ci,

03:45 et je parle d'organisation plateforme, pardon, je me rapproche,

03:48 il y a différentes infrastructures de qualification.

03:51 Il y en a une qui est liée à l'image, il y en a une qui est liée au son

03:53 et il y en a une qui est liée au texte.

03:55 En l'occurrence, je me suis intéressé à celle qui est liée au texte

03:57 pour une raison très simple, c'est que c'est la plus fiable pour

03:59 déterminer les sujets des vidéos.

04:00 Donc, je ne vais pas vous parler de tout mon article.

04:05 Je vous invite à le lire si vous voulez tout savoir, mais je vais vous

04:08 parler des deux premières parties.

04:09 La première, informer les textes.

04:11 J'ai pris comme point d'entrée dans cette infrastructure de qualification

04:14 l'algorithme TagMe.

04:16 Donc, je vais tout d'abord parler de la manière dont il produit des

04:19 annotations vis-à-vis des vidéos.

04:20 Dans un second temps, je vais vous parler de la manière dont ces

04:23 informations, elles circulent dans l'infrastructure et qu'est-ce

04:27 que ça implique.

04:28 Donc, première partie, TagMe, qu'est-ce que c'est ?

04:31 C'est très simple, c'est un algorithme d'indexation de texte qui a été

04:35 créé par des chercheurs italiens de l'université de Pise et intégré

04:37 dans l'organisation en 2015 et il a été utilisé jusqu'en début 2023.

04:43 Il est sous licence libre et open source, à page 2.0, ce qui n'est pas

04:47 anodin et ce qui vous renvoie à ce dont Yann Lequin discutait tout à l'heure.

04:52 Son objectif, c'est de produire des scores et de déterminer les sujets

04:55 des vidéos à partir de trois types d'éléments, leurs titres,

04:58 leurs descriptions et leurs tags.

04:59 Il faut savoir aussi qu'une nouvelle donnée est rentrée récemment en jeu.

05:03 Grâce à WeeSport, on peut avoir les sous-titrages des vidéos.

05:05 Donc, c'est une nouvelle source textuelle d'informations pour les

05:07 traiter, qui n'était pas encore là au moment de mon étude.

05:10 Donc, il fonctionne en trois grandes étapes.

05:12 Premièrement, il identifie les unités textuelles d'un texte,

05:15 oui, les unités textuelles d'un texte, pardon.

05:17 Il distingue leurs sens et enfin, il sélectionne le sujet des vidéos.

05:21 Donc, je vous ai pris le cas d'une vidéo du "Move" qui a été mise sur

05:24 la plateforme en 2022, dont le titre est "L'AF1, bientôt en direct sur Netflix".

05:28 Donc, comme vous pouvez le voir à droite, le titre est là.

05:31 Et en fait, ce qui va se passer, c'est que pour le texte, ce texte,

05:33 pour pouvoir être compris par une machine, il doit être tokenisé,

05:36 c'est-à-dire découpé en plusieurs unités de sens.

05:38 Donc, on passe de "L'AF1, bientôt en direct sur Netflix" à "F1, en direct,

05:42 Netflix".

05:43 Ça, l'algorithme, il a des règles et ces règles ont été mises en place

05:46 par ses concepteurs, les universitaires italiens dont je vous parlais

05:49 tout à l'heure.

05:50 Voilà.

05:53 Donc, chaque unité de sens est ensuite mise en relation avec plusieurs

05:56 encres Wikipédia.

05:57 Les encres Wikipédia, en fait, c'est très simplement des mots sur

06:00 lesquels des textes, enfin, des liens hypertextes ont été placés.

06:02 Globalement, sur Wikipédia, c'est les textes en bleu que vous voyez

06:05 quand vous êtes sur le site Web.

06:06 Donc, on a pour Netflix "Entreprise Netflix", pour "En direct",

06:10 "Diffusion en direct".

06:11 Mais on se rend compte que pour F1, ça peut renvoyer à énormément

06:13 de choses.

06:14 Donc, "Formule 1", on se dit tous que c'est ça, le bon sens.

06:17 "Moteur fusée F1", "Hôtel Formule 1", "Émission F1 à la une",

06:21 etc.

06:22 Il faut bien se rappeler qu'un algorithme, il est avant tout naïf.

06:24 Lui, il doit trouver un moyen de trouver la bonne solution.

06:27 Donc, comment il va faire ?

06:29 Eh bien, il va distinguer les sens de ses encres et pour le faire,

06:33 il va regarder les liens qui sont partagés entre les encres.

06:36 Donc, Netflix, c'est l'encre Netflix, il partage des liens d'intérêt.

06:39 En l'occurrence, Belgique.

06:40 "Hôtel F1" est installé en Belgique, "Netflix" est installé en Belgique.

06:44 Il y a deux liens qui se croisent.

06:46 Néanmoins, sur cet exemple, on voit qu'il n'y en a qu'un.

06:48 Donc, en fait, leur score de relation est bas.

06:50 Donc, il va établir que le fait que "Hôtel F1" soit relié à "Netflix",

06:55 la probabilité est relativement basse.

06:57 Ensuite, il va pondérer les scores.

06:59 Très simplement, il faut se dire que plus le nombre de liens dirigés

07:02 vers une encre sur Wikipédia est importante,

07:05 plus ça veut dire que cette encre a une place importante sur le site Web.

07:08 Typiquement, France, ça renvoie à énormément de liens,

07:10 donc ça occupe une grande place.

07:12 À l'inverse, "Hôtel F1", ça renvoie à beaucoup moins de choses

07:15 et beaucoup moins de liens sont dirigés vers "Hôtel F1",

07:17 donc ça a moins de place.

07:18 Donc, il va aussi pondérer les résultats en fonction de ce critère.

07:20 Enfin, il va sélectionner les encres.

07:24 Donc, il va le faire d'une manière très simple.

07:26 C'est qu'il y a un score de confiance qui a été établi par ses créateurs.

07:30 Et tout ce qui est en dessous de ce score sera supprimé,

07:32 tout ce qui est au-dessus sera gardé.

07:34 Je vous ai mis un exemple en dessous,

07:35 c'est qu'est-ce qui ressort pour le titre dont je vous ai parlé juste avant.

07:38 Donc, on retrouve Netflix, on retrouve diffusion en direct,

07:41 mais pour F1, on a quoi ?

07:43 On a "Formula 1" et "Moteur de fusée F1".

07:45 Donc, jusqu'au bout du processus,

07:47 il a considéré que ça pouvait être une possibilité de sens.

07:49 Après, je vous rassure,

07:51 je ne vais pas rentrer dans le détail des résultats,

07:53 mais c'est bien "Formula 1" à la fin qui est allé jusqu'au bout du process

07:57 et qui aurait été sauvegardé si ça avait été utilisé

08:00 en dehors de l'exemple que je vous ai démontré.

08:02 Donc, quelques constats.

08:05 Premièrement, le choix opéré par l'algorithme

08:06 détermine l'ensemble du travail à venir.

08:08 C'est-à-dire, l'algorithme, il est pensé par des concepteurs italiens,

08:11 il est au tout début de l'infrastructure.

08:12 Et en fait, c'est ce score-là, ce qu'il établit,

08:15 qui va après influencer le travail de toutes les autres parties de l'infrastructure.

08:18 En aucun cas, je vous ai parlé des ingénieurs à cette étape

08:22 pour une raison très simple,

08:23 c'est que l'entreprise, elle ne fait qu'associer les acteurs,

08:25 mais ce n'est pas elle qui interagit et qui dit ce qui doit se passer

08:29 et comment les acteurs doivent fonctionner.

08:31 Pour agir, Tagmee dépend de trois grands types de personnes,

08:34 donc les concepteurs de l'algorithme, je viens de le dire,

08:37 également les producteurs contenus.

08:38 Et là, je cite un ingénieur,

08:39 "Si tout est faux dans les textes qui sont accolés au contenu,

08:42 eh bien, il sera mal catégorisé et il sera potentiellement mal recommandé."

08:45 Et enfin, Wikipédia, et c'est important,

08:48 c'est un site, et pareil, Yann Lecun, on a parlé tout à l'heure,

08:51 qui est sous l'égide d'une gouvernance communautaire.

08:54 Et en fait, la manière dont les gens rédigent,

08:56 dont ils établissent des liens,

08:57 va faire que certains sujets peuvent apparaître sur Dailymotion ou pas.

09:01 Donc, l'agentivité algorithmique, on peut dire qu'ici,

09:04 elle est distribuée entre les dépendances nécessaires au fonctionnement.

09:07 Mais encore une fois, je le rappelle, ça ne dépend pas de Dailymotion.

09:09 D'autres constats, c'est que la relation entre l'algorithme et les ingénieurs,

09:13 elle repose en fait très simplement sur un accord tacite.

09:15 Et là, tout où on parle notamment,

09:17 c'est que tant qu'il produit des informations utiles à l'assemblage productif,

09:20 eh bien, son fonctionnement n'est pas interrogé.

09:23 Tant qu'il fonctionne bien et que les ingénieurs considèrent

09:25 que ses résultats sont bons, eh bien, ils le laissent fonctionner.

09:27 Il faut bien se dire qu'on est là dans un contexte industriel,

09:30 d'évaluation industrielle des contenus.

09:32 Et il n'est pas possible pour les ingénieurs de saisir les calculs

09:34 qu'il y a derrière tous les acteurs impliqués dans une infrastructure.

09:36 Ils sont obligés en fait de faire des compromis.

09:39 Et donc, cette phrase que je trouve relativement importante,

09:42 c'est "l'algorithme est pour eux une boîte noire nécessaire,

09:44 mais qui n'est pas nécessairement mauvaise".

09:45 Mais l'algorithme, ils ne savent pas comment il fonctionne.

09:48 Tant qu'il fait ce qu'il fait, ça leur va.

09:50 Et il faut le rappeler que c'est les ingénieurs de Dailymotion.

09:52 Donc, en partie 2, maintenant que je vous ai expliqué

09:56 comment Tagmee fonctionne, on va le replacer un petit peu dans le contexte.

09:58 Donc, je vous ai dit qu'il fonctionnait grâce à Wikipédia.

10:01 En fait, il ne parcourt pas tout le site Wikipédia

10:03 à chaque fois qu'il doit faire une requête.

10:04 Il se base sur une base de données qui est produite

10:06 par la fondation Wikimedia.

10:08 Il va travailler à partir de celle-ci et il va produire ses résultats.

10:11 Ses résultats, ils ont principalement un objectif,

10:14 c'est un objectif publicitaire.

10:16 Les plateformes, elles vivent notamment grâce à la publicité,

10:18 je ne vous apprends rien.

10:19 Et c'est pouvoir accoler des publicités au contenu.

10:22 Donc, il faut savoir que sur tout ce chemin de données,

10:25 il y a des frictions.

10:27 Et en fait, le travail des ingénieurs, il intervient là.

10:30 Comment est-ce qu'ils vont lubrifier ce trajet ?

10:32 Comment ils vont articuler ce chemin de données

10:34 de manière à ce qu'ils arrivent aux résultats qu'ils souhaitent ?

10:38 Donc, qu'est-ce que c'est Wikimedia ?

10:40 Rapidement, cette base de données, c'est les informations de Wikipédia,

10:43 vous vous en doutez, mais aussi tout ce qui est lié à Wikidata.

10:46 Et Wikidata, c'est quoi ?

10:47 En fait, c'est ce qui permet de relier tous les projets Wiki

10:49 Ça classe l'ensemble des projets, toutes les hiérarchies, toutes les dépendances.

10:53 Et donc, de cette manière, en fait, ça agit comme une ontologie,

10:56 c'est-à-dire un cadre unificateur entre tous les projets.

10:58 Donc, il faut se dire que les bases de données

11:01 qui sont produites par Wikimedia via Wikidata et Wikipédia,

11:06 eh bien, en fait, ça agit comme, on appelle ça une ontologie computationnelle,

11:09 c'est-à-dire c'est la partie computationnelle

11:11 qui peut être utilisée par un programme informatique.

11:13 Donc là, pareil, quelques constats, deux écueils qui découlent de tout ça.

11:18 En fait, l'algorithme ne pourra jamais opérer des distinctions

11:21 si elles n'existent pas sur Wikipédia et sur Wikidata.

11:24 En l'occurrence, au moment où j'ai pris cette capture d'écran,

11:26 le terme "quoiqu'oubé" n'était pas présent sur Wikidata.

11:30 Et c'est-à-dire un article médiatique qui traitait de ce terme,

11:32 eh bien, en fait, jamais il n'aurait pu être référencé sous celui-ci,

11:35 sur Dailymotion, et donc indirectement,

11:39 potentiellement pas non plus sur Google.

11:41 Donc, les implications, on peut se rendre compte

11:43 qu'elles sont beaucoup plus larges et que ça ne dépend pas uniquement de l'acteur,

11:45 mais aussi de l'ensemble de ce que j'appelle l'écriture en ligne,

11:48 de gens qui écrivent.

11:49 Et si des wikipédiens avaient écrit ça sur Wikipédia,

11:54 en fait, ça aurait eu une existence.

11:55 Là, en l'occurrence, ce n'était pas le cas, donc ça n'apparaissait pas.

11:58 Deuxième chose, c'est que les mécanismes d'identification

12:00 et de classification de Wikidata, ils sont très, très précis.

12:03 Donc là, je vous ai mis ce qu'il a sorti pour des vidéos.

12:06 Par exemple, on retrouve dans les labels,

12:07 dans les sujets établis pour les vidéos, on retrouve "calvinisme",

12:10 c'est super, ou "syndrome de l'intestin irritable".

12:13 Donc, tout ça, c'est très précis.

12:15 Mais le problème, c'est que ça, ça ne pouvait pas être utilisé

12:16 à des fins publicitaires par les ingénieurs.

12:20 C'est trop précis.

12:22 Donc là, on arrive sur la deuxième partie,

12:24 c'est qu'en fait, les catégories IAB

12:25 sont des catégories publicitaires qui sont très, très générales.

12:29 Il y en a 317.

12:30 Donc, les ingénieurs, qu'est-ce qu'ils ont fait ?

12:32 Ils ont dit ce qu'on trame en bricoleur,

12:33 c'est une formule de Lévi-Strauss.

12:35 Et donc, ils ont créé deux dispositifs interdépendants.

12:37 J'espère que j'ai encore un peu de temps.

12:39 Le premier, c'est le "topic generalizer".

12:41 Donc, en fait, il faut savoir que Wikidata,

12:43 il y a au total 11 000 propriétés.

12:45 Et en fait, ils ont sélectionné, eux,

12:47 en fonction des données qu'ils avaient,

12:48 en fonction des vidéos qu'ils avaient,

12:50 ils ont sélectionné 11 critères.

12:53 Et à partir de ça, ça leur permettait de classer les vidéos

12:55 dans des catégories plus larges.

12:56 Donc, je vous ai mis le cas d'Alain Prost.

12:58 Alors, je ne vois pas très bien, mais Alain Prost est un humain.

13:00 Son occupation, c'est d'être pilote automobile,

13:02 ce qui renvoie à course automobile

13:04 et enfin, à la sous-classe sport automobile.

13:07 Donc, vous voyez, ils remontaient de cette façon

13:09 les sujets de manière à en avoir moins.

13:12 Donc, ils sont partis d'environ 700 000 sujets produits par Tagme,

13:15 et ils sont remontés à 24 799 sujets de niveau 3

13:20 et environ 5 000 de niveau 1 et 2.

13:23 Qu'est-ce que c'est, ces niveaux ?

13:24 Je vous ai mis Netflix à gauche, donc je reviens à l'exemple du "move".

13:28 En fait, le niveau 3, c'est des sujets, mais qui sont très larges.

13:32 On retrouve vision du monde, représentation,

13:34 échange d'informations, etc.

13:35 C'est très large pour qualifier Netflix.

13:37 A contrario, on retrouve dans le niveau 2,

13:38 médias de masse, organisation, entreprise, mainstream,

13:42 et niveau 1, encore plus précis,

13:43 télévision sur Internet, mouvements culturels, etc.

13:47 Donc, malheureusement, on reste toujours à environ 5 000 sujets.

13:50 Le problème, c'est que ça reste toujours trop

13:52 et ce n'était pas possible de classer ces 5 000 sujets automatiquement.

13:56 Donc, ils ont créé une interface de labellisation

13:59 pour classer directement ces sujets dans les catégories IAB.

14:01 Et ça, en fait, il faut savoir que les équipes,

14:04 ils sont environ une dizaine,

14:05 tous ne participaient pas de la même façon,

14:08 mais ils ont environ classé chacun 725 sujets à la main.

14:11 C'est-à-dire là où on voit un truc d'une manière un peu automatique.

14:14 Alors, ils ont essayé avec Python, mais ça ne marchait pas.

14:16 Ils ont dû le faire à la main et ça leur a pris énormément de temps.

14:18 Donc là, le cas de conférence de motivation

14:20 qu'ils ont dû classer à gauche dans une des catégories IAB.

14:24 Donc, pour finir, la marge d'action des ingénieurs,

14:26 on comprend avec cet exemple,

14:28 elle réside pas tellement dans l'algorithme

14:29 et dans la façon dont ils fonctionnent,

14:31 mais plutôt dans ce travail de transformation des données

14:34 au fur et à mesure des étapes.

14:36 Il faut savoir que les acteurs qui sont intégrés

14:38 dans cette infrastructure,

14:39 ils font partie d'autres infrastructures

14:40 qui les contraint aussi dans leur fonctionnement.

14:43 En l'occurrence, l'ontologie sur laquelle s'appuie Tagme

14:47 est générale.

14:48 Donc ça, je vous parle de l'ontologie

14:49 produite par Wikimedia.

14:51 En fait, ils peuvent la modifier.

14:52 Ils peuvent la modifier,

14:53 elles conditionnent les sujets qui sont produits,

14:55 mais ils peuvent la modifier.

14:57 A contrario, s'ils veulent rentrer

14:59 dans l'écologie publicitaire en ligne,

15:00 ils sont obligés de rentrer, d'utiliser cette taxonomie,

15:03 celle qui est produite par IAB.

15:05 Et ils ne peuvent pas la changer.

15:06 S'ils la changent, ils se retrouvent exclus

15:08 et ils ne peuvent pas faire de publicité sur leur plateforme.

15:11 Donc pour finir, et ce sera ma dernière phrase,

15:13 on comprend donc avec ces différents exemples

15:14 que le caractère précaire des arrangements

15:18 qui préside à la qualification de contenu,

15:19 et ça émane d'une relation qui est certes stabilisée

15:22 pendant un moment, qui fonctionne pendant un temps,

15:24 mais qui n'est pas figée entre des acteurs

15:26 ponctuellement associés, dotés de capacités d'action inégales.

15:29 Et juste un exemple pour terminer,

15:30 il faut savoir que début 2023,

15:32 l'organisation en interne a changé.

15:35 Tagme s'est trouvée critiquée.

15:37 Tagme a été sortie de cette infrastructure

15:40 et c'est l'API de Google,

15:41 Natural Language, qui a été mise en place.

15:44 Et la manière dont les contenus sont qualifiés depuis

15:46 a complètement changé.

15:47 Voilà, merci beaucoup.

15:48 (Applaudissements)

Category

Transcription

Recommandations