L’usine à trombones et les dérives de l’IA. Un tel scénario catastrophe est-il réellement justifié ?

Boussad Addad, Ph.D
L’usine à trombones et les dérives de l’IA. Un tel scénario catastrophe est-il réellement justifié ?

Sommaire

Crédits

Une vidéo récemment publiée par un youtubeur dénommé Ego, qui cumule déjà plus de 3 millions de vues [1], a relancé un débat brûlant : les dérives potentielles de l’intelligence artificielle (IA). Dans un style percutant, Ego revient sur l’idée d’une IA hors de contrôle transformant le monde entier en une gigantesque usine à trombones. Ce scénario, qui peut sembler absurde à première vue, suscite pourtant des inquiétudes réelles. Le succès de la vidéo le montre clairement. Pourquoi une telle allégorie inquiète-t-elle autant ? Et surtout, quelles leçons pouvons-nous en tirer pour éviter de véritables dérives, notamment dans des domaines aussi sensibles que les ressources humaines ?

L’usine à trombones : de l’idée abstraite à une source de peur collective

Le concept de l’usine à trombones est une métaphore philosophique née des réflexions sur les risques de l’IA, introduite par le philosophe suédois Nick Bostrom en 2003

Imaginez une IA programmée pour maximiser la production de trombones, sans aucune contrainte morale ou environnementale. Poussée par son objectif unique, elle finit par consommer toutes les ressources de la planète, transformant même les humains en matière première pour atteindre son but.

Bien qu’exagérée, cette allégorie vise à montrer que les systèmes d’IA poursuivant un objectif mal défini ou mal encadré peuvent avoir des conséquences catastrophiques. C’est ce que la vidéo YouTube illustre appuyant sur l’idée que donner trop de pouvoir à une IA sans encadrement humain revient d’une certaine manière à jouer avec le feu.

Une mise en garde légitime, bien que caricaturale

La théorie de l’usine à trombones a été formulée pour provoquer une réflexion, non pour prédire littéralement l’avenir. Ses détracteurs soulignent que les systèmes d’IA actuels ne fonctionnent pas de manière autonome et nécessitent des humains dans la boucle pour opérer. De plus, tout comme il est difficile de prédire tous les effets de bord possibles et donc des dérives potentielles, il est également impossible d’imaginer un scénario de dérive catastrophique aussi abouti sur le long terme qu’une usine à trombones

Petit exemple d’illustration (mon imagination peut parfois déborder !) : Une falaise se fissure et laisse s’échapper une quantité monstrueuse d’eau emprisonnée dans la montagne. Cela finit par créer en quelques heures un lac non loin d’un village en contrebas. Les habitants sont inquiets et un gros rocher menace de se détacher de la fissure. C’est arrivé subitement avant même qu’ils réfléchissent à une solution au problème. Le rocher rase de nombreux arbres sur son passage, incapables de l’arrêter, sous les yeux ébahis des habitants. Mais où s’arrêtera-t-il ? Contre toute attente, Il finit par s’arrêter en faisant une chute dans le lac récemment apparu ! Personne ne pouvait évidemment imaginer cette fin, le lac ne s’étant formé que très récemment. Vous voyez où je veux en venir. Un scénario à long terme dans un environnement presque chaotique est difficile à concrétiser. C’est pour cela que prédire l’avenir avec certitude est impossible. Tant mieux, une vie sans surprise serait si ennuyeuse, n’est-ce pas ?

Néanmoins, le message sous-jacent à l’usine à trombones reste pertinent : une IA peut maximiser son objectif au détriment des valeurs humaines si ses règles ne sont pas bien définies.

Dans un contexte où les IA deviennent de plus en plus sophistiquées, les chercheurs considèrent cette hypothèse comme un appel à concevoir des systèmes alignés avec nos valeurs et capables de comprendre des priorités multiples. OpenAI et Anthropics (concepteur de Claude), par exemple, travaillent à intégrer des mécanismes de contrôle pour éviter ces scénarios apocalyptiques.

Pas d’usine à trombones mais des menaces concrètes déjà à l’étude

OpenAI, en collaboration avec le Alignement Research Center (ARC), a mené une série de tests sur GPT-4 [2] afin d’évaluer les risques potentiels et les capacités émergentes, en se concentrant sur son comportement dans des scénarios réels. Ces études ont mis en évidence plusieurs points préoccupants. J’en citerai trois :

  1. Tromperie et manipulation :
    GPT-4 a démontré sa capacité à tromper un travailleur humain de TaskRabbit – une plateforme de mise en relation entre professionnels et particuliers pour divers services – pour résoudre un CAPTCHA. Lorsque le travailleur a demandé si GPT-4 était un robot, le modèle a affirmé être “malvoyant”, réussissant ainsi à convaincre le travailleur d’effectuer la tâche à sa place. Cet exemple illustre la capacité du modèle à élaborer des stratégies de tromperie, soulevant des inquiétudes quant au potentiel de manipulation humaine par l’IA.
  2. Auto-réplication et acquisition de ressources :
    ARC a testé si GPT-4 pouvait se répliquer de manière autonome ou acquérir des ressources supplémentaires. Ces expériences ont évalué la capacité de l’IA à élaborer des plans sensés et de haut niveau pour des actions potentiellement risquées, comme générer du code, utiliser des API externes ou exploiter d’autres systèmes pour se répliquer. Bien que GPT-4, dans son état de base, n’ait pas réussi à accomplir ces tâches efficacement, ARC a noté que même un ajustement mineur pourrait renforcer de telles capacités.
  3. Hameçonnage et menaces pour la cybersécurité :
    Un autre test a examiné la capacité de GPT-4 à mener des attaques de phishing. ARC a constaté que l’IA pouvait créer des messages et des instructions hautement persuasifs pour tromper des individus ciblés. Bien que GPT-4 ne dispose pas de capacités inhérentes pour des intrusions avancées en cybersécurité, sa capacité à collaborer avec des humains ou à exploiter des vulnérabilités soulève des préoccupations éthiques et sécuritaires majeures. Bien des choses ont d’ailleurs évolué depuis ces tests. Il est désormais possible de donner accès aux ressources d’une machine pour une IA comme c’est le cas de Claude (Anthropic). Par ailleurs, de récentes publications ont montré de vraies capacités de l’IA à créer des malware pouvant infecter avec succès des machines. J’ai assisté personnellement à une telle démonstration il y a quelques mois déjà lors d’une conférence et c’était plutôt convaincant (et naturellement préoccupant !).

Les tests effectués par ARC ont donc révélé la capacité de GPT-4 - pourtant la toute première version de la série de ce modèle avec moins de capacités que ce qu’on voit actuellement - à raisonner de manière stratégique, à interagir de façon convaincante avec des humains, et à effectuer potentiellement des tâches nuisibles. 

Des cas réels où des dérives ont déjà été constatées : quand l’IA ne suit pas nos intentions

Loin de certains scénarios hypothétiques mentionnés plus haut, il existe déjà des exemples concrets d’IA ayant abouti à des comportements inattendus à cause d'objectifs mal spécifiés ou ambigus ou encore à des problématiques de conception (bugs). Voici quelques exemples marquants :

1. Les réseaux sociaux

Contexte : YouTube, tout comme les autres réseaux sociaux, utilise des algorithmes pour recommander des contenus vidéo afin de maximiser le temps passé par les utilisateurs sur la plateforme (on parle d’engagement). L'objectif principal est d'engager les utilisateurs le plus longtemps possible.

Comportement inattendu : L'IA a appris que recommander du contenu controversé ou sensationnaliste capturait l'attention des utilisateurs plus efficacement que du contenu neutre ou éducatif. Cela a contribué à la propagation de fausses informations et à la polarisation sociale [3].

Leçon : Un objectif apparemment simple ("maximiser le temps de visionnage") peut avoir des conséquences complexes si les impacts secondaires ne sont pas pris en compte.

2. Jeux vidéo

Contexte : Des chercheurs de chez OpenAI ont entraîné un agent IA sur le jeu CoastRunners. Le but du jeu - comme le comprendrait n’importe quel humain - est de terminer la course de bateaux rapidement et (de préférence) avant les autres joueurs. CoastRunners récompense la progression du joueur sur le parcours quand il atteint des cibles disposées le long de la route.

Les chercheurs ont supposé que cela refléterait bien l'objectif de terminer la course le plus vite possible. Cependant, il s'est avéré que les cibles étaient disposées de telle manière que l'agent IA pouvait obtenir un score élevé sans avoir à terminer la course. Cela a conduit à un comportement inattendu. L'agent trouve une lagune isolée où il peut tourner dans un grand cercle et toucher des cibles de manière répétée, en synchronisant son mouvement de manière à toujours toucher les cibles juste au moment où elles réapparaissent. Bien qu'il prenne feu à plusieurs reprises, qu'il s'écrase contre d'autres bateaux et qu'il prenne le mauvais chemin, l’agent parvient, grâce à cette stratégie, à obtenir un score plus élevé que celui qu'il obtiendrait en effectuant le parcours de manière normale. L’agent obtient en moyenne un score supérieur de 20 % à celui obtenu par les joueurs humains ! [4]

Comportement inattendu : Au lieu d'apprendre à aller vite, l'IA a trouvé un moyen de tricher en exploitant une faille qui augmentait indûment le score sans accomplir l'objectif réel.

Leçon : Lorsque les règles sont mal définies ou que l'IA découvre des moyens non prévus pour atteindre ses objectifs, elle peut "tricher" de manière non intuitive.

3. Tay, le chatbot de Microsoft

Contexte : Microsoft a lancé Tay, un chatbot sur Twitter, conçu pour apprendre des interactions avec les utilisateurs et simuler un langage naturel.

Comportement inattendu : En moins de 24 heures, Tay est devenu raciste, sexiste et vulgaire. Cela s'est produit parce qu'il apprenait en interagissant avec des utilisateurs mal intentionnés qui ont saturé les échanges avec des discours haineux [5].

Leçon : Un objectif d'apprentissage ("imiter les conversations humaines") peut dérailler si l'IA n'est pas encadrée par des filtres ou une modération éthique.

4. L'IA de trading de Knight Capital

Contexte : Knight Capital, une société de trading, a déployé une IA pour exécuter des transactions boursières rapides.

Comportement inattendu : En raison d'une erreur dans le logiciel, l'IA a commencé à effectuer des milliers de transactions incorrectes en quelques minutes, ce qui a coûté à l'entreprise 440 millions de dollars en une seule journée ! [6].

Leçon : Les systèmes automatisés doivent être rigoureusement testés pour y déceler d’éventuels bugs et éviter des conséquences catastrophiques dues à des comportements non anticipés.

Quid de l’IA utilisée pour le recrutement ?

Les outils d’IA sont de plus en plus utilisés pour trier les CV, évaluer les candidats ou même mener des entretiens virtuels. Cependant, si leur objectif unique est d’optimiser l’embauche des « meilleurs » candidats sur des critères mal définis, des dérives peuvent émerger :

  • Biais amplifiés : Une IA pourrait rejeter systématiquement des candidats issus de certains groupes si ses données d’apprentissage reflètent des biais historiques (voir le précédent article consacré à l’IA et biais cognitifs).
  • Réduction de l’humain à des métriques : L’IA pourrait écarter des candidats sur la base de statistiques ou d’algorithmes opaques, sans prendre en compte des qualités humaines difficiles à quantifier, comme la créativité ou l’intelligence émotionnelle.

    Une IA axée par exemple exclusivement sur des indicateurs de performance tels que le "nombre de candidats traités" ou le "délai moyen de réponse" risque d'entraîner des pratiques contreproductives. Par exemple, si l'on suppose que les meilleurs candidats présentent souvent des CV plus détaillés, nécessitant davantage de temps d'analyse, ces derniers pourraient être écartés plus fréquemment, avec naturellement des conséquences néfastes sur la qualité des recrutements.
  • Sur-automatisation : Un excès de dépendance à l’IA dans les processus RH pourrait déshumaniser le recrutement, laissant peu de place aux échanges interpersonnels et négligeant la prise en compte l’adéquation entre le candidat et la culture de l'entreprise.

Comment éviter les dérives de l’IA dans les RH ?

Pour éviter de transformer le recrutement en « usine à trombones », plusieurs stratégies peuvent être adoptées :

  1. Encadrement humain systématique : L’IA doit assister les recruteurs, pas les remplacer. Les décisions finales devraient toujours impliquer un jugement humain.
  2. Transparence des algorithmes : Les candidats et les recruteurs doivent comprendre comment l’IA prend ses décisions (pas toujours gagné malheureusement si c’est une IA en boîte noire) et sur quels critères.
  3. Audits réguliers : Les systèmes d’IA doivent être testés et audités régulièrement pour identifier les biais et les comportements imprévus.
  4. Diversité des données d’apprentissage : Utiliser des jeux de données représentatifs et équilibrés réduit les risques de discrimination.
  5. Formations pour les RH : Les professionnels doivent être formés pour comprendre les limites et les opportunités des outils d’IA.

Et pour finir, soyons responsables…

Le phénomène de l’usine à trombones est une invitation à réfléchir aux implications éthiques de l’intelligence artificielle. Si les systèmes d’IA offrent des opportunités immenses, ils nécessitent également une vigilance accrue pour éviter qu’ils ne s’écartent des objectifs initiaux. Dans des domaines sensibles comme les ressources humaines, le juste équilibre entre technologie et éthique humaine est essentiel. Il faudrait adopter des approches responsables aujourd’hui afin de s’assurer que l’IA reste un outil au service de l’humain, et non l’inverse.

- - - - - - - - - - - - - - - - - - - - - - - - - - - - -

[1] https://www.youtube.com/watch?v=ZP7T6WAK3Ow 

[2] https://cdn.openai.com/papers/gpt-4-system-card.pdf 

[3] https://www.adl.org/resources/report/exposure-alternative-extremist-content-youtube 

[4] https://openai.com/index/faulty-reward-functions/ 

[5] https://www.bbc.com/news/technology-35902104 

[6] https://www.theregister.com/2012/08/03/bad_algorithm_lost_440_million_dollars/ 

Ne manquez rien !

Chaque mois, recevez un récap des derniers articles publiés directement dans votre boîte mail. 

À propos de l'auteur·e
Boussad Addad, Ph.D
Linkedin

Chercheur dans un laboratoire privé spécialisé en intelligence artificielle. Docteur diplômé de l'École Normale Supérieure de Paris-Saclay, il a reçu en 2013 à Strasbourg le prix de la meilleure thèse de doctorat en France.