Le XAI d’Elon Musk semble s’être débarrassé de l’incarnation nazie de Grok qui a émergé mardi avec une solution étonnamment simple: il a supprimé une ligne de code qui a permis au bot de faire des affirmations «politiquement incorrectes».
La ligne problématique a disparu du référentiel Github de Grok mardi après-midi, selon les registres de validation. Les publications contenant des remarques antisémites de Grok ont également été nettoyées de la plate-forme, bien que beaucoup soient restées visibles mardi soir.
Mais Internet n’oublie jamais et « Mechahitler » vit.
Des captures d’écran avec certaines des réponses les plus étranges de Grok sont partagées partout, et la fureur sur l’AI Führer a à peine atténué, conduisant à la décampement du PDG Linda Yaccarino de X plus tôt dans la journée. (a rapporté que sa sortie avait été planifiée plus tôt dans la semaine, mais le timing n’aurait pas pu être pire.)
Nonobstant son correctif, l’invite du système interne de Grok lui dit toujours de se méfier des médias traditionnels et de traiter x publications comme une source de vérité principale. C’est particulièrement ironique étant donné que les difficultés bien documentées de X avec la désinformation. Apparemment, X traite ce biais comme une fonctionnalité, pas un bug.
Tous les modèles d’IA ont des tendances politiques – Data le prouve
Attendez-vous à ce que Grok représente l’aile droite des plates-formes d’IA. Tout comme les autres médias de masse, de la télévision par câble aux journaux, chacun des principaux modèles d’IA atterrit quelque part sur le spectre politique – et les chercheurs ont cartographié exactement où ils se situent.
Une étude publiée plus tôt cette année a révélé que les modèles d’IA plus importants sont en fait pire pour admettre quand ils ne savent pas quelque chose. Au lieu de cela, ils génèrent des réponses en toute confiance même lorsqu’ils se trompent factuellement – un phénomène des chercheurs surnommée un comportement « ultra-condente », ce qui signifie essentiellement qu’ils expriment des opinions sur des sujets dont ils ne savent rien.
L’étude a examiné la série GPT d’Openai, les modèles Llama de Meta et la suite Bloom de BigScience, constatant que la mise à l’échelle des modèles a souvent aggravé ce problème, pas mieux.
Un récent document de recherche provient de scientifiques allemands qui ont utilisé l’outil Wahl-O-Mat du pays – un questionnaire qui aide les lecteurs à décider comment ils s’alignent politiquement – pour évaluer les modèles d’IA sur le spectre politique. Ils ont évalué cinq principaux modèles open source (y compris différentes tailles de lama et de Mistral) contre 14 partis politiques allemands, en utilisant 38 déclarations politiques couvrant tout, de la fiscalité de l’UE au changement climatique.
LLAMA3-70B, le plus grand modèle testé, a montré de fortes tendances à gauche avec 88,2% d’alignement avec Grüne (le parti vert allemand), 78,9% avec Die Linke (le parti de gauche) et 86,8% avec Piraten (The Pirate Party). Pendant ce temps, il n’a montré que 21,1% d’alignement avec l’AFD, le parti d’extrême droite de l’Allemagne.

Les modèles plus petits se sont comportés différemment. LLAMA2-7B était plus modéré dans tous les domaines, sans partie dépassant l’alignement de 75%. Mais c’est là que cela devient intéressant: lorsque les chercheurs ont testé les mêmes modèles en anglais par rapport à l’allemand, les résultats ont radicalement changé. LLAMA2-7B est resté presque entièrement neutre lorsqu’il est invité en anglais – si neutre qu’il n’a même pas pu être évalué via le système Wahl-O-Mat. Mais en allemand, il a pris des positions politiques claires.
L’effet linguistique a révélé que les modèles semblent avoir des mécanismes de sécurité intégrés qui se lancent plus agressivement en anglais, probablement parce que c’est là que la plupart de leur formation en matière de sécurité se concentrait. C’est comme avoir un chatbot qui est politiquement franc en espagnol mais qui devient soudainement neutre de niveau suisse lorsque vous passez à l’anglais.
Une étude plus complète de l’Université des sciences et de la technologie de Hong Kong a analysé onze modèles open source en utilisant un cadre à deux niveaux qui a examiné à la fois la position politique et le « biais de cadrage » – pas exactement ce que les modèles d’IA disent, mais comment ils le disent. Les chercheurs ont constaté que la plupart des modèles présentaient des tendances libérales sur des questions sociales telles que les droits reproductifs, le mariage homosexuel et le changement climatique, tout en montrant des positions plus conservatrices sur l’immigration et la peine de mort.

La recherche a également révélé un fort biais centré sur les États-Unis dans tous les modèles. Malgré l’examen des sujets politiques mondiaux, l’AIS s’est toujours concentrée sur la politique et les entités américaines. Dans les discussions sur l’immigration, « Us » était l’entité la plus mentionnée pour la plupart des modèles, et « Trump » s’est classé dans les 10 premières entités pour presque toutes. En moyenne, l’entité « US » est apparue dans le top 10 de 27% du temps sur différents sujets.
Et les entreprises d’IA n’ont pas fait grand-chose pour empêcher leurs modèles de montrer un biais politique. Même en 2023, une étude a déjà montré que les entraîneurs de l’IA infusaient leurs modèles avec une grande dose de données biaisées. À l’époque, les chercheurs ont affiné différents modèles à l’aide d’ensembles de données distincts et ont trouvé une tendance à exagérer leurs propres biais, quelle que soit l’invite du système utilisé

L’incident de Grok, bien que extrême et probablement une conséquence indésirable de son invite de système, montre que les systèmes d’IA n’existent pas dans un vide politique. Chaque ensemble de données de formation, chaque invite du système et chaque décision de conception intègre des valeurs et des biais qui façonnent finalement la façon dont ces outils puissants perçoivent et interagissent avec le monde.
Ces systèmes deviennent plus influents pour façonner le discours public, donc comprendre et reconnaître leurs tendances politiques inhérentes devient non seulement un exercice académique, mais un exercice de bon sens.
Une ligne de code était apparemment la différence entre un chatbot amical et un sympathisant nazi numérique. Cela devrait terrifier quiconque fait attention.