NE LAISSER PAS LE 5G DETRUIRE VOTRE ADN Protéger toute votre famille avec les appareils Quantiques Orgo-Life® Publicité par Adpathway
Gemini, Claude, GPT-HOW Savez-vous quel modèle AI est le meilleur? Des chercheurs de l’Université de Berkeley ont des chatbots en compétition les uns contre les autres. Même le succès de Deepseek, ils avaient vu cela venir.
Les 9 modèles d’IA à l’origine qui se sont affrontés dans l’arène sont devenus plus de 400.
Illustration Simon Tanner / NZZ
Le monde des chatbots d’IA peut être déroutant. Chat-gpt d’Open IA est le sommet des questions quotidiennes, pour la génération d’images et de texte, beaucoup de Claude préfèrent. Et si vous avez besoin d’aide pour la programmation, vous contactez souvent la perplexité du concurrent. Mais tout cela peut être dépassé demain, après tout, de nouveaux modèles d’IA poussent du sol comme des champignons après la pluie.
Optimiser les paramètres de votre navigateur
Nzz.ch a besoin de JavaScript pour des fonctions importantes. Votre navigateur ou bloqueur d’annonces empêche actuellement cela.
Veuillez ajuster les paramètres.
Comment les comparez-vous au mieux? Le score ELO et le système de notation FIDE sont disponibles pour le classement dans les échecs, et les marchés boursiers ont été introduits d’AAA à D, et les universités américaines rivalisent dans les notes légendaires des collèges.
Une poignée de scientifiques ont appliqué la même idée sur les modèles d’IA: l’arène du grand modèle, LM-Arena pour court-circuit ou chatbot-arena pour faire court, est comme une bague de compétition pour les chatbots d’IA. Ici, les meilleurs modèles d’Open IA, Google, Anthropic et Co. sont mesurés en comparaison directe, vous devez convaincre le jury – c’est-à-dire l’utilisateur – quel modèle est le plus puissant. Il en résulte un score ELO, comme cela est également utilisé dans les échecs ou dans les jeux informatiques.
La procédure est simple: l’utilisateur se tourne vers la plate-forme avec une question qui choisit aveuglément de répondre et anonymise deux chatbots. L’utilisateur décide de quelle réponse il aime mieux – ou si les deux sont également bons ou non plus. Toutes les critiques se déroulent dans un classement pondéré, un classement si appelé.
Dans le classement de la LM-Arena, le plus jeune modèle de Google, Gemini 2.5 Pro.
Bild: capture d’écran LM-Arena
Parce que les utilisateurs posent toutes les questions possibles – du quotidien aux problèmes de programmation – le classement donne un bon aperçu de l’utilité d’un modèle. Plus de trois millions d’utilisateurs ont maintenant agi comme arbitres. Pour eux, l’offre du chatbot-arena est également attrayante car elle est gratuite: vous pouvez poser vos questions aux derniers et meilleurs modèles des sociétés d’IA sans avoir à payer pour cela.
Le PDG de Tech suit également le classement: Demis Hassabis, fondateur de Deep Mind, publie régulièrement des photos d’écran du classement sur les réseaux sociaux, Elon Musk vantéLorsque son modèle d’IA, Grok a atteint les meilleures critiques en très peu de temps. Et le PDG de Google, Sundar Pichai, a récemment ouvert l’événement le plus important de son groupe en applaudissant: “Dans la LM Arena, nos modèles montrent des positions de haut niveau.” En fait, le récent modèle AI de Google Gemini 2.5 Pro dirige le classement depuis sa publication à la mi-mars, devant le concurrent O3 par Open IA.
Le tout n’est pas seulement un gadget, mais a de vrais effets commerciaux. Parce que la concurrence entre les entreprises de l’IA est actuellement si grande que chaque avance supposée sur la concurrence peut aider à attirer de nouveaux clients et spécialistes. Le PDG de la technologie poursuivit donc le classement comme les mouvements de leurs titres sur les marchés boursiers.
“Tout le monde essaie actuellement d’apparaître en haut du classement”, a déclaré Joseph Spisak, chef de produit pour l’IA chez Meta, En face du “Wall Street Journal”. “Il est impressionnant de voir qu’une poignée d’étudiants peuvent créer quelque chose comme ça.”
La plate-forme a été programmée un seul week-end
En fait, les débuts de l’arène ont été modestes: début 2023, quelques mois après le succès surprise de Chat GPT, certains doctorants des sciences informatiques de l’Université de Berkeley avaient construit leur propre modèle vocal, dans l’approche open source. Maintenant, ils voulaient illustrer à quel point ce modèle fonctionnait bien en comparaison avec le chat GPT. Ils avaient l’idée que tout le monde pouvait comparer directement les modèles et porter son jugement. Le chatbot-arena a été créé pendant un week-end.
Wei-Lin Chiang (à gauche) et Anastasios Angelopoulos ont eu l’idée de laisser les modèles d’IA se concurrencer en tant que doctorants à l’Université de Berkeley.
Image: LM Arena
La chose particulière: les testeurs ne devraient pas seulement être des nerds, mais aussi du grand public. En fait, l’arène a frappé le zeitgeist: après seulement une semaine, 4700 utilisateurs avaient déjà visité la plate-forme et soumis leur évaluation.
Les entreprises d’IA ont commencé à envoyer de nouveaux modèles aux scientifiques et ont amélioré leurs algorithmes avec les connaissances acquises dans l’arène. Étant donné que les données collectées offrent des informations précieuses sur la façon dont les utilisateurs interagissent avec les chatbots. La plate-forme les partage avec les sociétés d’IA, au moins partiellement. Environ 20% de toutes les données recueillies sont transmises, les fondateurs disent: suffisamment pour que les informations soient utiles pour de légères améliorations, mais trop peu que les entreprises pourraient déjouer le système de classement.
Deux ans plus tard, le public du test est passé à environ un million d’utilisateurs par mois. Les modèles à l’origine 9 AI qui se sont affrontés sont devenus plus de 400. Tout le monde peut le faire sur le site Web lmana.ai pour être accompagné d’anonymisé – ceux-ci des titans Silicon-Valley tels que Open IA, Google et Meta à ceux des sociétés d’IA peu connues de Chine et d’Europe. Vous ne pouvez voir quel modèle est derrière les réponses lorsque vous avez abandonné votre note.
Anastasios Angelopoulos.
Image: PD
“Nos utilisateurs ont des antécédents très différents”, explique l’un des fondateurs, le PDG Anastasios Angelopoulos, en conversation avec la NZZ: environ 60% sont venus de l’industrie de la technologie, le reste des utilisateurs venait de divers domaines, de l’immobilier vers le secteur de la santé.
Les modèles devraient donc faire leurs preuves avec une énorme variété de demandes, explique Angelopoulos. Sur la base de toutes les notes, un tel classement est créé: pour le meilleur modèle global et pour les sous-catégories telles que le meilleur modèle de programmation ou de génération d’images.
Deepseek a grimpé le classement il y a des mois
Le classement fonctionne également bien lorsqu’il s’agit de reconnaître les nouveaux modèles d’IA en herbe. Cela s’est montré vers le début de l’année: pour beaucoup, surtout, une startup peu connue de Chine a présenté un chatbot qui était aussi bon que le chat GPT, mais n’a disparu que dans le développement. Du jour au lendemain, Deepseek a emménagé dans des millions de smartphones dans le monde et a fortement ébranlé la Silicon Valley: des groupes technologiques tels que Nvidia et Microsoft ont perdu des milliards sur les bourses.
Le nouveau concurrent chinois semblait être sorti de nulle part. Mais ceux qui avaient suivi le classeur Chatbot-Arena n’ont pas été surpris par le succès de Deepseek: les modèles d’IA de la startup chinoise étaient déjà apparus dans le classement pendant des semaines. Les concurrents américains du Chatbot-Arena avaient des prototypes du modèle d’IA de Deepseek Vaincu encore et encore, bien avant que le modèle R1 ne fasse les gros titres dans les médias occidentaux.
Allégation de préférence
Entre-temps, le classement s’est transformé en norme industrielle de facto pour la qualité des modèles d’IA. À la mi-avril, Angelopoulos et son collègue étudiant Wei-Lin Chiang et son professeur Ion Stoica ont transformé le projet de recherche une entreprise. Le chatbot-arena s’appelle maintenant LM-Arena. Les trois fondateurs ont enregistré 100 millions de dollars auprès d’investisseurs, dont certains des capitaux de capital-risque les plus renommés de la Silicon Valley tels qu’Andreessen Horowitz et Kleiner Perkins.
La startup sera classée avec 600 millions de dollars, rapporte Bloomberg. “On dirait que nous sommes assis sur une fusée et que nous essayons juste de tenir”, explique Angelopoulos en riant.
Mais avec toute la popularité, l’arène récolte également la critique: dans une publication en mai Étudier la plainte de Des chercheurs de l’Université de Princeton et du Massachusett Institute of Technology que les modèles de source ouverte LM-Arena sont désavantagés. Plus précisément, ils accusent Angelopoulos et ses co-fondateurs que les développeurs de modèles d’IA propriétaires pourraient tester plusieurs versions dans l’arène, mais seule la version qui coupe le mieux apparaît dans le classement public. Les développeurs de modèles open source n’ont pas cette option.
Interrogé à ce sujet, Angelopoulos joue la critique. “Nous obtenons des commentaires tous les jours parce que nous avons de nombreux utilisateurs très passionnés.” Vous êtes en contact avec les auteurs de l’étude. Angelopoulos insiste: le classement répertorie le vote de millions d’utilisateurs réels. “Il n’y a aucun moyen de tricher”, dit-il. “Nous sommes neutres, c’est notre valeur la plus importante.”
Le modèle d’entreprise: ouvrir les clients des entreprises
Même maintenant que le projet de recherche est devenu une entreprise axée sur le profit, l’arène devrait rester gratuite pour les utilisateurs. Vous souhaitez également étendre la partie de la base d’utilisateurs qui ne provient pas de l’industrie technologique afin d’obtenir un plus large éventail de demandes de demandes aux chatbots.
Les fondateurs veulent gagner de l’argent avec les données qu’ils gagnent en arrière-plan. Vous souhaitez vendre ces résultats aux clients d’entreprise. Parce que les entreprises ont de nombreuses questions dans le nouvel âge de l’IA, dit Angelopoulos: Quand l’IA offre-t-elle des réponses vraiment fiables, quel modèle est le meilleur pour l’industrie respective, comment changez-vous de différents chatbots? “Nous avons beaucoup de données de comparaison”, explique Angelopoulos. “Cela nous aide à comprendre les forces et les faiblesses des modèles individuels et aussi le type d’invite quel modèle est le meilleur.”
Rien ne devrait changer dans le classement lui-même, le classement des meilleurs modèles devrait rester exactement le même. Après tout, ce classement est bon pour attirer l’ambition des patrons technologiques et garder l’arène sur les lèvres de tout le monde.