Après plus d’un an de planification et de formation, un projet dirigé par des bénévoles a produit un modèle de langage open source qui, selon eux, est aussi puissant que le GPT-3 d’OpenAI, mais gratuit et ouvert à tous (s’ils ont la puissance de calcul) . Baptisé Bloom, le modèle est disponible en open source avec le code et les jeux de données utilisés pour le créer. La startup d’intelligence artificielle basée à Brooklyn, Hugging Face, a publié une application Web gratuite qui permet à quiconque d’essayer Bloom sans avoir à la télécharger.
Bloom est une idée originale de BigScience, un projet communautaire international dont l’objectif est de rendre les grands modèles de langage naturel largement disponibles pour la recherche. Les grands modèles de langage, ou « LLM » en abrégé, peuvent traduire, résumer et écrire un texte avec une nuance humaine – plus ou moins. (Voir GPT-3.) Mais ils ont toujours été coûteux à créer, les gardant hors de portée des chercheurs et fermement entre les mains des entreprises Big Tech comme Meta, Google et Microsoft.
Cela change enfin, en partie grâce aux efforts de BigScience. Les plus de 1 000 chercheurs bénévoles du groupe – soutenus par des éthiciens, des philosophes, des juristes et des ingénieurs de startups et de grandes entreprises technologiques – ont passé des mois à travailler pour Bloom, qui rivalise à grande échelle avec les LLM d’entreprises comme OpenAI et Alphabet’s DeepMind. L’un des plus grands modèles open source fonctionnant dans plusieurs langues, Bloom est conçu pour être appliqué dans une gamme d’applications de recherche, telles que l’extraction d’informations à partir de textes historiques.
« Bloom est capable de générer du texte dans 46 langues naturelles et dialectes et 13 langages de programmation », lit un article de blog partagé avec La Blogueuse avant la sortie. « Bien qu’il n’ait jamais été formé à l’une de ces tâches spécifiques, on peut demander à Bloom de produire des résumés ou des traductions de texte, de générer du code à partir d’instructions et de suivre des invites pour effectuer des tâches originales telles que rédiger des recettes, extraire des informations d’un article de presse ou composer phrases utilisant un mot inventé nouvellement défini… La performance de Bloom continuera de s’améliorer à mesure que l’atelier continue d’expérimenter et d’avancer sur Bloom.
Les partisans de BigScience espèrent également que Bloom stimulera de nouvelles enquêtes sur les moyens de lutter contre les problèmes qui affligent tous les LLM, notamment les biais et la toxicité. Les LLM ont tendance à débiter des mensonges et à exposer des préjugés contre les religions, les sexes, les races et les personnes handicapées. Ils luttent également avec les principes de base de l’écriture, changeant souvent le sujet d’une conversation sans suite et se répétant sans cesse – voire se contredisant – eux-mêmes.
« [Bloom] montre la puissance continue de l’open source et de la science ouverte, même pour les grands modèles fondamentaux coûteux », a déclaré Richard Socher, PDG de You.com et ancien scientifique en chef chez Salesforce, à La Blogueuse par e-mail. Socher n’est pas impliqué dans BigScience. « Cela montre également qu’en IA, aucune organisation n’a un avantage majeur pendant très longtemps. Une fois qu’une organisation montre que quelque chose est faisable, les mêmes capacités apparaîtront six à 12 mois plus tard dans d’autres endroits.
Des débuts modestes
Les origines de BigScience remontent à des discussions il y a des années entre Thomas Wolf, directeur scientifique de Hugging Face, Stéphane Requena de GENCI et Pierre-François Lavallée de l’IDRIS. Les fondateurs envisageaient de créer des logiciels, des ensembles de données, des LLM et des outils pour explorer l’impact social de l’IA, qui n’a suscité qu’une attention accrue de la part de la communauté des chercheurs ces dernières années.
Bientôt, des comités directeurs ont été formés pour donner aux membres de BigScience – qui venaient de plus de 60 pays et 250 institutions – des conseils scientifiques et généraux, concevoir des tâches collaboratives et organiser des ateliers, des hackathons et des événements publics. Différents groupes de travail ont été chargés de relever des défis tels que la gouvernance des données, la démonstration de théorèmes en mathématiques et les stratégies d’archivage, ainsi que la confidentialité et le consentement éclairé et d’autres questions juridiques.
Bloom est la somme totale de leur travail. Il a été formé en utilisant 7 millions de dollars de temps de calcul financé par des fonds publics (par le biais de subventions) sur le supercalculateur Jean Zay situé près de Paris, en France, qui se classe parmi les machines les plus puissantes au monde.
Une discussion vigoureuse est en cours dans les cercles universitaires sur l’impact carbone de la formation à l’IA ; les centres de données ne sont pas particulièrement respectueux de l’environnement. Mais BigScience affirme que Jean Zay, grâce à son système de refroidissement unique et à sa source d’énergie nucléaire, a pu entraîner Bloom avec une empreinte carbone équivalente à un vol Paris-New York.
Comme tous les modèles de langage, Bloom est essentiellement un outil statistique pour prédire les mots. Alimenté d’un nombre énorme d’exemples à partir d’un ensemble de données de formation de 1,6 téraoctet, Bloom a appris la probabilité que les mots apparaissent en fonction de modèles, y compris le contexte sémantique du texte environnant. Par exemple, étant donné un e-mail typique se terminant par le fragment « Dans l’attente… », Bloom pourrait le compléter par « … pour avoir une réponse ».
L’un des objectifs des groupes de travail BigScience était de collecter des données suffisamment représentatives pour former Bloom. En raison de biais systémiques dans les sources de données publiques, les LLM non anglophones n’ont traditionnellement pas obtenu d’aussi bons résultats que leurs homologues anglophones. S’appuyant sur des livres, des publications universitaires, des transcriptions radio, des podcasts et des sites Web, l’ensemble de données de 341 milliards de mots utilisé pour former Bloom vise à encoder différents contextes culturels dans différentes langues, notamment le swahili, le catalan, le bengali et le vietnamien.
Les groupes BigScience ont sélectionné près des deux tiers de l’ensemble de données à partir de 500 sources, sollicitant des suggestions de groupes communautaires, notamment la communauté africaine de traitement du langage naturel Masakhane, LatinX in AI et Machine Learning Tokyo. Ils ont expurgé pour la confidentialité et filtré pour la qualité, par exemple en essayant de réduire une surreprésentation des sites pornographiques, qui ont tendance à contenir des associations sexistes.
Bloom n’est pas complètement exempt de biais – aucun LLM ne l’est. Mais l’espoir est qu’en maintenant la transparence autour des données de formation, il sera plus facile pour les chercheurs d’accéder à la racine des prédictions et de la prise de décision de Bloom.
De grande taille
À 176 milliards de paramètres, Bloom a à peu près la taille de GPT-3. Les paramètres de l’apprentissage automatique sont les parties du LLM apprises à partir des données de formation et ont tendance à être en corrélation avec l’efficacité du modèle sur une tâche telle que la génération de texte.
De manière générale, les modèles à paramètres plus élevés nécessitent plus de puissance de calcul pour s’entraîner. Une étude de 2020 d’AI21 Labs a évalué les dépenses de développement d’un modèle de génération de texte avec seulement 1,5 milliard de paramètres à 1,6 million de dollars; Bloom s’est entraîné sur 384 GPU Nvidia A100 pendant trois mois. Ce fait a rendu difficile pour la communauté d’utiliser de grands modèles de langage à la pointe de la technologie comme Microsoft et Nvidia Megatron-Turing Natural Language Generation (MT-NLG), qui compte 530 milliards de paramètres.
BigScience affirme que rLes echercheurs auront la possibilité d’utiliser Bloom pour moins de 40 € de l’heure sur un fournisseur de cloud. Mais unAfin de supprimer même cet obstacle à l’accès, l’organisation prévoit de publier des versions plus petites et moins gourmandes en matériel de Bloom et développe un système distribué qui permettra aux laboratoires de partager le modèle sur leurs serveurs. Une API est également en préparation.
Bloom rejoint un écosystème en plein essor de LLM open source hautement performants avec de larges utilisations commerciales et de recherche. En février, le groupe de recherche sur l’IA ouverte EleutherAI a publié GPT-NeoX-20B, qui à l’époque surpassait les autres modèles de langage public sur plusieurs points de référence. Des mois plus tard, Meta a ouvert l’OPT-175B, qui, selon la société, était le premier modèle de langage de 175 milliards de paramètres à être mis à la disposition de la communauté de l’IA.
Ils ont été utilisés à bon escient – des entreprises ont déjà vu le jour autour des modèles d’EleutherAI. Mais certains chercheurs craignent les abus. À l’Université du Maryland, des chercheurs ont découvert qu’il était possible pour les LLM de générer de fausses nouvelles et des rapports sur la cybersécurité suffisamment convaincants pour tromper les experts. Un autre article co-écrit par des chercheurs de Meta explore les dommages potentiels qui pourraient résulter de LLM qui donnent de mauvais conseils, en particulier des pronostics médicaux ou psychologiques.
De nombreuses entreprises qui offrent un accès aux LLM via une API, comme OpenAI, appliquent des filtres pour éliminer le texte problématique. Mais les modèles open source n’ont évidemment pas de telles protections.
Reconnaissant le potentiel d’utilisation abusive, Bloom est accompagné d’une documentation décrivant ses capacités et ses limites. Son utilisation nécessite l’acceptation d’une licence légale qui engage les chercheurs à ne pas utiliser le modèle à des fins malveillantes. BigScience prévoit de surveiller la façon dont le modèle est appliqué et d’ajuster la licence et la documentation si nécessaire.
« Nous sommes censés ajouter plus de langues, rendre le modèle plus petit pour qu’il soit plus facile à utiliser au même niveau de performances, et nous soutiendrons les efforts de la communauté pour l’étendre », poursuit le blog. « Bloom est une famille vivante de modèles qui va grandir, pas un modèle unique. »