Il y a un an, juste avant le lancement de ChatGPT par OpenAI, Meta a présenté son propre modèle de langage de grande taille : Galactica. Ce modèle a suscité de vives controverses et a été retiré seulement quelques jours après son lancement. Aujourd'hui, l'un des auteurs originaux partage des réflexions sur le parcours tumultueux de ce projet.
Ross Taylor, co-fondateur de la plateforme Papers with Code, qui archive les recherches en apprentissage automatique, a joué un rôle clé dans le développement de Galactica, un modèle formé sur la littérature scientifique. Malheureusement, la démonstration du modèle a rencontré de graves problèmes, générant des citations pour des articles inexistants.
Dans un post franc sur X (anciennement Twitter), Taylor a évoqué les défis de l'équipe, admettant : « Nous étions débordés et avons perdu notre sens de la situation au lancement en publiant [une] démo » sans vérifications de qualité suffisantes. Il a reconnu qu'en dépit des critiques anticipées, l'intensité de leur charge de travail a flouté leur concentration.
Malgré ses performances solides par rapport à des modèles comme PaLM de Google et Chinchilla de DeepMind, la démo a éclipsé les capacités de Galactica. Taylor a précisé que l'objectif de la démo était d'évaluer les questions scientifiques posées aux grands modèles de langage, mais il a noté : « Nous aurions dû mieux réfléchir », réalisant que les journalistes testaient souvent le modèle au-delà de son objectif initial.
Il a également attribué une partie des réactions négatives à la perception des utilisateurs, affirmant que beaucoup considéraient Galactica comme un produit final, alors qu'il ne s'agissait que d'une démo d'un modèle de base. « Nous avons exposé notre vision sur le site, ce qui a induit des attentes trompeuses », a-t-il déclaré. Il a exprimé que, bien que la controverse aurait pu être atténuée, les craintes concernant la génération de « fausse science » par Galactica étaient exagérées.
À l'époque, des figures éminentes comme Michael Black, de l'Institut Max Planck, ont exprimé leurs inquiétudes, suggérant que Galactica pourrait alimenter une vague de falsifications scientifiques profondes. Grady Booch, un développeur clé du Unified Modeling Language, a qualifié le modèle de « peu plus qu'un non-sens statistique à grande échelle ». En réponse, Taylor a qualifié une grande partie des critiques de « vraiment idiotes », affirmant que le projet aurait pu être lancé avec plus de succès avec une planification soignée.
En repensant au projet, Taylor a soutenu la recherche et même la décision de publier une démo, la considérant comme un acte d'ouverture de la part d'un acteur majeur du secteur. « Cette ouverture sans précédent était malavisée compte tenu des vulnérabilités qu'elle exposait », a-t-il reconnu. L'engagement de Meta envers une approche open-source a depuis conduit au développement de LLaMA et de son homologue plus avancé, Llama 2, avec des enseignements de Galactica ayant informé ces modèles ultérieurs.
En conclusion, Taylor a exprimé sa volonté de reprendre le même projet, déclarant : « Mieux vaut faire quelque chose et le regretter que de ne rien faire du tout. » Il a souligné que, bien que l'expérience reste douloureuse, les leçons tirées ont été inestimables.