Liens rapides
L’émergence de chatbots basés sur l’IA générative a popularisé le terme « grand modèle linguistique », la technologie d’IA sous-jacente qui fonctionne en coulisses. Les grands modèles linguistiques (LLM) génèrent une sortie basée sur un ensemble de langages prédit en réponse aux entrées de l'utilisateur, donnant l'impression que l'IA est capable de penser par elle-même.
Mais les LLM ne sont pas les seuls grands modèles disponibles ; Les grands modèles d’action (LAM) pourraient être la prochaine technologie révolutionnaire en matière d’IA. Vérifier Quelques gros problèmes avec ChatGPT d'OpenAI.
Qu’est-ce qu’un grand modèle d’entreprise (LAM) ?
Un grand modèle d'action (LAM) est un modèle d'intelligence artificielle capable de comprendre les apports humains et d'effectuer l'action correspondante, ce qui lui permet d'interagir avec le monde à la manière d'un humain. Il s’agit d’une approche légèrement différente des modèles d’IA qui se concentrent uniquement sur la génération de réponses. Le terme « grand modèle commercial » a été introduit pour la première fois par Rabbit Inc, développeur du Rabbit R1. Dans la vidéo de lancement du Rabbit R1 de la société, il est indiqué que LAM est un nouveau modèle fondamental qui aide à faire passer l'IA des paroles à l'action.
Les LAM sont formés sur de grands ensembles de données sur les actions des utilisateurs ; Ainsi, ils apprennent en imitant les actions humaines ou par démonstration. Grâce à la démo, le modèle LAM peut comprendre et naviguer dans les interfaces utilisateur de différents sites Web ou applications mobiles et effectuer des actions spécifiques en fonction de vos instructions. Selon Lapin,LAM peut y parvenir même si l'interface est légèrement modifiée.
Vous pouvez considérer les LAM comme une extension des capacités existantes des LLM. Alors que la sortie texte ou multimédia générative dans LLM repose sur la saisie de l'utilisateur en prédisant le mot ou le jeton suivant (vous posez une question et le modèle LLM fournit une sortie texte ou multimédia), les LAM vont plus loin en ajoutant la possibilité d'implémenter... Des démarches complexes pour votre compte. Vérifier Devriez-vous utiliser un modèle LLM local ? Avantages, inconvénients et bonnes pratiques.
Que peuvent faire les LAM ?
Les LAM consistent à effectuer des actions complexes en votre nom. Cependant, le point crucial à noter est la capacité à réaliser des procédures complexes. Cela rend les LAM plus utiles pour les tâches avancées, mais cela ne signifie pas qu'ils ne peuvent pas exécuter des procédures plus simples.
En théorie, cela signifie que vous pourriez, par exemple, demander au modèle LAM de faire quelque chose en votre nom, comme commander un café dans votre café local ou un trajet Uber, et même faire une réservation d'hôtel. C'est donc différent d'effectuer des tâches simples comme demander à Google Assistant, Siri ou Alexa d'allumer la télévision ou les lumières du salon.
Sous le capot, selon la vision partagée par Rabbit Inc., le modèle LAM est capable d'accéder à un site Web ou à une application pertinente comme Uber et de naviguer dans son interface pour entreprendre une action, comme demander un trajet ou en annuler un si vous modifiez votre esprit. Vérifier Pourquoi la sortie de produits technologiques incomplets est-elle plus courante que jamais ?.
Les LAM surpasseront les LLM, mais ils ne sont pas (encore) prêts
Le concept des LAM est passionnant, peut-être plus que celui des LLM. Les grands modèles d'action (LAM) seront l'avenir après l'IA générative, nous permettant de pouvoir compenser les tâches banales et de nous concentrer sur d'autres activités enrichissantes. Cependant, aussi excitant que cela puisse paraître, les LAM ne sont pas encore prêts.
Le premier produit commercial qui promettait d'exploiter le LAM (Rabbit r1) n'a pas pleinement tenu sa promesse marketing d'effectuer des actions au nom de ses utilisateurs. L'appareil a tellement échoué dans son argument de vente principal que de nombreuses critiques de première main l'ont décrit comme assez inutile.
Pire encore, une enquête menée par YouTuber Coffeezilla, en collaboration avec un groupe sélectionné d'ingénieurs logiciels ayant accès à une partie de la base Rabbit r1, a révélé que Rabbit utilisait des scripts Playwright pour exécuter des actions au lieu de LAM. Ainsi, au lieu d’une machine exécutant un modèle d’IA unique, elle exécutait simplement un tas d’instructions If > then ; On est bien loin du modèle LAM promis.
S’il y a quelque chose que vous pouvez retenir du Rabbit r1, c’est que oui, la vision est là. Cependant, du travail doit être fait avant la mise en œuvre, alors ne vous enthousiasmez pas pour l’instant. Vous pouvez maintenant visualiser Un guide complet pour démarrer et utiliser efficacement le modèle Llama 2.