LambdaTest introduit Agent-to-Agent Testing : une nouvelle plateforme pour tester la fiabilité, les performances et la cohérence des agents d’IA.
LambdaTest a lancé une version bêta privée de Agent-to-Agent Testing. Cette plateforme est spécifiquement conçue pour évaluer les agents d’IA via des tests automatisés. Selon l’entreprise, il s’agit de la première solution qui utilise plusieurs agents d’IA pour tester d’autres systèmes d’IA.
Des agents pour les agents
En substance, LambdaTest fournit différents LLM spécialisés « s qui, ensemble, doivent être capables d’évaluer automatiquement les agents (c’est-à-dire les outils basés sur d’autres LLM » s). La combinaison de différents modèles doit améliorer la fiabilité et éviter les hallucinations.
La technologie se concentre sur des défis tels que la logique conversationnelle, la reconnaissance des intentions, la cohérence du ton et les raisonnements complexes. Via un système qui, à son tour, est basé sur plusieurs agents et LLM « s, LambdaTest teste d’autres agents d’IA. Cette approche devrait permettre des scénarios de test plus approfondis et plus réalistes » s.
Le système compte quinze agents de test d’IA spécialisés qui contrôlent, entre autres, la sécurité et la conformité. Cette approche devrait aider à mettre en production les applications d’IA plus rapidement et plus sûrement. L’automatisation réduit également le besoin de contrôle qualité manuel, ce qui diminue les coûts de test.
Exigences flexibles
Les utilisateurs peuvent télécharger les exigences de test dans différents formats tels que texte, images, audio ou vidéo. La plateforme analyse automatiquement ces entrées et génère des scénarios de test basés sur des situations réelles. Chaque scénario contient des points de mesure avec les résultats attendus, qui sont évalués via HyperExecute. Il s’agit du propre cloud de test de LambdaTest.
Agent-to-Agent Testing met également en évidence des critères de qualité tels que les biais, l’exhaustivité et les hallucinations. Selon LambdaTest, la plateforme permet une exécution des tests plus rapide et une couverture de test plus large. La version bêta privée est actuellement disponible pour les organisations intéressées.