2 repositorios
Tools that validate the correctness and reliability of a model's function calling and API triggering capabilities.
Distinct from Function Calling Interfaces: Focuses on the evaluation/verification of the calls, whereas the parent focuses on the interface that enables the calls.
Explore 2 awesome GitHub repositories matching artificial intelligence & ml · Function Call Verifiers. Refine with filters or upvote what's useful.
Giskard es un framework de evaluación, librería de pruebas y sistema de monitoreo de calidad para modelos de lenguaje grandes (LLM) y agentes de IA. Sirve como un kit de herramientas para cuantificar el rendimiento y la fiabilidad del modelo, proporcionando capacidades especializadas para validar pipelines de generación aumentada por recuperación (RAG). El proyecto se distingue por una herramienta de red teaming automatizada y un escáner de seguridad diseñado para identificar vulnerabilidades, inyecciones de prompts y riesgos de seguridad. Utiliza sondeo adversarial y generación sintética de casos límite para cuantificar la robustez del modelo y detectar la divulgación de información. La plataforma cubre una amplia gama de capacidades, incluyendo la detección de precisión factual y alucinaciones, benchmarking de razonamiento y lógica, y detección de sesgos. Proporciona herramientas para pruebas de regresión, evaluación de componentes RAG y la generación automatizada de casos de prueba a partir de bases de conocimiento. El sistema incluye funciones de gestión para espacios de trabajo colaborativos, control de acceso basado en roles y pipelines de evaluación programados para monitorear la deriva del rendimiento a lo largo del tiempo.
Validates the ability to trigger correct functions and APIs across multiple languages, including parallel execution.
ACI es una plataforma de invocación de herramientas y un sistema centralizado para gestionar y ejecutar operaciones de servicios externos y scripts personalizados para flujos de trabajo de agentes. Funciona como un servidor unificado de Model Context Protocol que permite a los agentes de IA y a los IDE descubrir y ejecutar diversos conjuntos de herramientas de forma dinámica. La plataforma se distingue por un índice de capacidades en lenguaje natural y coincidencia de intenciones para buscar herramientas disponibles según los requisitos de la tarea. Proporciona un autenticador de servicios externos y vinculación de cuentas mediante gestión de credenciales basada en OAuth para permitir la ejecución segura de herramientas en nombre de los usuarios. El sistema cubre una amplia gama de capacidades, incluyendo el mapeo de llamadas a funciones, la orquestación de servicios externos y un runtime conectable para integrar scripts locales como extensiones de herramientas ejecutables. También incluye gestión de configuración de aplicaciones para controlar cómo los agentes se comunican con integraciones externas específicas.
Translates natural language intent and agent requests into specific executable function calls for external services.