2 repositorios
Techniques for refining the descriptions and metadata used by agents to activate specific tools.
Distinct from LLM Evaluation: Focuses on the activation logic (triggers) rather than general programmatic output measurement.
Explore 2 awesome GitHub repositories matching testing & quality assurance · Tool Trigger Optimization. Refine with filters or upvote what's useful.
Agent Skills is a framework for bundling executable scripts and metadata to extend the capabilities and tool-use of language model agents. It provides a standardized directory structure for packaging specialized workflows, technical instructions, and portable agent capabilities for distribution across different AI platforms. The project features a tool optimization suite used to refine skill triggers and evaluate the reliability of agent-activated capabilities. It includes a context-aware knowledge manager that organizes technical references into a hierarchy, loading them on demand to reduce
Provides a suite for refining skill triggers to ensure agents reliably activate the correct capabilities.
Kiln es un workbench de desarrollo de LLM y framework de evaluación diseñado para diseñar, probar y optimizar prompts y agentes de IA. Funciona como un orquestador multi-agente y una herramienta de optimización RAG, proporcionando una interfaz visual para el desarrollo iterativo de sistemas de IA. El proyecto se distingue por un pipeline de fine-tuning integral que soporta entrenamiento de modelos sin código y destilación de razonamiento. Permite la creación de sistemas multi-agente jerárquicos donde actores especializados se coordinan mediante tool calling, e implementa un servidor de Model Context Protocol para exponer estos agentes y capacidades de búsqueda como herramientas estandarizadas para clientes externos. La plataforma cubre una amplia gama de capacidades, incluyendo puntuación automatizada por jueces de IA para control de calidad, generación de datos sintéticos para entrenamiento y evaluación, y recuperación híbrida vector-keyword para fundamentar las respuestas del modelo. También proporciona herramientas para la evolución de prompts, auditoría de trazas y gestión de datasets colaborativos mediante integración con Git. El workbench es accesible a través de una API REST autohospedable y una librería de Python dedicada para la ejecución programática de flujos de trabajo.
Trains models to trigger specific tools at the correct time with the required parameters.