17 repositorios
The process of analyzing database execution plans to optimize query performance.
Distinct from Database Query Execution: Focuses on the visualization and analysis of the plan (joins, index usage) rather than the act of executing the query.
Explore 17 awesome GitHub repositories matching data & databases · Execution Plan Analysis. Refine with filters or upvote what's useful.
Nebula is a distributed graph database designed for storing and querying massive volumes of interconnected vertices and edges across a horizontally scalable cluster. It functions as a Kubernetes-native database and a distributed graph analytics engine, utilizing a Raft-based distributed store to ensure strong consistency and high availability. The system features an OpenCypher query engine for performing complex graph traversals and pattern matching. It distinguishes itself with a decoupled compute-storage architecture and a shared-nothing distributed design, allowing query processing and dat
Provides tools to analyze query execution plans and profiling data to identify and resolve performance bottlenecks.
Apache DataFusion is an extensible, columnar SQL query engine that runs embedded within a host application without requiring a separate server process. It processes data in columnar batches using Apache Arrow for memory-efficient analytics, and can scale analytic workloads across multiple nodes for parallel execution. The engine supports both SQL and DataFrame queries through a modular, streaming architecture that allows custom operators, data sources, functions, and optimizer rules. The engine distinguishes itself through its modular extension framework, which enables building custom query e
Displays the physical plan and execution metrics of a query using EXPLAIN and EXPLAIN ANALYZE.
Soar is a suite of specialized tools designed for analyzing MySQL performance, advising on indexing, and optimizing SQL syntax. It functions as a performance analyzer, index advisor, and query optimizer to identify bottlenecks and suggest structural improvements for faster execution. The project distinguishes itself through a system for rewriting SQL statements into optimized equivalent versions using custom heuristic rules and patterns. It also features a dedicated index advisor that evaluates query patterns and database metadata to recommend the creation of new indexes. Its broader capabil
Analyzes database execution plans and explain output to detect inefficient access types and key usage.
This project is a comprehensive educational resource and curriculum focused on site reliability engineering, distributed systems, and infrastructure operations. It provides technical guides, a systems engineering course, and instructional manuals designed to teach the principles of managing large-scale computing environments. The curriculum covers high-level architectural design for scalability and resilience, including fault-tolerant infrastructure, high-availability patterns, and microservices decomposition. It emphasizes the practical application of site reliability engineering through the
Teaches how to generate and visualize execution plans to identify bottlenecks in table joins and index usage.
Azure Data Studio is a cross-platform SQL database management IDE used for writing queries, managing schemas, and administering relational databases. It functions as a comprehensive environment for relational database management, providing a structured interface for executing SQL queries and browsing database objects. The platform is distinguished by its interactive data notebooks, which combine executable code cells, narrative text, and visualizations for data analysis. It also includes specialized tools for database migration, allowing users to assess and transfer schemas and data from on-p
Visualizes estimated and actual execution plans graphically to identify expensive operators and optimize performance.
Pinot is a distributed, columnar analytical database designed for high-concurrency, low-latency query processing. It functions as a real-time OLAP datastore, enabling interactive, user-facing analytics by ingesting and querying massive datasets from both streaming and batch sources. The system architecture relies on a centralized controller for cluster coordination and a distributed segment-based storage model to ensure horizontal scalability. The platform distinguishes itself through a hybrid ingestion pipeline that unifies real-time event streams and historical batch data into a single quer
Generates detailed breakdowns of execution steps to help optimize complex joins and distributed data reshaping.
SparkInternals es una referencia técnica y guía de arquitectura que detalla el diseño interno y la implementación del motor de computación distribuida Apache Spark. Sirve como un estudio de análisis de motores de big data, centrándose en cómo el sistema gestiona la ejecución en clúster y la interacción entre nodos driver, ejecutores y workers. El proyecto proporciona un desglose detallado de cómo los planes lógicos se convierten en etapas de ejecución física. Analiza específicamente la mecánica de las operaciones de shuffle de datos, la gestión de memoria y la coordinación de la programación de trabajos distribuidos. La documentación cubre una amplia gama de capacidades de computación distribuida, incluyendo la planificación de ejecución de consultas, la gestión de dependencias de datos y estrategias de caché en memoria. También examina la distribución de tareas, la ejecución paralela y los procesos utilizados para la recuperación ante fallos y la persistencia de datos.
Analyzes how execution flows are decomposed into jobs and stages to visualize concrete compute operations.
Octosql es un motor de consultas SQL federado, transformador de datos y procesador de SQL en streaming. Permite a los usuarios ejecutar sentencias SQL únicas a través de múltiples fuentes de datos dispares, incluyendo diferentes tipos de bases de datos y formatos de archivo, para combinar y transformar resultados en un conjunto unificado. El sistema se distingue por tratar archivos CSV, JSONLines y Parquet como tablas virtuales y utilizar una arquitectura basada en plugins para extender la conectividad a motores de almacenamiento externos. Funciona como un procesador de streaming para flujos de datos infinitos, utilizando marcas de agua (watermarks), retracciones y ventanas deslizantes (tumbling windows) para mantener la consistencia en eventos fuera de orden. Además, sirve como generador de datos SQL capaz de producir conjuntos de datos sintéticos y flujos de registros mediante funciones con valores de tabla. El motor incluye capacidades para realizar joins entre fuentes de datos y análisis multi-fuente, optimizado mediante el push-down de predicados en el lado de la fuente para reducir la transferencia de datos. Gestiona datos complejos a través de un sistema de tipos estáticos con tipos unión y proporciona observabilidad mediante la visualización de planes de ejecución de consultas.
Generates visual representations of execution plans to verify predicate push-down and optimization logic.
Pigsty es una plataforma integral de orquestación de infraestructura de bases de datos diseñada para automatizar el ciclo de vida completo de clústeres de PostgreSQL de alta disponibilidad. Funciona como un framework de infraestructura como código que gestiona la coordinación de clústeres, el aprovisionamiento de nodos y el descubrimiento de servicios a través de playbooks idempotentes. Al integrar mecanismos de consenso distribuido, la plataforma garantiza la conmutación por error automatizada y la aplicación de estado consistente en diversos entornos, incluyendo infraestructura bare metal y virtualizada. La plataforma se distingue por un sólido conjunto de capacidades operativas que se extienden más allá de la gestión estándar de bases de datos. Cuenta con una tubería de observabilidad integrada que agrega métricas, registros y trazas en paneles centralizados para la monitorización del rendimiento en tiempo real y el análisis de diagnóstico. Además, proporciona un framework de migración que emula protocolos de cable propietarios y sintaxis SQL, permitiendo la integración de cargas de trabajo de bases de datos empresariales heredadas en entornos relacionales modernos. El sistema cubre una amplia superficie funcional, incluyendo gestión avanzada de almacenamiento con clonación de copia en escritura para un despliegue rápido, y orquestación de múltiples bases de datos que coordina motores relacionales con almacenamiento en caché y almacenamiento de objetos. También incorpora endurecimiento de seguridad, copia de seguridad y recuperación automatizadas, y enrutamiento de tráfico a través de proxies en capas para desacoplar las conexiones de los clientes de la topología del clúster subyacente. El proyecto se distribuye como un modelo de espejo de paquetes autónomo, lo que permite un despliegue y una gestión de dependencias consistentes en entornos seguros o aislados.
Displays database execution plans as visual diagrams to help developers identify and resolve performance bottlenecks.
Eko es un framework para diseñar y desplegar flujos de trabajo de agentes, que cuenta con un orquestador de flujos de trabajo de agentes LLM y un motor de automatización de navegador. Proporciona un gestor de procesos del lado del servidor para ejecutar operaciones a nivel de sistema y gestionar archivos locales, junto con un controlador de agentes con intervención humana para supervisión y dirección manual durante procesos de decisión automatizados. El sistema coordina la colaboración multi-agente a través de particionamiento basado en roles y orquestación de flujos de trabajo, dividiendo tareas complejas en roles distintos y gestionando las transferencias de ejecución. Integra el Model Context Protocol para estandarizar las conexiones entre agentes y herramientas o fuentes de datos externas. La plataforma incluye capacidades para la automatización de navegadores headless, web scraping y automatización de tareas repetitivas utilizando escucha de eventos basada en bucles. También cuenta con streaming de planes de ejecución para visualizar el proceso de planificación interna de un agente en tiempo real.
Features execution plan streaming to visualize an agent's internal planning process in real-time.
Pigsty is a full-stack orchestration suite for deploying, monitoring, and managing high-availability PostgreSQL clusters and their supporting infrastructure. It functions as a cluster management platform and high-availability suite that automates failover, manages virtual IPs, and ensures data consistency through distributed consensus. The project distinguishes itself by providing a comprehensive database infrastructure-as-code framework and a dedicated observability stack. It incorporates a backup and recovery manager supporting point-in-time recovery via S3-compatible object storage, alongs
Renders PostgreSQL EXPLAIN output into a visual format to identify query performance bottlenecks.
H2 es un sistema de gestión de bases de datos relacionales compatible con JDBC, escrito en Java. Funciona como una base de datos SQL embebible que puede ejecutarse directamente dentro de un proceso de aplicación para eliminar la latencia de red, o como una base de datos en memoria para almacenamiento volátil de alto rendimiento. También incluye una consola basada en web para ejecutar comandos SQL y administrar esquemas. El sistema se caracteriza por sus modos de despliegue flexibles, incluyendo un modo servidor independiente para acceso remoto TCP/IP y un modo mixto para conectividad local y remota simultánea. Cuenta con una capa de emulación de dialectos y modos de compatibilidad que permiten imitar el comportamiento y la sintaxis de otros sistemas de bases de datos. El motor proporciona un amplio conjunto de capacidades que cubren transacciones ACID con control de concurrencia multiversión, soporte para datos geoespaciales y JSON, y funciones avanzadas de ventana analítica. Incluye herramientas para la preservación de datos mediante copias de seguridad comprimidas, restauración de scripts SQL y gestión de memoria fuera del heap (off-heap) para manejar grandes datasets. La base de datos se integra con aplicaciones utilizando controladores estándar de Java Database Connectivity y URLs de conexión.
Inspects internal execution plans and scan counts to optimize index usage and query performance.
The MongoDB Python Driver is a client library and NoSQL database client used to execute CRUD operations and manage data within MongoDB databases using the Python programming language. It serves as a database connectivity library that handles authentication and connection pooling, while also providing a vector search client for managing embedding indexes and retrieving data based on semantic similarity. The driver supports both synchronous and asynchronous database driver models to perform non-blocking I/O operations and stream data from database clusters. It distinguishes itself through speci
Provides access to execution plans and performance statistics to optimize database query performance.
Kvrocks is a distributed key-value store and Redis-compatible NoSQL database. It utilizes a RocksDB storage engine to provide disk-based persistence, allowing for high-capacity data storage with reduced memory costs compared to in-memory systems. The system functions as a vector database and full-text search engine, supporting nearest-neighbor searches on vector embeddings and complex document queries via text matching. It employs a proxyless cluster architecture with slot-based routing to distribute data and scale capacity across multiple nodes. The platform covers a wide range of data mana
Generates and analyzes query execution plans to optimize data retrieval and filtering.
Memgraph is an in-memory, distributed graph database designed for high-performance labeled property graph management. It utilizes a Cypher query engine for declarative data retrieval and manipulation, providing a scalable knowledge graph backend that integrates vector search and graph traversals. The system distinguishes itself as a real-time graph analytics platform, employing native C++ and CUDA implementations to execute complex network analysis and dynamic community detection on streaming data. It provides specialized support for AI integration, including GraphRAG capabilities, the constr
Generates detailed query execution plans to identify and resolve performance bottlenecks.
pgdog is a PostgreSQL sharding proxy, distributed SQL router, and connection pooler. It is designed to enable horizontal data distribution by splitting tables and indices across multiple independent servers to scale storage and processing capacity. The project distinguishes itself through online resharding capabilities, using logical replication to move data between shards without application downtime. It supports multiple routing strategies, including hash, list, and range-based query routing, and manages distributed atomic transactions using a two-phase commit process to ensure consistency
Retrieves and analyzes execution plans for slow queries to assist in performance tuning.
mcp-context-forge is a Model Context Protocol federation gateway that unifies diverse AI tool servers and APIs into a single consistent interface for discovery and execution. It acts as a centralized proxy that aggregates multiple servers and APIs, allowing AI agents to access and invoke a unified set of tools, prompts, and resources. The project distinguishes itself through a multi-protocol translation bridge that converts communication between standard I/O, SSE, gRPC, and REST to enable interoperability between disparate tool servers. It includes a comprehensive LLM evaluation framework for
Inspects database execution plans and table scan statistics to identify and optimize slow queries.