28 repositorios
Tools for graphically analyzing and exploring massive datasets through interactive visualizations.
Distinct from Visual Data Explorers: Focuses specifically on the visual exploration aspect of big data processing, rather than just the computational processing engine.
Explore 28 awesome GitHub repositories matching data & databases · Visual Data Explorers. Refine with filters or upvote what's useful.
Nebula is a distributed graph database designed for storing and querying massive volumes of interconnected vertices and edges across a horizontally scalable cluster. It functions as a Kubernetes-native database and a distributed graph analytics engine, utilizing a Raft-based distributed store to ensure strong consistency and high availability. The system features an OpenCypher query engine for performing complex graph traversals and pattern matching. It distinguishes itself with a decoupled compute-storage architecture and a shared-nothing distributed design, allowing query processing and dat
Ships a web-based explorer for composing schemas, importing data, and visually exploring graph relationships.
FiftyOne es una herramienta visual para curar, analizar y gestionar datasets de imágenes y vídeos para el entrenamiento de modelos de machine learning. Sirve como plataforma para identificar errores de anotación, refinar etiquetas de verdad fundamental (ground truth) y evaluar el rendimiento de modelos de visión comparando predicciones contra la verdad fundamental para identificar modos de fallo. El sistema funciona como una plataforma de datos en contenedores que admite la colaboración en equipo en datasets visuales a gran escala en un entorno de nube. Incluye capacidades especializadas para explorar embeddings de alta dimensión para descubrir clusters de datos y recuperar muestras visuales correspondientes. La plataforma cubre una amplia gama de capacidades, incluyendo anotación de datos 2D y 3D, validación de calidad de datasets y exploración visual de datos. Se integra con frameworks de deep learning para mover datos desde la curación hasta el entrenamiento del modelo y utiliza un almacén de metadatos basado en documentos para gestionar las estructuras de los datasets.
Provides an interactive visual interface for browsing and analyzing large-scale image and video datasets.
Vaex is a high-performance Apache Arrow DataFrame library and out-of-core data processing engine designed to handle billion-row tabular datasets in Python. It functions as a lazy evaluation framework that defers computations and transformations until results are required, enabling the processing of datasets that exceed available system RAM by mapping files directly from disk. The project distinguishes itself as a tool for big data visualization and exploration, specifically integrated for use within interactive notebooks. It provides specialized capabilities for machine learning feature engin
Provides a system for analyzing and visualizing billions of rows of tabular data within interactive notebooks.
A/B Street is an open-source traffic simulation and urban planning tool that models how cars, bikes, and pedestrians move through real-world street networks. It imports data from OpenStreetMap to build detailed, lane-level road models, then runs discrete-event simulations to analyze travel times, delays, and congestion patterns across different infrastructure scenarios. The project provides an interactive map editor for modifying road geometry, lane configurations, traffic signals, and access restrictions, with full undo/redo support. Users can design low-traffic neighborhoods by placing moda
Displays per-agent routes, scatter plots of intersection delays, and sortable trip tables for aggregate analysis of simulation results.
vis is a JavaScript data visualization library used to render interactive networks, timelines, and graphs directly in the web browser. It functions as a relational data mapper and browser-based charting tool, turning complex structured data into dynamic visual patterns to expose entity relationships. The library provides specialized tools for force-directed network graphs, where relational data is represented as interactive nodes and edges. It also includes an interactive timeline component for plotting chronological events and time intervals on a scalable temporal axis. The project covers b
Enables graphical analysis and exploration of complex relational datasets through interactive network visualizations.
Facets is a set of interactive software tools for the statistical analysis, distribution visualization, and multidimensional exploration of machine learning datasets. It provides a visual interface for identifying outliers and missing values in numeric and string data, specifically designed for auditing dataset quality and identifying skews between training and validation sets. The system uses multidimensional facet-based visualization and interactive bucketing to map individual data points across multiple feature axes. It employs synchronized view filtering and animated dimension transitions
Enables mapping of individual data points across multiple dimensions using interactive bucketing for error detection.
GrowthBook is a feature flagging and experimentation platform that utilizes a warehouse-native approach to data analysis. It serves as a system for managing feature rollouts and conducting A/B tests by executing SQL queries directly against existing data warehouses to calculate experiment results. The platform is distinguished by its integration of a Model Context Protocol server, which allows AI coding assistants and IDEs to manage flags and query analytics using natural language. It also provides specialized capabilities for AI model optimization, enabling the testing of prompts and models
Transforms warehouse data into interactive charts and pivot tables for visual exploration of user behavior.
SandDance is a hardware-accelerated visualization library and web-based data explorer designed for the interactive analysis of large, non-aggregated datasets. It functions as an interactive data visualization tool that renders complex datasets and intricate visuals within a browser. The project provides an embeddable data canvas consisting of web components and tags, allowing for the integration of full visualization interfaces and interactive charts into external web applications. It utilizes WebGL hardware acceleration to efficiently render large volumes of data as interactive graphics. Th
Provides a web-based tool for graphically analyzing and exploring massive datasets through interactive visualizations.
Data-Juicer is an open-source framework for cleaning, filtering, deduplicating, and transforming multimodal datasets to prepare them for training large language and vision models. It functions as a distributed data pipeline engine that runs processing jobs across Ray clusters, handling billions of samples with automatic operator fusion and adaptive parallelism. The framework provides a library of operators that leverage large language models for semantic extraction, filtering, and data synthesis within processing pipelines. The project distinguishes itself through a YAML-based data recipe sys
Generates charts and plots to explore dataset properties, such as sample distributions and quality metrics.
Gephi is an open-source desktop application for visualizing and analyzing large-scale network graphs. It provides an interactive platform for exploring complex relational data, combining hardware-accelerated rendering with real-time layout controls and a plugin-based modular architecture. The platform distinguishes itself through its ability to handle networks of up to 100,000 nodes and 1,000,000 edges using a custom OpenGL rendering engine, enabling smooth real-time interaction. It includes a force-directed layout engine with real-time adjustment, a dynamic filter pipeline for selecting node
Ships an interactive visualization platform for exploring and analyzing large relational datasets.
Fast n-dimensional filtering and grouping of records.
Explores large multivariate datasets with coordinated filtering across dimensions and real-time visualization updates.
Aim is an open-source platform for logging, visualizing, and comparing machine learning training runs and LLM traces. It provides a remote tracking server and a comparison UI, functioning as an ML experiment tracker, AI workflow logger, and LLM trace recorder that captures prompts, generations, and tool calls from AI applications. The platform distinguishes itself through a run-based data model with local SQLite storage, real-time metric streaming, and a plugin-based explorer system that supports specialized visual analysis of metrics, images, audio, and text. It offers a Python SDK with cont
Uses specialized explorers to compare thousands of sessions of metrics, images, text, and audio.
Este proyecto es un currículo educativo de machine learning y plataforma de aprendizaje entregada a través de Jupyter Notebooks interactivos. Sirve como una guía completa para dominar el toolkit de ciencia de datos de Python, proporcionando tutoriales estructurados para computación numérica, manipulación de datos tabulares y visualización estadística. El currículo incluye guías de implementación específicas para Scikit-Learn y un curso práctico sobre TensorFlow para construir, entrenar y desplegar redes neuronales y modelos de visión artificial. Cubre el proceso de extremo a extremo de construcción de modelos predictivos, desde la formulación inicial del problema y categorización de tareas hasta el despliegue de modelos mediante interfaces web interactivas. El proyecto cubre una amplia superficie de capacidades incluyendo computación numérica con arrays multidimensionales, análisis exploratorio de datos y rutinas de preprocesamiento de datos. Proporciona flujos de trabajo detallados para aprendizaje supervisado y no supervisado, pipelines de machine learning automatizado, optimización de hiperparámetros y evaluación de modelos utilizando métricas de clasificación y validación cruzada. El contenido educativo está organizado como una serie de notebooks que intercalan código Python con explicaciones narrativas para documentar flujos de trabajo de ciencia de datos.
Provides techniques for examining dataset composition and class balance to inform preprocessing decisions.
Orange3 is a visual data mining platform that provides an interactive canvas for building data analysis workflows without writing code. At its core, it offers a widget-based visual programming environment where users connect configurable components to perform data preprocessing, machine learning model training, statistical evaluation, and interactive visualization. The platform is built on NumPy-backed data tables with domain descriptors that define variable names, types, and roles, and includes a lazy SQL query proxy for working with database tables without loading all data into memory. The
Builds and runs interactive data analysis workflows on a visual canvas without writing code.
Live-Charts is a .NET data visualization library providing a collection of interactive charts, maps, and gauges. It functions as a real-time charting engine and multi-format graphics library designed to render complex data sets within .NET applications. The library features tools for creating interactive data dashboards capable of exploring large datasets. This is supported by a system for zooming, panning, and utilizing multiple coordinate axes to navigate hundreds of thousands of data points. The visualization engine supports a variety of formats including bars, lines, heat maps, and geogr
Offers interactive visual tools for graphically analyzing and exploring massive datasets through zooming and panning.
dlt es una herramienta de ingesta de datos en Python y framework de pipeline ETL diseñado para obtener datos de diversas fuentes y persistirlos en destinos estructurados. Funciona como un motor de inferencia de esquemas que detecta automáticamente tipos de datos y aplana estructuras JSON anidadas en tablas relacionales, moviendo datos desde fuentes a lakehouses, almacenes de datos o bases de datos vectoriales. El proyecto destaca por la generación de pipelines impulsada por IA, utilizando modelos de lenguaje de gran tamaño para crear código de extracción y conectores para APIs REST. También admite almacenamiento vectorial multimodal y población especializada de bases de datos vectoriales para soportar aplicaciones de IA y machine learning. El framework cubre una amplia gama de capacidades, incluyendo evolución automática de esquemas, carga incremental de datos mediante seguimiento de estado y validación de calidad de datos mediante la aplicación de contratos de datos. Proporciona herramientas para la normalización de datos relacionales, transformaciones pre y post-carga, y una variedad de adaptadores de destino para bases de datos SQL y almacenes de objetos en la nube. La observabilidad se maneja a través de paneles de ejecución de pipelines, seguimiento de linaje de columnas y verificación de versiones de esquema mediante hashes basados en contenido.
Connects datasets to dashboards to automatically generate charts based on the inferred schema.
Este proyecto es un recurso educativo integral y manual técnico centrado en el machine learning interpretable y la IA explicable. Sirve como libro de texto y referencia para implementar técnicas que hacen que los modelos de machine learning complejos sean transparentes y comprensibles para los humanos. El recurso proporciona orientación tanto sobre la construcción de modelos inherentemente transparentes, como árboles de decisión y modelos lineales dispersos, como sobre la aplicación de métodos de explicación post-hoc a sistemas de caja negra. Detalla metodologías específicas para cuantificar la importancia de las características, generar fundamentos para predicciones individuales y utilizar modelos sustitutos para aproximar procesos complejos de toma de decisiones. El contenido cubre una amplia gama de capacidades analíticas, incluyendo el análisis de influencia de características globales y locales, la interpretabilidad de visión artificial y el uso de contribuciones de teoría de juegos como los valores de Shapley. También aborda la evaluación de modelos mediante evaluaciones de interpretabilidad, flujos de trabajo de depuración para identificar atajos de modelos y el diseño de estructuras de algoritmos transparentes. El proyecto se implementa como una colección de Jupyter Notebooks.
Measures the difference between a subset of prototypes and the overall data distribution.
dtale es una cuadrícula interactiva basada en web y visualizador para dataframes de pandas, diseñado como una herramienta de análisis de datos exploratorio. Proporciona una interfaz basada en navegador para analizar estructuras de datos tabulares, permitiendo a los usuarios calcular estadísticas, detectar valores atípicos y calcular correlaciones sin escribir código manual. El proyecto funciona como un visor de datos integrado que puede integrarse en aplicaciones web a través de iframes o rutas personalizadas, con soporte específico para Django, Flask y Streamlit. Permite la exploración de conjuntos de datos a través de una combinación de una cuadrícula de datos interactiva y una biblioteca de visualización de datos capaz de generar histogramas, diagramas de caja y gráficos de dispersión 3D. La plataforma cubre una amplia gama de capacidades de gestión y análisis de datos, incluyendo limpieza de datos tabulares, remodelación y filtrado interactivo. Incluye herramientas de observabilidad para el análisis de datos faltantes, cálculo de correlación y puntuación de poder predictivo. Para la gestión de sesiones, admite el seguimiento de múltiples instancias y la persistencia del estado en procesos de trabajo concurrentes. La interfaz está protegida por autenticación de nombre de usuario y contraseña y admite la ingesta de datos desde archivos delimitados, hojas de cálculo y almacenes de datos ArcticDB.
Provides a visual interface for the interactive exploration and analysis of tabular dataframes.
Epoch es un motor de gráficos con estilo CSS y una biblioteca de visualización diseñada para datos en tiempo real y estadísticos. Funciona como una herramienta de gráficos de series temporales que renderiza datos históricos y en vivo utilizando un híbrido de gráficos SVG y HTML5 Canvas para mantener el rendimiento durante actualizaciones frecuentes. La biblioteca se distingue por un sistema de consulta CSS unificado que aplica estilos tanto a elementos de trazado vectoriales como rasterizados. Esto permite la resolución de temas visuales a través de clases CSS y la capacidad de personalizar la apariencia de series de datos específicas utilizando hojas de estilo. El conjunto de herramientas cubre una amplia gama de tipos de visualización, incluyendo gráficos de líneas, áreas, barras y mapas de calor para el análisis de tendencias, así como medidores, gráficos circulares y barras agrupadas para paneles. También proporciona capacidades para la exploración estadística a través de diagramas de dispersión e histogramas que utilizan agrupación de cubetas discretas y mezcla de colores para mostrar la concentración de datos.
Offers scatter plots and histograms with discrete bucket grouping to explore statistical correlations and data concentrations.
Embedding Atlas es una interfaz basada en web para renderizar embeddings vectoriales de alta dimensión y analizar conjuntos de datos complejos mediante agrupamiento visual interactivo. Funciona como un analizador de datos de alta dimensión utilizado para descubrir tendencias y patrones de densidad, actuando como un explorador de similitud vectorial para localizar puntos de datos vecinos más cercanos dentro de conjuntos de datos de embedding a gran escala. El proyecto proporciona un panel de datos multimodal sincronizado que vincula datos tabulares con imágenes, audio y texto. Utiliza renderizado acelerado por hardware para mostrar millones de puntos de embedding y emplea mapeo de proyección de alta dimensión para revelar estructuras y clústeres de datos globales. El kit de herramientas cubre una amplia gama de capacidades analíticas, incluyendo búsqueda de similitud en tiempo real, indexación espacial de vecinos más cercanos y sincronización de estado de filtrado cruzado en paneles vinculados. También incluye interfaces para la exploración automatizada de datos, permitiendo a los controladores ejecutar consultas y actualizar gráficos visuales mediante programación.
Enables AI agents to execute SQL commands and update visual charts for programmatic analysis of embedded data.