Why is vesoft-inc/nebula a recommended Visual Data Explorers GitHub Repositories repository?

Ships a web-based explorer for composing schemas, importing data, and visually exploring graph relationships.

Why is voxel51/fiftyone a recommended Visual Data Explorers GitHub Repositories repository?

Provides an interactive visual interface for browsing and analyzing large-scale image and video datasets.

Why is vaexio/vaex a recommended Visual Data Explorers GitHub Repositories repository?

Provides a system for analyzing and visualizing billions of rows of tabular data within interactive notebooks.

Why is a-b-street/abstreet a recommended Visual Data Explorers GitHub Repositories repository?

Displays per-agent routes, scatter plots of intersection delays, and sortable trip tables for aggregate analysis of simulation results.

Why is visjs/vis a recommended Visual Data Explorers GitHub Repositories repository?

Enables graphical analysis and exploration of complex relational datasets through interactive network visualizations.

Why is pair-code/facets a recommended Visual Data Explorers GitHub Repositories repository?

Enables mapping of individual data points across multiple dimensions using interactive bucketing for error detection.

Why is growthbook/growthbook a recommended Visual Data Explorers GitHub Repositories repository?

Transforms warehouse data into interactive charts and pivot tables for visual exploration of user behavior.

Why is datajuicer/data-juicer a recommended Visual Data Explorers GitHub Repositories repository?

Generates charts and plots to explore dataset properties, such as sample distributions and quality metrics.

Why is gephi/gephi a recommended Visual Data Explorers GitHub Repositories repository?

Ships an interactive visualization platform for exploring and analyzing large relational datasets.

28 repositorios

Awesome GitHub RepositoriesVisual Data Explorers

Tools for graphically analyzing and exploring massive datasets through interactive visualizations.

Distinct from Visual Data Explorers: Focuses specifically on the visual exploration aspect of big data processing, rather than just the computational processing engine.

Explore 28 awesome GitHub repositories matching data & databases · Visual Data Explorers. Refine with filters or upvote what's useful.

Encuentra los mejores repositorios con IA.Buscaremos los repositorios que mejor coincidan usando IA.

vesoft-inc/nebula
vesoft-inc/nebula
12,239Ver en GitHub
Nebula is a distributed graph database designed for storing and querying massive volumes of interconnected vertices and edges across a horizontally scalable cluster. It functions as a Kubernetes-native database and a distributed graph analytics engine, utilizing a Raft-based distributed store to ensure strong consistency and high availability. The system features an OpenCypher query engine for performing complex graph traversals and pattern matching. It distinguishes itself with a decoupled compute-storage architecture and a shared-nothing distributed design, allowing query processing and dat
Ships a web-based explorer for composing schemas, importing data, and visually exploring graph relationships.
C++big-datacppdatabase
Ver en GitHub12,239
voxel51/fiftyone
voxel51/fiftyone
10,841Ver en GitHub
FiftyOne es una herramienta visual para curar, analizar y gestionar datasets de imágenes y vídeos para el entrenamiento de modelos de machine learning. Sirve como plataforma para identificar errores de anotación, refinar etiquetas de verdad fundamental (ground truth) y evaluar el rendimiento de modelos de visión comparando predicciones contra la verdad fundamental para identificar modos de fallo. El sistema funciona como una plataforma de datos en contenedores que admite la colaboración en equipo en datasets visuales a gran escala en un entorno de nube. Incluye capacidades especializadas para explorar embeddings de alta dimensión para descubrir clusters de datos y recuperar muestras visuales correspondientes. La plataforma cubre una amplia gama de capacidades, incluyendo anotación de datos 2D y 3D, validación de calidad de datasets y exploración visual de datos. Se integra con frameworks de deep learning para mover datos desde la curación hasta el entrenamiento del modelo y utiliza un almacén de metadatos basado en documentos para gestionar las estructuras de los datasets.
Provides an interactive visual interface for browsing and analyzing large-scale image and video datasets.
Python
Ver en GitHub10,841
vaexio/vaex
vaexio/vaex
8,506Ver en GitHub
Vaex is a high-performance Apache Arrow DataFrame library and out-of-core data processing engine designed to handle billion-row tabular datasets in Python. It functions as a lazy evaluation framework that defers computations and transformations until results are required, enabling the processing of datasets that exceed available system RAM by mapping files directly from disk. The project distinguishes itself as a tool for big data visualization and exploration, specifically integrated for use within interactive notebooks. It provides specialized capabilities for machine learning feature engin
Provides a system for analyzing and visualizing billions of rows of tabular data within interactive notebooks.
Python
Ver en GitHub8,506
a-b-street/abstreet
a-b-street/abstreet
8,138Ver en GitHub
A/B Street is an open-source traffic simulation and urban planning tool that models how cars, bikes, and pedestrians move through real-world street networks. It imports data from OpenStreetMap to build detailed, lane-level road models, then runs discrete-event simulations to analyze travel times, delays, and congestion patterns across different infrastructure scenarios. The project provides an interactive map editor for modifying road geometry, lane configurations, traffic signals, and access restrictions, with full undo/redo support. Users can design low-traffic neighborhoods by placing moda
Displays per-agent routes, scatter plots of intersection delays, and sortable trip tables for aggregate analysis of simulation results.
Rustgameopenstreetmapseattle
Ver en GitHub8,138
visjs/vis
visjs/vis
7,812Ver en GitHub
vis is a JavaScript data visualization library used to render interactive networks, timelines, and graphs directly in the web browser. It functions as a relational data mapper and browser-based charting tool, turning complex structured data into dynamic visual patterns to expose entity relationships. The library provides specialized tools for force-directed network graphs, where relational data is represented as interactive nodes and edges. It also includes an interactive timeline component for plotting chronological events and time intervals on a scalable temporal axis. The project covers b
Enables graphical analysis and exploration of complex relational datasets through interactive network visualizations.
JavaScript
Ver en GitHub7,812
pair-code/facets
PAIR-code/facets
7,340Ver en GitHub
Facets is a set of interactive software tools for the statistical analysis, distribution visualization, and multidimensional exploration of machine learning datasets. It provides a visual interface for identifying outliers and missing values in numeric and string data, specifically designed for auditing dataset quality and identifying skews between training and validation sets. The system uses multidimensional facet-based visualization and interactive bucketing to map individual data points across multiple feature axes. It employs synchronized view filtering and animated dimension transitions
Enables mapping of individual data points across multiple dimensions using interactive bucketing for error detection.
Jupyter Notebook
Ver en GitHub7,340
growthbook/growthbook
growthbook/growthbook
7,351Ver en GitHub
GrowthBook is a feature flagging and experimentation platform that utilizes a warehouse-native approach to data analysis. It serves as a system for managing feature rollouts and conducting A/B tests by executing SQL queries directly against existing data warehouses to calculate experiment results. The platform is distinguished by its integration of a Model Context Protocol server, which allows AI coding assistants and IDEs to manage flags and query analytics using natural language. It also provides specialized capabilities for AI model optimization, enabling the testing of prompts and models
Transforms warehouse data into interactive charts and pivot tables for visual exploration of user behavior.
TypeScriptab-testingabtestabtesting
Ver en GitHub7,351
microsoft/sanddance
microsoft/SandDance
7,138Ver en GitHub
SandDance is a hardware-accelerated visualization library and web-based data explorer designed for the interactive analysis of large, non-aggregated datasets. It functions as an interactive data visualization tool that renders complex datasets and intricate visuals within a browser. The project provides an embeddable data canvas consisting of web components and tags, allowing for the integration of full visualization interfaces and interactive charts into external web applications. It utilizes WebGL hardware acceleration to efficiently render large volumes of data as interactive graphics. Th
Provides a web-based tool for graphically analyzing and exploring massive datasets through interactive visualizations.
TypeScriptdata-visualizationdeck-glmsr-vida
Ver en GitHub7,138
datajuicer/data-juicer
datajuicer/data-juicer
6,574Ver en GitHub
Data-Juicer is an open-source framework for cleaning, filtering, deduplicating, and transforming multimodal datasets to prepare them for training large language and vision models. It functions as a distributed data pipeline engine that runs processing jobs across Ray clusters, handling billions of samples with automatic operator fusion and adaptive parallelism. The framework provides a library of operators that leverage large language models for semantic extraction, filtering, and data synthesis within processing pipelines. The project distinguishes itself through a YAML-based data recipe sys
Generates charts and plots to explore dataset properties, such as sample distributions and quality metrics.
Pythondatadata-analysisdata-pipeline
Ver en GitHub6,574
gephi/gephi
gephi/gephi
6,536Ver en GitHub
Gephi is an open-source desktop application for visualizing and analyzing large-scale network graphs. It provides an interactive platform for exploring complex relational data, combining hardware-accelerated rendering with real-time layout controls and a plugin-based modular architecture. The platform distinguishes itself through its ability to handle networks of up to 100,000 nodes and 1,000,000 edges using a custom OpenGL rendering engine, enabling smooth real-time interaction. It includes a force-directed layout engine with real-time adjustment, a dynamic filter pipeline for selecting node
Ships an interactive visualization platform for exploring and analyzing large relational datasets.
Java
Ver en GitHub6,536
square/crossfilter
square/crossfilter
6,187Ver en GitHub
Fast n-dimensional filtering and grouping of records.
Explores large multivariate datasets with coordinated filtering across dimensions and real-time visualization updates.
JavaScript
Ver en GitHub6,187
aimhubio/aim
aimhubio/aim
6,159Ver en GitHub
Aim is an open-source platform for logging, visualizing, and comparing machine learning training runs and LLM traces. It provides a remote tracking server and a comparison UI, functioning as an ML experiment tracker, AI workflow logger, and LLM trace recorder that captures prompts, generations, and tool calls from AI applications. The platform distinguishes itself through a run-based data model with local SQLite storage, real-time metric streaming, and a plugin-based explorer system that supports specialized visual analysis of metrics, images, audio, and text. It offers a Python SDK with cont
Uses specialized explorers to compare thousands of sessions of metrics, images, text, and audio.
Python
Ver en GitHub6,159
mrdbourke/zero-to-mastery-ml
mrdbourke/zero-to-mastery-ml
5,839Ver en GitHub
Este proyecto es un currículo educativo de machine learning y plataforma de aprendizaje entregada a través de Jupyter Notebooks interactivos. Sirve como una guía completa para dominar el toolkit de ciencia de datos de Python, proporcionando tutoriales estructurados para computación numérica, manipulación de datos tabulares y visualización estadística. El currículo incluye guías de implementación específicas para Scikit-Learn y un curso práctico sobre TensorFlow para construir, entrenar y desplegar redes neuronales y modelos de visión artificial. Cubre el proceso de extremo a extremo de construcción de modelos predictivos, desde la formulación inicial del problema y categorización de tareas hasta el despliegue de modelos mediante interfaces web interactivas. El proyecto cubre una amplia superficie de capacidades incluyendo computación numérica con arrays multidimensionales, análisis exploratorio de datos y rutinas de preprocesamiento de datos. Proporciona flujos de trabajo detallados para aprendizaje supervisado y no supervisado, pipelines de machine learning automatizado, optimización de hiperparámetros y evaluación de modelos utilizando métricas de clasificación y validación cruzada. El contenido educativo está organizado como una serie de notebooks que intercalan código Python con explicaciones narrativas para documentar flujos de trabajo de ciencia de datos.
Provides techniques for examining dataset composition and class balance to inform preprocessing decisions.
Jupyter Notebookdata-sciencedeep-learningmachine-learning
Ver en GitHub5,839
biolab/orange3
biolab/orange3
5,635Ver en GitHub
Orange3 is a visual data mining platform that provides an interactive canvas for building data analysis workflows without writing code. At its core, it offers a widget-based visual programming environment where users connect configurable components to perform data preprocessing, machine learning model training, statistical evaluation, and interactive visualization. The platform is built on NumPy-backed data tables with domain descriptors that define variable names, types, and roles, and includes a lazy SQL query proxy for working with database tables without loading all data into memory. The
Builds and runs interactive data analysis workflows on a visual canvas without writing code.
Python
Ver en GitHub5,635
live-charts/live-charts
Live-Charts/Live-Charts
5,540Ver en GitHub
Live-Charts is a .NET data visualization library providing a collection of interactive charts, maps, and gauges. It functions as a real-time charting engine and multi-format graphics library designed to render complex data sets within .NET applications. The library features tools for creating interactive data dashboards capable of exploring large datasets. This is supported by a system for zooming, panning, and utilizing multiple coordinate axes to navigate hundreds of thousands of data points. The visualization engine supports a variety of formats including bars, lines, heat maps, and geogr
Offers interactive visual tools for graphically analyzing and exploring massive datasets through zooming and panning.
C#chartdata-visualizationmaps
Ver en GitHub5,540
dlt-hub/dlt
dlt-hub/dlt
5,472Ver en GitHub
dlt es una herramienta de ingesta de datos en Python y framework de pipeline ETL diseñado para obtener datos de diversas fuentes y persistirlos en destinos estructurados. Funciona como un motor de inferencia de esquemas que detecta automáticamente tipos de datos y aplana estructuras JSON anidadas en tablas relacionales, moviendo datos desde fuentes a lakehouses, almacenes de datos o bases de datos vectoriales. El proyecto destaca por la generación de pipelines impulsada por IA, utilizando modelos de lenguaje de gran tamaño para crear código de extracción y conectores para APIs REST. También admite almacenamiento vectorial multimodal y población especializada de bases de datos vectoriales para soportar aplicaciones de IA y machine learning. El framework cubre una amplia gama de capacidades, incluyendo evolución automática de esquemas, carga incremental de datos mediante seguimiento de estado y validación de calidad de datos mediante la aplicación de contratos de datos. Proporciona herramientas para la normalización de datos relacionales, transformaciones pre y post-carga, y una variedad de adaptadores de destino para bases de datos SQL y almacenes de objetos en la nube. La observabilidad se maneja a través de paneles de ejecución de pipelines, seguimiento de linaje de columnas y verificación de versiones de esquema mediante hashes basados en contenido.
Connects datasets to dashboards to automatically generate charts based on the inferred schema.
Pythondatadata-engineeringdata-lake
Ver en GitHub5,472
christophm/interpretable-ml-book
christophM/interpretable-ml-book
5,317Ver en GitHub
Este proyecto es un recurso educativo integral y manual técnico centrado en el machine learning interpretable y la IA explicable. Sirve como libro de texto y referencia para implementar técnicas que hacen que los modelos de machine learning complejos sean transparentes y comprensibles para los humanos. El recurso proporciona orientación tanto sobre la construcción de modelos inherentemente transparentes, como árboles de decisión y modelos lineales dispersos, como sobre la aplicación de métodos de explicación post-hoc a sistemas de caja negra. Detalla metodologías específicas para cuantificar la importancia de las características, generar fundamentos para predicciones individuales y utilizar modelos sustitutos para aproximar procesos complejos de toma de decisiones. El contenido cubre una amplia gama de capacidades analíticas, incluyendo el análisis de influencia de características globales y locales, la interpretabilidad de visión artificial y el uso de contribuciones de teoría de juegos como los valores de Shapley. También aborda la evaluación de modelos mediante evaluaciones de interpretabilidad, flujos de trabajo de depuración para identificar atajos de modelos y el diseño de estructuras de algoritmos transparentes. El proyecto se implementa como una colección de Jupyter Notebooks.
Measures the difference between a subset of prototypes and the overall data distribution.
Jupyter Notebook
Ver en GitHub5,317
man-group/dtale
man-group/dtale
5,170Ver en GitHub
dtale es una cuadrícula interactiva basada en web y visualizador para dataframes de pandas, diseñado como una herramienta de análisis de datos exploratorio. Proporciona una interfaz basada en navegador para analizar estructuras de datos tabulares, permitiendo a los usuarios calcular estadísticas, detectar valores atípicos y calcular correlaciones sin escribir código manual. El proyecto funciona como un visor de datos integrado que puede integrarse en aplicaciones web a través de iframes o rutas personalizadas, con soporte específico para Django, Flask y Streamlit. Permite la exploración de conjuntos de datos a través de una combinación de una cuadrícula de datos interactiva y una biblioteca de visualización de datos capaz de generar histogramas, diagramas de caja y gráficos de dispersión 3D. La plataforma cubre una amplia gama de capacidades de gestión y análisis de datos, incluyendo limpieza de datos tabulares, remodelación y filtrado interactivo. Incluye herramientas de observabilidad para el análisis de datos faltantes, cálculo de correlación y puntuación de poder predictivo. Para la gestión de sesiones, admite el seguimiento de múltiples instancias y la persistencia del estado en procesos de trabajo concurrentes. La interfaz está protegida por autenticación de nombre de usuario y contraseña y admite la ingesta de datos desde archivos delimitados, hojas de cálculo y almacenes de datos ArcticDB.
Provides a visual interface for the interactive exploration and analysis of tabular dataframes.
TypeScriptdata-analysisdata-sciencedata-visualization
Ver en GitHub5,170
epochjs/epoch
epochjs/epoch
4,950Ver en GitHub
Epoch es un motor de gráficos con estilo CSS y una biblioteca de visualización diseñada para datos en tiempo real y estadísticos. Funciona como una herramienta de gráficos de series temporales que renderiza datos históricos y en vivo utilizando un híbrido de gráficos SVG y HTML5 Canvas para mantener el rendimiento durante actualizaciones frecuentes. La biblioteca se distingue por un sistema de consulta CSS unificado que aplica estilos tanto a elementos de trazado vectoriales como rasterizados. Esto permite la resolución de temas visuales a través de clases CSS y la capacidad de personalizar la apariencia de series de datos específicas utilizando hojas de estilo. El conjunto de herramientas cubre una amplia gama de tipos de visualización, incluyendo gráficos de líneas, áreas, barras y mapas de calor para el análisis de tendencias, así como medidores, gráficos circulares y barras agrupadas para paneles. También proporciona capacidades para la exploración estadística a través de diagramas de dispersión e histogramas que utilizan agrupación de cubetas discretas y mezcla de colores para mostrar la concentración de datos.
Offers scatter plots and histograms with discrete bucket grouping to explore statistical correlations and data concentrations.
HTML
Ver en GitHub4,950
apple/embedding-atlas
apple/embedding-atlas
4,835Ver en GitHub
Embedding Atlas es una interfaz basada en web para renderizar embeddings vectoriales de alta dimensión y analizar conjuntos de datos complejos mediante agrupamiento visual interactivo. Funciona como un analizador de datos de alta dimensión utilizado para descubrir tendencias y patrones de densidad, actuando como un explorador de similitud vectorial para localizar puntos de datos vecinos más cercanos dentro de conjuntos de datos de embedding a gran escala. El proyecto proporciona un panel de datos multimodal sincronizado que vincula datos tabulares con imágenes, audio y texto. Utiliza renderizado acelerado por hardware para mostrar millones de puntos de embedding y emplea mapeo de proyección de alta dimensión para revelar estructuras y clústeres de datos globales. El kit de herramientas cubre una amplia gama de capacidades analíticas, incluyendo búsqueda de similitud en tiempo real, indexación espacial de vecinos más cercanos y sincronización de estado de filtrado cruzado en paneles vinculados. También incluye interfaces para la exploración automatizada de datos, permitiendo a los controladores ejecutar consultas y actualizar gráficos visuales mediante programación.
Enables AI agents to execute SQL commands and update visual charts for programmatic analysis of embedded data.
TypeScriptembeddingvisualization
Ver en GitHub4,835

Awesome Visual Data Explorers GitHub Repositories

vesoft-inc/nebula

voxel51/fiftyone

vaexio/vaex

a-b-street/abstreet

visjs/vis

PAIR-code/facets

growthbook/growthbook

microsoft/SandDance

datajuicer/data-juicer

gephi/gephi

square/crossfilter

aimhubio/aim

mrdbourke/zero-to-mastery-ml

biolab/orange3

Live-Charts/Live-Charts

dlt-hub/dlt

christophM/interpretable-ml-book

man-group/dtale

epochjs/epoch

apple/embedding-atlas

Explorar subetiquetas