28 dépôts
Tools for graphically analyzing and exploring massive datasets through interactive visualizations.
Distinct from Visual Data Explorers: Focuses specifically on the visual exploration aspect of big data processing, rather than just the computational processing engine.
Explore 28 awesome GitHub repositories matching data & databases · Visual Data Explorers. Refine with filters or upvote what's useful.
Nebula is a distributed graph database designed for storing and querying massive volumes of interconnected vertices and edges across a horizontally scalable cluster. It functions as a Kubernetes-native database and a distributed graph analytics engine, utilizing a Raft-based distributed store to ensure strong consistency and high availability. The system features an OpenCypher query engine for performing complex graph traversals and pattern matching. It distinguishes itself with a decoupled compute-storage architecture and a shared-nothing distributed design, allowing query processing and dat
Ships a web-based explorer for composing schemas, importing data, and visually exploring graph relationships.
FiftyOne is a visual tool for curating, analyzing, and managing image and video datasets for machine learning model training. It serves as a platform for identifying annotation errors, refining ground truth labels, and evaluating vision model performance by comparing predictions against ground truth to identify failure modes. The system functions as a containerized data platform that supports team collaboration on large-scale visual datasets in a cloud environment. It includes specialized capabilities for exploring high-dimensional embeddings to discover data clusters and retrieve correspondi
Provides an interactive visual interface for browsing and analyzing large-scale image and video datasets.
Vaex is a high-performance Apache Arrow DataFrame library and out-of-core data processing engine designed to handle billion-row tabular datasets in Python. It functions as a lazy evaluation framework that defers computations and transformations until results are required, enabling the processing of datasets that exceed available system RAM by mapping files directly from disk. The project distinguishes itself as a tool for big data visualization and exploration, specifically integrated for use within interactive notebooks. It provides specialized capabilities for machine learning feature engin
Provides a system for analyzing and visualizing billions of rows of tabular data within interactive notebooks.
A/B Street is an open-source traffic simulation and urban planning tool that models how cars, bikes, and pedestrians move through real-world street networks. It imports data from OpenStreetMap to build detailed, lane-level road models, then runs discrete-event simulations to analyze travel times, delays, and congestion patterns across different infrastructure scenarios. The project provides an interactive map editor for modifying road geometry, lane configurations, traffic signals, and access restrictions, with full undo/redo support. Users can design low-traffic neighborhoods by placing moda
Displays per-agent routes, scatter plots of intersection delays, and sortable trip tables for aggregate analysis of simulation results.
vis is a JavaScript data visualization library used to render interactive networks, timelines, and graphs directly in the web browser. It functions as a relational data mapper and browser-based charting tool, turning complex structured data into dynamic visual patterns to expose entity relationships. The library provides specialized tools for force-directed network graphs, where relational data is represented as interactive nodes and edges. It also includes an interactive timeline component for plotting chronological events and time intervals on a scalable temporal axis. The project covers b
Enables graphical analysis and exploration of complex relational datasets through interactive network visualizations.
Facets is a set of interactive software tools for the statistical analysis, distribution visualization, and multidimensional exploration of machine learning datasets. It provides a visual interface for identifying outliers and missing values in numeric and string data, specifically designed for auditing dataset quality and identifying skews between training and validation sets. The system uses multidimensional facet-based visualization and interactive bucketing to map individual data points across multiple feature axes. It employs synchronized view filtering and animated dimension transitions
Enables mapping of individual data points across multiple dimensions using interactive bucketing for error detection.
GrowthBook is a feature flagging and experimentation platform that utilizes a warehouse-native approach to data analysis. It serves as a system for managing feature rollouts and conducting A/B tests by executing SQL queries directly against existing data warehouses to calculate experiment results. The platform is distinguished by its integration of a Model Context Protocol server, which allows AI coding assistants and IDEs to manage flags and query analytics using natural language. It also provides specialized capabilities for AI model optimization, enabling the testing of prompts and models
Transforms warehouse data into interactive charts and pivot tables for visual exploration of user behavior.
SandDance is a hardware-accelerated visualization library and web-based data explorer designed for the interactive analysis of large, non-aggregated datasets. It functions as an interactive data visualization tool that renders complex datasets and intricate visuals within a browser. The project provides an embeddable data canvas consisting of web components and tags, allowing for the integration of full visualization interfaces and interactive charts into external web applications. It utilizes WebGL hardware acceleration to efficiently render large volumes of data as interactive graphics. Th
Provides a web-based tool for graphically analyzing and exploring massive datasets through interactive visualizations.
Data-Juicer is an open-source framework for cleaning, filtering, deduplicating, and transforming multimodal datasets to prepare them for training large language and vision models. It functions as a distributed data pipeline engine that runs processing jobs across Ray clusters, handling billions of samples with automatic operator fusion and adaptive parallelism. The framework provides a library of operators that leverage large language models for semantic extraction, filtering, and data synthesis within processing pipelines. The project distinguishes itself through a YAML-based data recipe sys
Generates charts and plots to explore dataset properties, such as sample distributions and quality metrics.
Gephi is an open-source desktop application for visualizing and analyzing large-scale network graphs. It provides an interactive platform for exploring complex relational data, combining hardware-accelerated rendering with real-time layout controls and a plugin-based modular architecture. The platform distinguishes itself through its ability to handle networks of up to 100,000 nodes and 1,000,000 edges using a custom OpenGL rendering engine, enabling smooth real-time interaction. It includes a force-directed layout engine with real-time adjustment, a dynamic filter pipeline for selecting node
Ships an interactive visualization platform for exploring and analyzing large relational datasets.
Fast n-dimensional filtering and grouping of records.
Explores large multivariate datasets with coordinated filtering across dimensions and real-time visualization updates.
Aim is an open-source platform for logging, visualizing, and comparing machine learning training runs and LLM traces. It provides a remote tracking server and a comparison UI, functioning as an ML experiment tracker, AI workflow logger, and LLM trace recorder that captures prompts, generations, and tool calls from AI applications. The platform distinguishes itself through a run-based data model with local SQLite storage, real-time metric streaming, and a plugin-based explorer system that supports specialized visual analysis of metrics, images, audio, and text. It offers a Python SDK with cont
Uses specialized explorers to compare thousands of sessions of metrics, images, text, and audio.
Ce projet est un cursus éducatif en machine learning et une plateforme d'apprentissage délivrée via des Jupyter Notebooks interactifs. Il sert de guide complet pour maîtriser le toolkit de science des données Python, fournissant des tutoriels structurés pour le calcul numérique, la manipulation de données tabulaires et la visualisation statistique. Le cursus inclut des guides d'implémentation spécifiques pour Scikit-Learn et un cours pratique sur TensorFlow pour construire, entraîner et déployer des réseaux de neurones et des modèles de vision par ordinateur. Il couvre le processus de bout en bout de la construction de modèles prédictifs, de la formulation initiale du problème et de la catégorisation des tâches au déploiement des modèles via des interfaces web interactives. Le projet couvre une large surface de capacités incluant le calcul numérique avec des tableaux multidimensionnels, l'analyse exploratoire des données et les routines de prétraitement des données. Il fournit des flux de travail détaillés pour l'apprentissage supervisé et non supervisé, les pipelines de machine learning automatisés, l'optimisation des hyperparamètres et l'évaluation des modèles utilisant des métriques de classification et la validation croisée. Le contenu éducatif est organisé sous forme d'une série de notebooks qui entremêlent code Python et explications narratives pour documenter les flux de travail en science des données.
Provides techniques for examining dataset composition and class balance to inform preprocessing decisions.
Orange3 is a visual data mining platform that provides an interactive canvas for building data analysis workflows without writing code. At its core, it offers a widget-based visual programming environment where users connect configurable components to perform data preprocessing, machine learning model training, statistical evaluation, and interactive visualization. The platform is built on NumPy-backed data tables with domain descriptors that define variable names, types, and roles, and includes a lazy SQL query proxy for working with database tables without loading all data into memory. The
Builds and runs interactive data analysis workflows on a visual canvas without writing code.
Live-Charts est une bibliothèque de visualisation de données .NET fournissant une collection de graphiques, cartes et jauges interactifs. Elle fonctionne comme un moteur de graphiques en temps réel et une bibliothèque graphique multi-format conçue pour rendre des jeux de données complexes au sein d'applications .NET. La bibliothèque propose des outils pour créer des tableaux de bord de données interactifs capables d'explorer de grands jeux de données. Ceci est supporté par un système de zoom, de panoramique et d'utilisation d'axes de coordonnées multiples pour naviguer parmi des centaines de milliers de points de données. Le moteur de visualisation prend en charge une variété de formats, notamment les barres, les lignes, les cartes thermiques et les cartes géographiques. Il inclut des capacités pour la surveillance de données en temps réel et le développement de tableaux de bord de bureau pour suivre les métriques et tendances en direct.
Offers interactive visual tools for graphically analyzing and exploring massive datasets through zooming and panning.
dlt est un outil d'ingestion de données Python et un framework de pipeline ETL conçu pour récupérer des données depuis diverses sources et les persister dans des destinations structurées. Il fonctionne comme un moteur d'inférence de schéma qui détecte automatiquement les types de données et aplatit les structures JSON imbriquées en tables relationnelles, déplaçant les données des sources vers des lakehouses, des entrepôts ou des bases de données vectorielles. Le projet se distingue par une génération de pipeline alimentée par l'IA, utilisant de grands modèles de langage pour échafauder le code d'extraction et les connecteurs pour les API REST. Il prend également en charge le stockage vectoriel multimodal et la population spécialisée de bases de données vectorielles pour prendre en charge les applications d'IA et de machine learning. Le framework couvre un large éventail de capacités, incluant l'évolution automatique du schéma, le chargement incrémentiel de données via le suivi d'état et la validation de la qualité des données par l'application de contrats de données. Il fournit des outils pour la normalisation des données relationnelles, les transformations pré- et post-chargement, et une variété d'adaptateurs de destination pour les bases de données SQL et les magasins d'objets cloud. L'observabilité est gérée via des tableaux de bord d'exécution de pipeline, le suivi de lignage des colonnes et la vérification de version de schéma utilisant des hachages basés sur le contenu.
Connects datasets to dashboards to automatically generate charts based on the inferred schema.
Ce projet est une ressource éducative complète et un manuel technique axé sur le machine learning interprétable et l'IA explicable. Il sert de manuel et de référence pour implémenter des techniques qui rendent les modèles de machine learning complexes transparents et compréhensibles pour les humains. La ressource fournit des conseils à la fois sur la construction de modèles intrinsèquement transparents, tels que les arbres de décision et les modèles linéaires creux, et sur l'application de méthodes d'explication post-hoc aux systèmes boîte noire. Elle détaille des méthodologies spécifiques pour quantifier l'importance des caractéristiques, générer des justifications pour les prédictions individuelles et utiliser des modèles de substitution pour approximer des processus de prise de décision complexes. Le contenu couvre un large éventail de capacités analytiques, notamment l'analyse de l'influence des caractéristiques globales et locales, l'interprétabilité de la vision par ordinateur et l'utilisation de contributions issues de la théorie des jeux comme les valeurs de Shapley. Il aborde également l'évaluation des modèles via des évaluations d'interprétabilité, des flux de travail de débogage pour identifier les raccourcis des modèles et la conception de structures d'algorithmes transparentes. Le projet est implémenté sous forme d'une collection de Jupyter Notebooks.
Measures the difference between a subset of prototypes and the overall data distribution.
dtale est une grille interactive basée sur le web et un visualiseur pour les dataframes pandas, conçu comme un outil d'analyse exploratoire des données. Il fournit une interface basée sur le navigateur pour analyser les structures de données tabulaires, permettant aux utilisateurs de calculer des statistiques, de détecter des valeurs aberrantes et de calculer des corrélations sans écrire de code manuel. Le projet fonctionne comme un visualiseur de données intégré qui peut être intégré dans des applications web via des iframes ou des routes personnalisées, avec une prise en charge spécifique pour Django, Flask et Streamlit. Il permet l'exploration des jeux de données grâce à une combinaison d'une grille de données interactive et d'une bibliothèque de visualisation de données capable de générer des histogrammes, des boîtes à moustaches et des graphiques de dispersion 3D. La plateforme couvre un large éventail de capacités de gestion et d'analyse de données, notamment le nettoyage des données tabulaires, le remodelage et le filtrage interactif. Elle inclut des outils d'observabilité pour l'analyse des données manquantes, le calcul de corrélation et le score de puissance prédictive. Pour la gestion de session, elle prend en charge le suivi multi-instance et la persistance de l'état à travers les processus de travail concurrents. L'interface est protégée par une authentification par nom d'utilisateur et mot de passe et prend en charge l'ingestion de données à partir de fichiers délimités, de feuilles de calcul et de datastores ArcticDB.
Provides a visual interface for the interactive exploration and analysis of tabular dataframes.
Epoch est un moteur de création de graphiques et une bibliothèque de visualisation CSS-stylable conçus pour les données en temps réel et statistiques. Il fonctionne comme un outil de création de graphiques de séries temporelles qui rend les données historiques et en direct en utilisant un hybride de graphiques SVG et HTML5 Canvas pour maintenir les performances lors de mises à jour fréquentes. La bibliothèque se distingue par un système de requête CSS unifié qui applique des styles aux éléments de tracé vectoriels et raster. Cela permet la résolution de thèmes visuels via des classes CSS et la capacité de personnaliser l'apparence de séries de données spécifiques à l'aide de feuilles de style. L'ensemble d'outils couvre un large éventail de types de visualisation, y compris les graphiques en ligne, en aire, en barres et en cartes thermiques pour l'analyse des tendances, ainsi que des jauges, des graphiques en secteurs et des barres groupées pour les tableaux de bord. Il fournit également des capacités d'exploration statistique via des nuages de points et des histogrammes qui utilisent un regroupement par seaux discrets et un mélange de couleurs pour montrer la concentration des données.
Offers scatter plots and histograms with discrete bucket grouping to explore statistical correlations and data concentrations.
Embedding Atlas est une interface web pour le rendu d'embeddings vectoriels de haute dimension et l'analyse de jeux de données complexes via un clustering visuel interactif. Il fonctionne comme un analyseur de données de haute dimension utilisé pour découvrir des tendances et des modèles de densité, agissant comme un explorateur de similarité vectorielle pour localiser les points de données les plus proches dans des jeux de données d'embedding à grande échelle. Le projet fournit un tableau de bord de données multimodal synchronisé qui lie les données tabulaires avec des images, de l'audio et du texte. Il utilise un rendu accéléré par le matériel pour afficher des millions de points d'embedding et emploie une projection de mappage de haute dimension pour révéler les structures et clusters de données globaux. La boîte à outils couvre un large éventail de capacités analytiques, notamment la recherche de similarité en temps réel, l'indexation spatiale des plus proches voisins et la synchronisation de l'état de filtrage croisé entre les tableaux de bord liés. Elle inclut également des interfaces pour l'exploration automatisée des données, permettant aux contrôleurs d'exécuter des requêtes et de mettre à jour les graphiques visuels par programmation.
Enables AI agents to execute SQL commands and update visual charts for programmatic analysis of embedded data.