28 repository-uri
Tools for graphically analyzing and exploring massive datasets through interactive visualizations.
Distinct from Visual Data Explorers: Focuses specifically on the visual exploration aspect of big data processing, rather than just the computational processing engine.
Explore 28 awesome GitHub repositories matching data & databases · Visual Data Explorers. Refine with filters or upvote what's useful.
Nebula is a distributed graph database designed for storing and querying massive volumes of interconnected vertices and edges across a horizontally scalable cluster. It functions as a Kubernetes-native database and a distributed graph analytics engine, utilizing a Raft-based distributed store to ensure strong consistency and high availability. The system features an OpenCypher query engine for performing complex graph traversals and pattern matching. It distinguishes itself with a decoupled compute-storage architecture and a shared-nothing distributed design, allowing query processing and dat
Ships a web-based explorer for composing schemas, importing data, and visually exploring graph relationships.
FiftyOne este un instrument vizual pentru curarea, analizarea și gestionarea seturilor de date de imagini și video pentru antrenarea modelelor de machine learning. Acesta servește ca o platformă pentru identificarea erorilor de adnotare, rafinarea etichetelor de tip ground truth și evaluarea performanței modelelor de viziune prin compararea predicțiilor cu ground truth-ul pentru a identifica modurile de eșec. Sistemul funcționează ca o platformă de date containerizată care suportă colaborarea în echipă pe seturi de date vizuale la scară largă într-un mediu cloud. Include capabilități specializate pentru explorarea embedding-urilor de înaltă dimensiune pentru a descoperi clustere de date și a recupera mostre vizuale corespondente. Platforma acoperă o gamă largă de capabilități, inclusiv adnotarea datelor 2D și 3D, validarea calității seturilor de date și explorarea vizuală a datelor. Se integrează cu framework-uri de deep learning pentru a muta datele de la curare la antrenarea modelelor și utilizează un magazin de metadate bazat pe documente pentru a gestiona structurile seturilor de date.
Provides an interactive visual interface for browsing and analyzing large-scale image and video datasets.
Vaex is a high-performance Apache Arrow DataFrame library and out-of-core data processing engine designed to handle billion-row tabular datasets in Python. It functions as a lazy evaluation framework that defers computations and transformations until results are required, enabling the processing of datasets that exceed available system RAM by mapping files directly from disk. The project distinguishes itself as a tool for big data visualization and exploration, specifically integrated for use within interactive notebooks. It provides specialized capabilities for machine learning feature engin
Provides a system for analyzing and visualizing billions of rows of tabular data within interactive notebooks.
A/B Street is an open-source traffic simulation and urban planning tool that models how cars, bikes, and pedestrians move through real-world street networks. It imports data from OpenStreetMap to build detailed, lane-level road models, then runs discrete-event simulations to analyze travel times, delays, and congestion patterns across different infrastructure scenarios. The project provides an interactive map editor for modifying road geometry, lane configurations, traffic signals, and access restrictions, with full undo/redo support. Users can design low-traffic neighborhoods by placing moda
Displays per-agent routes, scatter plots of intersection delays, and sortable trip tables for aggregate analysis of simulation results.
vis is a JavaScript data visualization library used to render interactive networks, timelines, and graphs directly in the web browser. It functions as a relational data mapper and browser-based charting tool, turning complex structured data into dynamic visual patterns to expose entity relationships. The library provides specialized tools for force-directed network graphs, where relational data is represented as interactive nodes and edges. It also includes an interactive timeline component for plotting chronological events and time intervals on a scalable temporal axis. The project covers b
Enables graphical analysis and exploration of complex relational datasets through interactive network visualizations.
Facets is a set of interactive software tools for the statistical analysis, distribution visualization, and multidimensional exploration of machine learning datasets. It provides a visual interface for identifying outliers and missing values in numeric and string data, specifically designed for auditing dataset quality and identifying skews between training and validation sets. The system uses multidimensional facet-based visualization and interactive bucketing to map individual data points across multiple feature axes. It employs synchronized view filtering and animated dimension transitions
Enables mapping of individual data points across multiple dimensions using interactive bucketing for error detection.
GrowthBook is a feature flagging and experimentation platform that utilizes a warehouse-native approach to data analysis. It serves as a system for managing feature rollouts and conducting A/B tests by executing SQL queries directly against existing data warehouses to calculate experiment results. The platform is distinguished by its integration of a Model Context Protocol server, which allows AI coding assistants and IDEs to manage flags and query analytics using natural language. It also provides specialized capabilities for AI model optimization, enabling the testing of prompts and models
Transforms warehouse data into interactive charts and pivot tables for visual exploration of user behavior.
SandDance is a hardware-accelerated visualization library and web-based data explorer designed for the interactive analysis of large, non-aggregated datasets. It functions as an interactive data visualization tool that renders complex datasets and intricate visuals within a browser. The project provides an embeddable data canvas consisting of web components and tags, allowing for the integration of full visualization interfaces and interactive charts into external web applications. It utilizes WebGL hardware acceleration to efficiently render large volumes of data as interactive graphics. Th
Provides a web-based tool for graphically analyzing and exploring massive datasets through interactive visualizations.
Data-Juicer is an open-source framework for cleaning, filtering, deduplicating, and transforming multimodal datasets to prepare them for training large language and vision models. It functions as a distributed data pipeline engine that runs processing jobs across Ray clusters, handling billions of samples with automatic operator fusion and adaptive parallelism. The framework provides a library of operators that leverage large language models for semantic extraction, filtering, and data synthesis within processing pipelines. The project distinguishes itself through a YAML-based data recipe sys
Generates charts and plots to explore dataset properties, such as sample distributions and quality metrics.
Gephi is an open-source desktop application for visualizing and analyzing large-scale network graphs. It provides an interactive platform for exploring complex relational data, combining hardware-accelerated rendering with real-time layout controls and a plugin-based modular architecture. The platform distinguishes itself through its ability to handle networks of up to 100,000 nodes and 1,000,000 edges using a custom OpenGL rendering engine, enabling smooth real-time interaction. It includes a force-directed layout engine with real-time adjustment, a dynamic filter pipeline for selecting node
Ships an interactive visualization platform for exploring and analyzing large relational datasets.
Fast n-dimensional filtering and grouping of records.
Explores large multivariate datasets with coordinated filtering across dimensions and real-time visualization updates.
Aim is an open-source platform for logging, visualizing, and comparing machine learning training runs and LLM traces. It provides a remote tracking server and a comparison UI, functioning as an ML experiment tracker, AI workflow logger, and LLM trace recorder that captures prompts, generations, and tool calls from AI applications. The platform distinguishes itself through a run-based data model with local SQLite storage, real-time metric streaming, and a plugin-based explorer system that supports specialized visual analysis of metrics, images, audio, and text. It offers a Python SDK with cont
Uses specialized explorers to compare thousands of sessions of metrics, images, text, and audio.
Acest proiect este un curriculum educațional de machine learning și o platformă de învățare livrată prin Jupyter Notebooks interactive. Servește drept ghid cuprinzător pentru stăpânirea toolkit-ului de data science Python, oferind tutoriale structurate pentru calcul numeric, manipularea datelor tabelare și vizualizarea statistică. Curriculum-ul include ghiduri specifice de implementare pentru Scikit-Learn și un curs practic despre TensorFlow pentru construirea, antrenarea și deployment-ul rețelelor neuronale și a modelelor de computer vision. Acoperă procesul end-to-end de construire a modelelor predictive, de la formularea inițială a problemei și categorizarea sarcinilor până la deployment-ul modelelor prin interfețe web interactive. Proiectul acoperă o suprafață largă de capabilități, inclusiv calcul numeric cu array-uri multidimensionale, analiză exploratorie a datelor și rutine de preprocesare a datelor. Oferă fluxuri de lucru detaliate pentru învățarea supervizată și nesupervizată, pipeline-uri de machine learning automatizat, optimizarea hiperparametrilor și evaluarea modelelor folosind metrici de clasificare și cross-validation. Conținutul educațional este organizat ca o serie de notebook-uri care intercalează codul Python cu explicații narative pentru a documenta fluxurile de lucru în data science.
Provides techniques for examining dataset composition and class balance to inform preprocessing decisions.
Orange3 is a visual data mining platform that provides an interactive canvas for building data analysis workflows without writing code. At its core, it offers a widget-based visual programming environment where users connect configurable components to perform data preprocessing, machine learning model training, statistical evaluation, and interactive visualization. The platform is built on NumPy-backed data tables with domain descriptors that define variable names, types, and roles, and includes a lazy SQL query proxy for working with database tables without loading all data into memory. The
Builds and runs interactive data analysis workflows on a visual canvas without writing code.
Live-Charts este o bibliotecă .NET de vizualizare a datelor care oferă o colecție de grafice, hărți și indicatori interactivi. Funcționează ca un motor de grafice în timp real și bibliotecă grafică multi-format concepută pentru a randa seturi de date complexe în cadrul aplicațiilor .NET. Biblioteca dispune de instrumente pentru crearea de dashboard-uri de date interactive capabile să exploreze seturi mari de date. Acest lucru este susținut de un sistem pentru zoom, pan și utilizarea mai multor axe de coordonate pentru a naviga prin sute de mii de puncte de date. Motorul de vizualizare suportă o varietate de formate, inclusiv bare, linii, hărți de căldură și hărți geografice. Include capabilități pentru monitorizarea datelor în timp real și dezvoltarea de dashboard-uri desktop pentru a urmări metricile și tendințele live.
Offers interactive visual tools for graphically analyzing and exploring massive datasets through zooming and panning.
dlt este un instrument de ingestie a datelor Python și un framework de pipeline ETL conceput pentru a prelua date din surse diverse și a le persista în destinații structurate. Funcționează ca un motor de inferență a schemei care detectează automat tipurile de date și aplatizează structurile JSON imbricate în tabele relaționale, mutând datele din surse către lakehouse-uri, depozite de date sau baze de date vectoriale. Proiectul se distinge prin generarea de pipeline-uri bazată pe AI, utilizând modele lingvistice mari pentru a crea codul de extracție și conectorii pentru API-urile REST. De asemenea, suportă stocarea vectorială multimodală și popularea specializată a bazelor de date vectoriale pentru a susține aplicațiile AI și machine learning. Framework-ul acoperă o gamă largă de capabilități, inclusiv evoluția automată a schemei, încărcarea incrementală a datelor prin urmărirea stării și validarea calității datelor prin aplicarea contractelor de date. Oferă instrumente pentru normalizarea datelor relaționale, transformări pre- și post-încărcare și o varietate de adaptoare de destinație pentru baze de date SQL și stocare de obiecte în cloud. Observabilitatea este gestionată prin dashboard-uri de execuție a pipeline-ului, urmărirea lineage-ului coloanelor și verificarea versiunii schemei folosind hash-uri bazate pe conținut.
Connects datasets to dashboards to automatically generate charts based on the inferred schema.
Acest proiect este o resursă educațională cuprinzătoare și un manual tehnic axat pe machine learning interpretabil și AI explicabil. Servește ca manual și referință pentru implementarea tehnicilor care fac modelele complexe de machine learning transparente și ușor de înțeles pentru oameni. Resursa oferă îndrumări atât pentru construirea modelelor inerent transparente, cum ar fi arborii de decizie și modelele liniare rare, cât și pentru aplicarea metodelor de explicare post-hoc sistemelor black-box. Detaliază metodologii specifice pentru cuantificarea importanței caracteristicilor, generarea de raționamente pentru predicții individuale și utilizarea modelelor surogat pentru a aproxima procesele complexe de luare a deciziilor. Conținutul acoperă o gamă largă de capabilități analitice, inclusiv analiza influenței caracteristicilor globale și locale, interpretabilitatea viziunii computerizate și utilizarea contribuțiilor teoretice ale jocurilor, cum ar fi valorile Shapley. De asemenea, abordează evaluarea modelului prin evaluări de interpretabilitate, fluxuri de lucru de depanare pentru a identifica scurtăturile modelului și designul structurilor algoritmice transparente. Proiectul este implementat ca o colecție de Jupyter Notebooks.
Measures the difference between a subset of prototypes and the overall data distribution.
dtale este o grilă interactivă bazată pe web și un vizualizator pentru dataframe-urile pandas, conceput ca un instrument de analiză exploratorie a datelor. Oferă o interfață bazată pe browser pentru analizarea structurilor de date tabelare, permițând utilizatorilor să calculeze statistici, să detecteze valori aberante și să calculeze corelații fără a scrie cod manual. Proiectul funcționează ca un vizualizator de date încorporat care poate fi integrat în aplicații web prin iframes sau rute personalizate, cu suport specific pentru Django, Flask și Streamlit. Permite explorarea seturilor de date printr-o combinație de grilă de date interactivă și o bibliotecă de vizualizare a datelor capabilă să genereze histograme, box plots și grafice scatter 3D. Platforma acoperă o gamă largă de capabilități de gestionare și analiză a datelor, inclusiv curățarea datelor tabelare, remodelarea și filtrarea interactivă. Include instrumente de observabilitate pentru analiza datelor lipsă, calculul corelației și scorarea puterii predictive. Pentru gestionarea sesiunilor, suportă urmărirea multi-instanță și persistența stării între procesele worker concurente. Interfața este protejată prin autentificare cu nume de utilizator și parolă și suportă ingestia de date din fișiere delimitate, foi de calcul și datastore-uri ArcticDB.
Provides a visual interface for the interactive exploration and analysis of tabular dataframes.
Epoch este un motor de grafice stilizabil prin CSS și o bibliotecă de vizualizare concepută pentru date în timp real și statistice. Funcționează ca un instrument de grafice de tip timeseries care randează date istorice și live folosind un hibrid de grafică SVG și HTML5 Canvas pentru a menține performanța în timpul actualizărilor frecvente. Biblioteca se distinge printr-un sistem unificat de interogare CSS care aplică stiluri atât elementelor de plot vectoriale, cât și celor raster. Acest lucru permite rezoluția temelor vizuale prin clase CSS și capacitatea de a personaliza aspectul unor serii de date specifice folosind foi de stil. Setul de instrumente acoperă o gamă largă de tipuri de vizualizare, inclusiv grafice cu linii, arii, bare și hărți termice pentru analiza tendințelor, precum și indicatoare, grafice plăcintă și bare grupate pentru dashboard-uri. De asemenea, oferă capabilități pentru explorarea statistică prin scatter plots și histograme care utilizează gruparea discretă pe bucket-uri și amestecarea culorilor pentru a arăta concentrarea datelor.
Offers scatter plots and histograms with discrete bucket grouping to explore statistical correlations and data concentrations.
Embedding Atlas is a web-based interface for rendering high-dimensional vector embeddings and analyzing complex datasets through interactive visual clustering. It functions as a high-dimensional data analyzer used to discover trends and density patterns, acting as a vector similarity explorer to locate nearest neighbor data points within large-scale embedding datasets. The project provides a synchronized multimodal data dashboard that links tabular data with images, audio, and text. It utilizes hardware-accelerated rendering to display millions of embedding points and employs high-dimensional
Enables AI agents to execute SQL commands and update visual charts for programmatic analysis of embedded data.