13 repository-uri
The process of cleaning and manipulating datasets to discover patterns and statistical insights.
Distinct from Automated Exploratory Analysis: Focuses on the manual exploratory process using pandas/NumPy, distinct from automated analysis frameworks.
Explore 13 awesome GitHub repositories matching data & databases · Exploratory Data Analysis. Refine with filters or upvote what's useful.
This project is a collection of interactive Python notebooks and educational resources designed for mastering data science, machine learning, and numerical computing. It provides a series of practical guides and tutorials covering deep learning, big data processing, and statistical analysis. The repository features specialized instructional suites for implementing classical machine learning algorithms, building deep learning model architectures, and managing AWS cloud infrastructure. It includes dedicated notebooks for data visualization and numerical computing exercises. The project covers
Provides techniques for cleaning and manipulating tabular data to visualize trends and extract statistical insights.
VisiData is a terminal-based interactive data analysis tool and browser designed for exploring, filtering, and sorting large tabular datasets. It functions as a structured data inspector that loads and flattens complex formats like JSON, XML, and PCAP into interactive sheets, as well as a terminal file manager for navigating directories and performing staged filesystem operations. The project distinguishes itself by rendering data visualizations, such as scatter plots and histograms, directly in the terminal using Unicode Braille characters. It provides a Python-based data wrangling environme
Provides tools for generating summary statistics, pivot tables, and frequency distributions to identify patterns in datasets.
This project is a pandas data analysis cookbook and Python data science guide. It provides a collection of programmatic recipes and examples for cleaning, manipulating, and analyzing structured data. The project focuses on providing a containerized analysis environment to ensure a consistent workspace and reproducible dependencies when executing data processing scripts. It covers a broad range of data science capabilities, including data ingestion from external sources, raw data cleaning, and exploratory data analysis. These recipes demonstrate how to perform structured data analysis through
Uses pandas for cleaning and manipulating datasets to discover patterns and statistical insights.
ggplot2 is a data visualization library for R based on a formal grammar of graphics. It provides a declarative plotting framework that allows users to create complex graphics by combining geometric objects, statistical summaries, and coordinate systems. The system is distinguished by a layered approach to composition, where visualizations are built incrementally by stacking independent geometric, statistical, and coordinate layers. It utilizes a hierarchical styling engine to manage non-data elements such as backgrounds, fonts, and margins, and includes a multi-panel faceting tool for splitti
Enables discovery of patterns and statistical insights through the creation of layered plots and faceted grids.
ggplot2 is an R data visualization library and statistical graphics engine. It implements a grammar of graphics that functions as a declarative plotting framework, allowing users to specify what a plot should contain rather than how to draw it. The system builds visualizations by mapping data variables to visual aesthetics through a structured set of layering rules. This approach enables the composition of complex graphics by stacking independent components, such as geometric objects and scales, on top of a shared coordinate system. The framework supports scientific plotting and exploratory
Facilitates the rapid generation of various plots to discover patterns and statistical insights in datasets.
Acest proiect este o bibliotecă Python de analiză a datelor și un framework de analiză exploratorie a datelor conceput pentru procesarea seturilor de date brute. Oferă o suită de instrumente pentru examinarea datelor, identificarea anomaliilor și aplicarea metodelor statistice pentru a descoperi tipare. Repository-ul funcționează ca un toolkit de modelare machine learning și o suită de modelare statistică a datelor. Include algoritmi predictivi și modele matematice utilizate pentru a analiza relațiile dintre variabilele de date și a deriva insight-uri din seturi de date complexe. Proiectul acoperă o gamă largă de capabilități, inclusiv data science, modelare machine learning și analiză exploratorie a datelor. Acestea sunt implementate prin manipularea datelor, calcul numeric și vizualizarea datelor.
Provides a framework for cleaning and manipulating datasets to discover patterns and identify statistical anomalies.
Aceasta este o bibliotecă de vizualizare de tip grammar of graphics utilizată pentru a construi grafice prin maparea datelor tabelare la marcaje vizuale. Funcționează ca un instrument de vizualizare a datelor SVG și un API de analiză exploratorie a datelor, permițând utilizatorilor să randeze vizualizări complexe și hărți geografice. Biblioteca dispune de un renderer de hărți GeoJSON care proiectează coordonatele sferice într-un spațiu de pixeli bidimensional și o interfață de vizualizare Apache Arrow pentru procesarea datelor de înaltă eficiență. Suprafața sa de capabilități acoperă transformarea datelor prin binning și grupare, codificarea vizuală prin inferența automată a scalei și aplicarea schemelor de culori, precum și generarea de small multiples. Suportă randarea formelor geometrice în vizualizări stratificate și exportul imaginilor statice în medii server-side.
Provides an API for rapidly transforming tabular data into charts to discover patterns and statistical insights.
dtale este o grilă interactivă bazată pe web și un vizualizator pentru dataframe-urile pandas, conceput ca un instrument de analiză exploratorie a datelor. Oferă o interfață bazată pe browser pentru analizarea structurilor de date tabelare, permițând utilizatorilor să calculeze statistici, să detecteze valori aberante și să calculeze corelații fără a scrie cod manual. Proiectul funcționează ca un vizualizator de date încorporat care poate fi integrat în aplicații web prin iframes sau rute personalizate, cu suport specific pentru Django, Flask și Streamlit. Permite explorarea seturilor de date printr-o combinație de grilă de date interactivă și o bibliotecă de vizualizare a datelor capabilă să genereze histograme, box plots și grafice scatter 3D. Platforma acoperă o gamă largă de capabilități de gestionare și analiză a datelor, inclusiv curățarea datelor tabelare, remodelarea și filtrarea interactivă. Include instrumente de observabilitate pentru analiza datelor lipsă, calculul corelației și scorarea puterii predictive. Pentru gestionarea sesiunilor, suportă urmărirea multi-instanță și persistența stării între procesele worker concurente. Interfața este protejată prin autentificare cu nume de utilizator și parolă și suportă ingestia de date din fișiere delimitate, foi de calcul și datastore-uri ArcticDB.
Provides a visual interface for identifying patterns, outliers, and missing values in datasets.
r4ds este un curriculum de știința datelor și o resursă educațională concepută pentru stăpânirea limbajului de programare R. Oferă o cale de învățare structurată pentru procesul end-to-end de importare, curățare, transformare și vizualizare a datelor. Proiectul pune accent pe un ghid de știința datelor reproductibil și un curriculum cuprinzător pentru manipularea datelor (data wrangling). Include tutoriale specializate despre gramatica graficelor pentru vizualizarea stratificată a datelor și publicații tehnice create cu Quarto care îmbină codul executabil cu proza narativă. Materialul acoperă o gamă largă de capabilități analitice, inclusiv ingestia de date din surse diverse, unirea datelor relaționale și gestionarea variabilelor categorice. De asemenea, abordează curățarea datelor, modelarea matematică și generarea de rapoarte și prezentări profesionale în formate multiple. Curriculum-ul se concentrează pe aplicarea practică a programării funcționale și a principiilor „tidy data” pentru a crea analize transparente și repetabile.
Teaches the iterative process of manipulating and visualizing datasets to discover statistical patterns and insights.
Danfo.js este o bibliotecă de analiză și preprocesare a datelor pentru JavaScript care oferă structuri de date etichetate de înaltă performanță. Implementează data frame-uri și serii pentru a permite analiza complexă a datelor, calculul statistic și manipularea datelor tabulare structurate. Proiectul servește ca o bibliotecă de preprocesare pentru învățarea automată, oferind utilitare pentru codificarea etichetelor categorice, one-hot encoding și scalarea și standardizarea caracteristicilor numerice. Acesta facilitează în mod specific conversia structurilor de date etichetate în tensori pentru antrenarea și evaluarea modelelor. Biblioteca acoperă un set larg de capabilități, inclusiv statistici descriptive, operațiuni relaționale precum îmbinarea și unirea, și procesarea seriilor temporale. Include instrumente pentru curățarea, filtrarea și gruparea datelor, precum și o interfață de vizualizare pentru generarea de grafice și diagrame interactive direct din data frame-uri. Sistemul suportă importul și exportul datelor prin formate CSV, JSON și Excel.
Provides tools for calculating descriptive statistics and generating charts to discover patterns in datasets.
This is an interactive notebook-based course that teaches machine learning from Python fundamentals through deep learning and natural language processing. It uses real datasets and multiple frameworks within a structured, hands-on curriculum that combines concise explanations with executable code cells, built-in datasets, and embedded exercise checkpoints. Learning progresses through data preparation and exploration, classical machine learning workflows, computer vision with convolutional neural networks, and natural language processing with deep learning, all delivered as a cohesive progressi
Guides users through cleaning and manipulating datasets to discover patterns and optimize features for modeling.
missingno este o bibliotecă Python pentru vizualizarea și analiza modelelor de date lipsă. Oferă un set de instrumente pentru a profila completitudinea seturilor de date, a mapa lacunele de date și a cuantifica volumul valorilor nule în variabile. Biblioteca se diferențiază printr-un analizor de corelație a nulității și un instrument de clustering ierarhic al datelor. Aceste componente permit detectarea dependențelor și tendințelor sistemice prin măsurarea modului în care absența unei variabile se raportează la absența alteia. Setul de instrumente acoperă capabilități mai largi de auditare a calității datelor și analiză exploratorie. Include funcționalități pentru sumarizarea nulității coloanelor folosind scale liniare și logaritmice, precum și mapare bazată pe matrice pentru a identifica lacunele sistemice în înregistrări.
Enables exploratory data analysis by visualizing the distribution and volume of null values.
mcp-context-forge is a Model Context Protocol federation gateway that unifies diverse AI tool servers and APIs into a single consistent interface for discovery and execution. It acts as a centralized proxy that aggregates multiple servers and APIs, allowing AI agents to access and invoke a unified set of tools, prompts, and resources. The project distinguishes itself through a multi-protocol translation bridge that converts communication between standard I/O, SSE, gRPC, and REST to enable interoperability between disparate tool servers. It includes a comprehensive LLM evaluation framework for
Performs descriptive statistical analysis to identify data distributions and correlations.