Why is donnemartin/data-science-ipython-notebooks a recommended Exploratory Data Analysis GitHub Repositories repository?

Provides techniques for cleaning and manipulating tabular data to visualize trends and extract statistical insights.

Why is saulpw/visidata a recommended Exploratory Data Analysis GitHub Repositories repository?

Provides tools for generating summary statistics, pivot tables, and frequency distributions to identify patterns in datasets.

Why is tidyverse/ggplot2 a recommended Exploratory Data Analysis GitHub Repositories repository?

Enables discovery of patterns and statistical insights through the creation of layered plots and faceted grids.

Why is hadley/ggplot2 a recommended Exploratory Data Analysis GitHub Repositories repository?

Facilitates the rapid generation of various plots to discover patterns and statistical insights in datasets.

Why is observablehq/plot a recommended Exploratory Data Analysis GitHub Repositories repository?

Provides an API for rapidly transforming tabular data into charts to discover patterns and statistical insights.

Why is man-group/dtale a recommended Exploratory Data Analysis GitHub Repositories repository?

Provides a visual interface for identifying patterns, outliers, and missing values in datasets.

Why is hadley/r4ds a recommended Exploratory Data Analysis GitHub Repositories repository?

Teaches the iterative process of manipulating and visualizing datasets to discover statistical patterns and insights.

Why is javascriptdata/danfojs a recommended Exploratory Data Analysis GitHub Repositories repository?

Provides tools for calculating descriptive statistics and generating charts to discover patterns in datasets.

13 repository-uri

Awesome GitHub RepositoriesExploratory Data Analysis

The process of cleaning and manipulating datasets to discover patterns and statistical insights.

Distinct from Automated Exploratory Analysis: Focuses on the manual exploratory process using pandas/NumPy, distinct from automated analysis frameworks.

Explore 13 awesome GitHub repositories matching data & databases · Exploratory Data Analysis. Refine with filters or upvote what's useful.

Găsește cele mai bune repo-uri cu AI.Vom căuta cele mai potrivite repository-uri folosind AI.

donnemartin/data-science-ipython-notebooks
donnemartin/data-science-ipython-notebooks
29,166Vezi pe GitHub
This project is a collection of interactive Python notebooks and educational resources designed for mastering data science, machine learning, and numerical computing. It provides a series of practical guides and tutorials covering deep learning, big data processing, and statistical analysis. The repository features specialized instructional suites for implementing classical machine learning algorithms, building deep learning model architectures, and managing AWS cloud infrastructure. It includes dedicated notebooks for data visualization and numerical computing exercises. The project covers
Provides techniques for cleaning and manipulating tabular data to visualize trends and extract statistical insights.
Pythonawsbig-datacaffe
Vezi pe GitHub29,166
saulpw/visidata
saulpw/visidata
8,834Vezi pe GitHub
VisiData is a terminal-based interactive data analysis tool and browser designed for exploring, filtering, and sorting large tabular datasets. It functions as a structured data inspector that loads and flattens complex formats like JSON, XML, and PCAP into interactive sheets, as well as a terminal file manager for navigating directories and performing staged filesystem operations. The project distinguishes itself by rendering data visualizations, such as scatter plots and histograms, directly in the terminal using Unicode Braille characters. It provides a Python-based data wrangling environme
Provides tools for generating summary statistics, pivot tables, and frequency distributions to identify patterns in datasets.
Pythonclicsvdatajournalism
Vezi pe GitHub8,834
jvns/pandas-cookbook
jvns/pandas-cookbook
7,086Vezi pe GitHub
This project is a pandas data analysis cookbook and Python data science guide. It provides a collection of programmatic recipes and examples for cleaning, manipulating, and analyzing structured data. The project focuses on providing a containerized analysis environment to ensure a consistent workspace and reproducible dependencies when executing data processing scripts. It covers a broad range of data science capabilities, including data ingestion from external sources, raw data cleaning, and exploratory data analysis. These recipes demonstrate how to perform structured data analysis through
Uses pandas for cleaning and manipulating datasets to discover patterns and statistical insights.
Jupyter Notebook
Vezi pe GitHub7,086
tidyverse/ggplot2
tidyverse/ggplot2
6,948Vezi pe GitHub
ggplot2 is a data visualization library for R based on a formal grammar of graphics. It provides a declarative plotting framework that allows users to create complex graphics by combining geometric objects, statistical summaries, and coordinate systems. The system is distinguished by a layered approach to composition, where visualizations are built incrementally by stacking independent geometric, statistical, and coordinate layers. It utilizes a hierarchical styling engine to manage non-data elements such as backgrounds, fonts, and margins, and includes a multi-panel faceting tool for splitti
Enables discovery of patterns and statistical insights through the creation of layered plots and faceted grids.
R
Vezi pe GitHub6,948
hadley/ggplot2
hadley/ggplot2
6,948Vezi pe GitHub
ggplot2 is an R data visualization library and statistical graphics engine. It implements a grammar of graphics that functions as a declarative plotting framework, allowing users to specify what a plot should contain rather than how to draw it. The system builds visualizations by mapping data variables to visual aesthetics through a structured set of layering rules. This approach enables the composition of complex graphics by stacking independent components, such as geometric objects and scales, on top of a shared coordinate system. The framework supports scientific plotting and exploratory
Facilitates the rapid generation of various plots to discover patterns and statistical insights in datasets.
R
Vezi pe GitHub6,948
willkoehrsen/data-analysis
WillKoehrsen/Data-Analysis
5,543Vezi pe GitHub
Acest proiect este o bibliotecă Python de analiză a datelor și un framework de analiză exploratorie a datelor conceput pentru procesarea seturilor de date brute. Oferă o suită de instrumente pentru examinarea datelor, identificarea anomaliilor și aplicarea metodelor statistice pentru a descoperi tipare. Repository-ul funcționează ca un toolkit de modelare machine learning și o suită de modelare statistică a datelor. Include algoritmi predictivi și modele matematice utilizate pentru a analiza relațiile dintre variabilele de date și a deriva insight-uri din seturi de date complexe. Proiectul acoperă o gamă largă de capabilități, inclusiv data science, modelare machine learning și analiză exploratorie a datelor. Acestea sunt implementate prin manipularea datelor, calcul numeric și vizualizarea datelor.
Provides a framework for cleaning and manipulating datasets to discover patterns and identify statistical anomalies.
Jupyter Notebook
Vezi pe GitHub5,543
observablehq/plot
observablehq/plot
5,305Vezi pe GitHub
Aceasta este o bibliotecă de vizualizare de tip grammar of graphics utilizată pentru a construi grafice prin maparea datelor tabelare la marcaje vizuale. Funcționează ca un instrument de vizualizare a datelor SVG și un API de analiză exploratorie a datelor, permițând utilizatorilor să randeze vizualizări complexe și hărți geografice. Biblioteca dispune de un renderer de hărți GeoJSON care proiectează coordonatele sferice într-un spațiu de pixeli bidimensional și o interfață de vizualizare Apache Arrow pentru procesarea datelor de înaltă eficiență. Suprafața sa de capabilități acoperă transformarea datelor prin binning și grupare, codificarea vizuală prin inferența automată a scalei și aplicarea schemelor de culori, precum și generarea de small multiples. Suportă randarea formelor geometrice în vizualizări stratificate și exportul imaginilor statice în medii server-side.
Provides an API for rapidly transforming tabular data into charts to discover patterns and statistical insights.
HTMLchartsd3data-visualization
Vezi pe GitHub5,305
man-group/dtale
man-group/dtale
5,170Vezi pe GitHub
dtale este o grilă interactivă bazată pe web și un vizualizator pentru dataframe-urile pandas, conceput ca un instrument de analiză exploratorie a datelor. Oferă o interfață bazată pe browser pentru analizarea structurilor de date tabelare, permițând utilizatorilor să calculeze statistici, să detecteze valori aberante și să calculeze corelații fără a scrie cod manual. Proiectul funcționează ca un vizualizator de date încorporat care poate fi integrat în aplicații web prin iframes sau rute personalizate, cu suport specific pentru Django, Flask și Streamlit. Permite explorarea seturilor de date printr-o combinație de grilă de date interactivă și o bibliotecă de vizualizare a datelor capabilă să genereze histograme, box plots și grafice scatter 3D. Platforma acoperă o gamă largă de capabilități de gestionare și analiză a datelor, inclusiv curățarea datelor tabelare, remodelarea și filtrarea interactivă. Include instrumente de observabilitate pentru analiza datelor lipsă, calculul corelației și scorarea puterii predictive. Pentru gestionarea sesiunilor, suportă urmărirea multi-instanță și persistența stării între procesele worker concurente. Interfața este protejată prin autentificare cu nume de utilizator și parolă și suportă ingestia de date din fișiere delimitate, foi de calcul și datastore-uri ArcticDB.
Provides a visual interface for identifying patterns, outliers, and missing values in datasets.
TypeScriptdata-analysisdata-sciencedata-visualization
Vezi pe GitHub5,170
hadley/r4ds
hadley/r4ds
5,070Vezi pe GitHub
r4ds este un curriculum de știința datelor și o resursă educațională concepută pentru stăpânirea limbajului de programare R. Oferă o cale de învățare structurată pentru procesul end-to-end de importare, curățare, transformare și vizualizare a datelor. Proiectul pune accent pe un ghid de știința datelor reproductibil și un curriculum cuprinzător pentru manipularea datelor (data wrangling). Include tutoriale specializate despre gramatica graficelor pentru vizualizarea stratificată a datelor și publicații tehnice create cu Quarto care îmbină codul executabil cu proza narativă. Materialul acoperă o gamă largă de capabilități analitice, inclusiv ingestia de date din surse diverse, unirea datelor relaționale și gestionarea variabilelor categorice. De asemenea, abordează curățarea datelor, modelarea matematică și generarea de rapoarte și prezentări profesionale în formate multiple. Curriculum-ul se concentrează pe aplicarea practică a programării funcționale și a principiilor „tidy data” pentru a crea analize transparente și repetabile.
Teaches the iterative process of manipulating and visualizing datasets to discover statistical patterns and insights.
R
Vezi pe GitHub5,070
javascriptdata/danfojs
javascriptdata/danfojs
5,050Vezi pe GitHub
Danfo.js este o bibliotecă de analiză și preprocesare a datelor pentru JavaScript care oferă structuri de date etichetate de înaltă performanță. Implementează data frame-uri și serii pentru a permite analiza complexă a datelor, calculul statistic și manipularea datelor tabulare structurate. Proiectul servește ca o bibliotecă de preprocesare pentru învățarea automată, oferind utilitare pentru codificarea etichetelor categorice, one-hot encoding și scalarea și standardizarea caracteristicilor numerice. Acesta facilitează în mod specific conversia structurilor de date etichetate în tensori pentru antrenarea și evaluarea modelelor. Biblioteca acoperă un set larg de capabilități, inclusiv statistici descriptive, operațiuni relaționale precum îmbinarea și unirea, și procesarea seriilor temporale. Include instrumente pentru curățarea, filtrarea și gruparea datelor, precum și o interfață de vizualizare pentru generarea de grafice și diagrame interactive direct din data frame-uri. Sistemul suportă importul și exportul datelor prin formate CSV, JSON și Excel.
Provides tools for calculating descriptive statistics and generating charts to discover patterns in datasets.
TypeScriptdanfojsdata-analysisdata-analytics
Vezi pe GitHub5,050
nyandwi/machine_learning_complete
Nyandwi/machine_learning_complete
4,983Vezi pe GitHub
This is an interactive notebook-based course that teaches machine learning from Python fundamentals through deep learning and natural language processing. It uses real datasets and multiple frameworks within a structured, hands-on curriculum that combines concise explanations with executable code cells, built-in datasets, and embedded exercise checkpoints. Learning progresses through data preparation and exploration, classical machine learning workflows, computer vision with convolutional neural networks, and natural language processing with deep learning, all delivered as a cohesive progressi
Guides users through cleaning and manipulating datasets to discover patterns and optimize features for modeling.
Jupyter Notebookcomputer-visiondata-analysisdata-science
Vezi pe GitHub4,983
residentmario/missingno
ResidentMario/missingno
4,209Vezi pe GitHub
missingno este o bibliotecă Python pentru vizualizarea și analiza modelelor de date lipsă. Oferă un set de instrumente pentru a profila completitudinea seturilor de date, a mapa lacunele de date și a cuantifica volumul valorilor nule în variabile. Biblioteca se diferențiază printr-un analizor de corelație a nulității și un instrument de clustering ierarhic al datelor. Aceste componente permit detectarea dependențelor și tendințelor sistemice prin măsurarea modului în care absența unei variabile se raportează la absența alteia. Setul de instrumente acoperă capabilități mai largi de auditare a calității datelor și analiză exploratorie. Include funcționalități pentru sumarizarea nulității coloanelor folosind scale liniare și logaritmice, precum și mapare bazată pe matrice pentru a identifica lacunele sistemice în înregistrări.
Enables exploratory data analysis by visualizing the distribution and volume of null values.
Pythondata-analysisdata-visualizationmissing-data
Vezi pe GitHub4,209
ibm/mcp-context-forge
IBM/mcp-context-forge
3,310Vezi pe GitHub
mcp-context-forge is a Model Context Protocol federation gateway that unifies diverse AI tool servers and APIs into a single consistent interface for discovery and execution. It acts as a centralized proxy that aggregates multiple servers and APIs, allowing AI agents to access and invoke a unified set of tools, prompts, and resources. The project distinguishes itself through a multi-protocol translation bridge that converts communication between standard I/O, SSE, gRPC, and REST to enable interoperability between disparate tool servers. It includes a comprehensive LLM evaluation framework for
Performs descriptive statistical analysis to identify data distributions and correlations.
Pythonagentsaiapi-gateway
Vezi pe GitHub3,310