13 مستودعات
The process of cleaning and manipulating datasets to discover patterns and statistical insights.
Distinct from Automated Exploratory Analysis: Focuses on the manual exploratory process using pandas/NumPy, distinct from automated analysis frameworks.
Explore 13 awesome GitHub repositories matching data & databases · Exploratory Data Analysis. Refine with filters or upvote what's useful.
This project is a collection of interactive Python notebooks and educational resources designed for mastering data science, machine learning, and numerical computing. It provides a series of practical guides and tutorials covering deep learning, big data processing, and statistical analysis. The repository features specialized instructional suites for implementing classical machine learning algorithms, building deep learning model architectures, and managing AWS cloud infrastructure. It includes dedicated notebooks for data visualization and numerical computing exercises. The project covers
Provides techniques for cleaning and manipulating tabular data to visualize trends and extract statistical insights.
VisiData is a terminal-based interactive data analysis tool and browser designed for exploring, filtering, and sorting large tabular datasets. It functions as a structured data inspector that loads and flattens complex formats like JSON, XML, and PCAP into interactive sheets, as well as a terminal file manager for navigating directories and performing staged filesystem operations. The project distinguishes itself by rendering data visualizations, such as scatter plots and histograms, directly in the terminal using Unicode Braille characters. It provides a Python-based data wrangling environme
Provides tools for generating summary statistics, pivot tables, and frequency distributions to identify patterns in datasets.
This project is a pandas data analysis cookbook and Python data science guide. It provides a collection of programmatic recipes and examples for cleaning, manipulating, and analyzing structured data. The project focuses on providing a containerized analysis environment to ensure a consistent workspace and reproducible dependencies when executing data processing scripts. It covers a broad range of data science capabilities, including data ingestion from external sources, raw data cleaning, and exploratory data analysis. These recipes demonstrate how to perform structured data analysis through
Uses pandas for cleaning and manipulating datasets to discover patterns and statistical insights.
ggplot2 is a data visualization library for R based on a formal grammar of graphics. It provides a declarative plotting framework that allows users to create complex graphics by combining geometric objects, statistical summaries, and coordinate systems. The system is distinguished by a layered approach to composition, where visualizations are built incrementally by stacking independent geometric, statistical, and coordinate layers. It utilizes a hierarchical styling engine to manage non-data elements such as backgrounds, fonts, and margins, and includes a multi-panel faceting tool for splitti
Enables discovery of patterns and statistical insights through the creation of layered plots and faceted grids.
ggplot2 is an R data visualization library and statistical graphics engine. It implements a grammar of graphics that functions as a declarative plotting framework, allowing users to specify what a plot should contain rather than how to draw it. The system builds visualizations by mapping data variables to visual aesthetics through a structured set of layering rules. This approach enables the composition of complex graphics by stacking independent components, such as geometric objects and scales, on top of a shared coordinate system. The framework supports scientific plotting and exploratory
Facilitates the rapid generation of various plots to discover patterns and statistical insights in datasets.
هذا المشروع عبارة عن مكتبة لتحليل البيانات بلغة Python وإطار عمل لتحليل البيانات الاستكشافي مصمم لمعالجة مجموعات البيانات الخام. يوفر مجموعة من الأدوات لفحص البيانات، وتحديد الشذوذ، وتطبيق الأساليب الإحصائية للكشف عن الأنماط. يعمل المستودع كمجموعة أدوات لنمذجة التعلم الآلي ومجموعة لنمذجة البيانات الإحصائية. ويتضمن خوارزميات تنبؤية ونماذج رياضية تستخدم لتحليل العلاقات بين متغيرات البيانات واستخلاص رؤى من مجموعات البيانات المعقدة. يغطي المشروع مجموعة واسعة من الإمكانيات بما في ذلك علوم البيانات، ونمذجة التعلم الآلي، وتحليل البيانات الاستكشافي. يتم تنفيذ هذه الإمكانيات من خلال معالجة البيانات، والحوسبة العددية، وتصور البيانات.
Provides a framework for cleaning and manipulating datasets to discover patterns and identify statistical anomalies.
هذه مكتبة تصور لقواعد الرسومات تُستخدم لبناء المخططات عن طريق تعيين البيانات الجدولية إلى علامات مرئية. تعمل كأداة تصور بيانات SVG وواجهة برمجة تطبيقات لتحليل البيانات الاستكشافية، مما يسمح للمستخدمين بتقديم تصورات معقدة وخرائط جغرافية. تتميز المكتبة بمُصيّر خرائط GeoJSON الذي يسقط الإحداثيات الكروية في مساحة بكسل ثنائية الأبعاد وواجهة تصور Apache Arrow لمعالجة البيانات بكفاءة عالية. تغطي قدراتها تحويل البيانات من خلال التجميع (binning) والتصنيف، والترميز المرئي عبر استنتاج المقياس التلقائي وتطبيق نظام الألوان، وتوليد مضاعفات صغيرة. تدعم تقديم الأشكال الهندسية في طرق عرض ذات طبقات وتصدير الصور الثابتة في بيئات جانب الخادم.
Provides an API for rapidly transforming tabular data into charts to discover patterns and statistical insights.
dtale هو شبكة تفاعلية قائمة على الويب ومصور لإطارات بيانات pandas، مصمم كأداة تحليل بيانات استكشافية. يوفر واجهة قائمة على المتصفح لتحليل هياكل البيانات الجدولية، مما يسمح للمستخدمين بحساب الإحصائيات، واكتشاف القيم المتطرفة، وحساب الارتباطات دون كتابة كود يدوي. يعمل المشروع كعارض بيانات مضمن يمكن دمجه في تطبيقات الويب عبر iframes أو مسارات مخصصة، مع دعم محدد لـ Django و Flask و Streamlit. يتيح استكشاف مجموعات البيانات من خلال مزيج من شبكة بيانات تفاعلية ومكتبة تصور بيانات قادرة على إنشاء رسوم بيانية، ومخططات صندوقية، ومخططات تشتت ثلاثية الأبعاد. تغطي المنصة مجموعة واسعة من قدرات إدارة وتحليل البيانات، بما في ذلك تنظيف البيانات الجدولية، وإعادة التشكيل، والتصفية التفاعلية. يتضمن أدوات مراقبة لتحليل البيانات المفقودة، وحساب الارتباط، وتسجيل القوة التنبؤية. لإدارة الجلسة، يدعم تتبع المثيلات المتعددة واستمرارية الحالة عبر عمليات العامل المتزامنة. الواجهة محمية بمصادقة اسم المستخدم وكلمة المرور وتدعم استيعاب البيانات من الملفات المحددة، وجداول البيانات، ومخازن بيانات ArcticDB.
Provides a visual interface for identifying patterns, outliers, and missing values in datasets.
r4ds هو منهج لعلوم البيانات ومورد تعليمي مصمم لإتقان لغة البرمجة R. يوفر مسار تعلم منظماً للعملية الشاملة لاستيراد البيانات، وتنظيمها، وتحويلها، وتصورها. يركز المشروع على دليل علوم البيانات القابل للتكرار ومنهج شامل لمعالجة البيانات. يتضمن دروساً تعليمية متخصصة حول قواعد الرسومات لتصور البيانات الطبقي والمنشورات التقنية التي تم إنشاؤها باستخدام Quarto والتي تمزج بين الكود القابل للتنفيذ والنثر السردي. تغطي المادة مجموعة واسعة من القدرات التحليلية، بما في ذلك استيعاب البيانات من مصادر متنوعة، وربط البيانات العلائقية، وإدارة المتغيرات الفئوية. كما تتناول تنظيف البيانات، والنمذجة الرياضية، وإنشاء تقارير وعروض تقديمية احترافية متعددة التنسيقات. يركز المنهج على التطبيق العملي للبرمجة الوظيفية ومبادئ البيانات المرتبة (Tidy data) لإنشاء تحليلات شفافة وقابلة للتكرار.
Teaches the iterative process of manipulating and visualizing datasets to discover statistical patterns and insights.
Danfo.js هي مكتبة لتحليل البيانات والمعالجة المسبقة لـ JavaScript توفر هياكل بيانات مصنفة عالية الأداء. تنفذ إطارات البيانات (DataFrames) والسلاسل لتمكين تحليل البيانات المعقد، والحوسبة الإحصائية، ومعالجة البيانات الجدولية المهيكلة. تعمل المكتبة كمكتبة للمعالجة المسبقة لتعلم الآلة، حيث تقدم أدوات لتشفير التسميات الفئوية، والتشفير الأحادي (One-hot encoding)، وتوسيع نطاق الميزات الرقمية وتوحيدها. تسهل بشكل خاص تحويل هياكل البيانات المصنفة إلى tensors لتدريب النماذج وتقييمها. تغطي المكتبة مجموعة واسعة من القدرات بما في ذلك الإحصاءات الوصفية، والعمليات العلائقية مثل الدمج والربط، ومعالجة السلاسل الزمنية. تتضمن أدوات لتنظيف البيانات، والتصفية، والتجميع، بالإضافة إلى واجهة مرئية لإنشاء مخططات ورسوم بيانية تفاعلية مباشرة من إطارات البيانات. يدعم النظام استيراد وتصدير البيانات عبر تنسيقات CSV وJSON وExcel.
Provides tools for calculating descriptive statistics and generating charts to discover patterns in datasets.
This is an interactive notebook-based course that teaches machine learning from Python fundamentals through deep learning and natural language processing. It uses real datasets and multiple frameworks within a structured, hands-on curriculum that combines concise explanations with executable code cells, built-in datasets, and embedded exercise checkpoints. Learning progresses through data preparation and exploration, classical machine learning workflows, computer vision with convolutional neural networks, and natural language processing with deep learning, all delivered as a cohesive progressi
Guides users through cleaning and manipulating datasets to discover patterns and optimize features for modeling.
missingno هي مكتبة Python لتصور وتحليل أنماط البيانات المفقودة. توفر مجموعة من الأدوات لتوصيف اكتمال مجموعة البيانات، ورسم خرائط فجوات البيانات، وقياس حجم القيم الفارغة عبر المتغيرات. تتميز المكتبة بمحلل ارتباط الفراغ وأداة تجميع البيانات الهرمية. تسمح هذه المكونات باكتشاف التبعيات والاتجاهات النظامية من خلال قياس كيفية ارتباط غياب متغير واحد بغياب متغير آخر. تغطي مجموعة الأدوات إمكانيات أوسع لتدقيق جودة البيانات والتحليل الاستكشافي. تتضمن ميزات لتلخيص فراغ الأعمدة باستخدام مقاييس خطية ولوغاريتمية، بالإضافة إلى رسم خرائط قائم على المصفوفة لتحديد الفجوات النظامية في السجلات.
Enables exploratory data analysis by visualizing the distribution and volume of null values.
mcp-context-forge is a Model Context Protocol federation gateway that unifies diverse AI tool servers and APIs into a single consistent interface for discovery and execution. It acts as a centralized proxy that aggregates multiple servers and APIs, allowing AI agents to access and invoke a unified set of tools, prompts, and resources. The project distinguishes itself through a multi-protocol translation bridge that converts communication between standard I/O, SSE, gRPC, and REST to enable interoperability between disparate tool servers. It includes a comprehensive LLM evaluation framework for
Performs descriptive statistical analysis to identify data distributions and correlations.