8 مستودعات
Techniques and processes for cleaning, transforming, and analyzing raw datasets to derive insights.
Distinct from Python Code Analysis Libraries: The candidates focused on code analysis or specific libraries; this is about the domain of data analysis workflows.
Explore 8 awesome GitHub repositories matching data & databases · Data Analysis Workflows. Refine with filters or upvote what's useful.
This repository is a comprehensive collection of instructional guides and practical examples for Python development, focusing on machine learning, data science, and web scraping. It provides implementations for neural networks, reinforcement learning algorithms, and deep learning architectures using PyTorch, alongside detailed manuals for scientific computing and data visualization. The project distinguishes itself by offering specialized tutorials on concurrent programming to optimize CPU performance and guides for setting up Linux development environments. It covers the implementation of ad
Implements end-to-end workflows for cleaning, transforming, and analyzing tabular datasets.
This project is a Python education repository and programming tutorial designed to teach language fundamentals, from basic syntax and variables to advanced concepts. It serves as a data science starter kit and a guide for REST API integration. The repository provides instructional scripts and sample code covering object-oriented programming patterns and asynchronous programming. It includes practical demonstrations for fetching and processing JSON data from external web services using HTTP requests. The materials cover a broad capability surface including data analysis workflows with interac
Provides a workflow for cleaning, transforming, and analyzing raw datasets using interactive notebooks.
This project is a collection of educational notes and tutorials focused on Python programming, scientific computing, and data analysis. It serves as a reference for learning language basics, advanced techniques, and object-oriented design. The materials include implementation guides for building linear, logistic, and convolutional neural networks using symbolic graph frameworks. It also provides instruction on manipulating and visualizing structured data frames and performing complex mathematical operations through numerical libraries. The repository includes a system for converting interact
Provides a workflow for manipulating and visualizing structured data frames to uncover insights.
dlt هي أداة لاستيعاب البيانات بلغة Python وإطار عمل لخط أنابيب ETL مصمم لجلب البيانات من مصادر متنوعة وحفظها في وجهات مهيكلة. تعمل كمحرك لاستنتاج المخطط (schema inference) يكتشف تلقائياً أنواع البيانات ويسطح هياكل JSON المتداخلة في جداول علائقية، ناقلاً البيانات من المصادر إلى بحيرات البيانات، أو المستودعات، أو قواعد بيانات المتجهات. يتميز المشروع بتوليد خط أنابيب مدعوم بالذكاء الاصطناعي، باستخدام نماذج لغات كبيرة لسقالات كود الاستخراج والموصلات لـ REST APIs. كما يدعم تخزين المتجهات متعدد الوسائط والتعبئة المتخصصة لقواعد بيانات المتجهات لدعم تطبيقات الذكاء الاصطناعي والتعلم الآلي. يغطي إطار العمل مجموعة واسعة من القدرات بما في ذلك تطور المخطط المؤتمت، وتحميل البيانات التزايدي عبر تتبع الحالة، والتحقق من جودة البيانات من خلال فرض عقود البيانات. يوفر أدوات لتطبيع البيانات العلائقية، وتحويلات ما قبل وما بعد التحميل، ومجموعة متنوعة من محولات الوجهة لقواعد بيانات SQL ومخازن الكائنات السحابية. تتم إدارة المراقبة من خلال لوحات معلومات تنفيذ خط الأنابيب، وتتبع نسب الأعمدة، والتحقق من إصدار المخطط باستخدام التجزئات القائمة على المحتوى.
Profiles tables and plans charts using query code to uncover trends within a pipeline.
هذا المشروع عبارة عن مجموعة من أطر عمل وخطوط أنابيب البيانات الضخمة، بما في ذلك إطار عمل تحليل Apache Hive، ومنصة تحليلات سلوكية، ومحرك تحليلات تنبؤية، وخطوط أنابيب بيانات في الوقت الفعلي. يوفر البنية التحتية لبناء سير عمل الاستخراج والتحويل والتحميل (ETL) لمعالجة مجموعات البيانات الكبيرة للتخزين الموزع والتحليل القائم على SQL. يدعم النظام تطبيقات تحليلية متنوعة، مثل محرك تنبؤي يستخدم الانحدار الخطي لتوقع القيم، وبنية في الوقت الفعلي تنقل البيانات عبر وسطاء الرسائل للتقارير الفورية. يتضمن قدرات متخصصة لتحليلات سلوك المستخدم، وقياس أداء التجارة الإلكترونية، وتحليل بيانات النقل الحضري. يغطي الكود المصدري نطاقاً واسعاً من هندسة وتحليل البيانات، بما في ذلك تنظيف البيانات وتحويلها، واستيعاب البيانات الموزع، ومعالجة التدفق القائم على النوافذ، وتصور النتائج من خلال أدوات ذكاء الأعمال. كما يتيح حساب مقاييس أعمال محددة مثل معدلات التحويل، وأداء تحقيق الدخل، ومستويات تفاعل المستخدم.
Provides comprehensive workflows for cleaning, transforming, and querying large datasets to extract business insights.
هذا المشروع عبارة عن مجموعة شاملة من مواد تعليم برمجة Python، بما في ذلك البرامج التعليمية، والتمارين، وعينات الكود المنسقة. يعمل كمنهج تعليمي ومجموعة أدوات هندسة برمجيات، باستخدام Jupyter Notebooks لدمج الكود القابل للتنفيذ مع نص تعليمي وصفي. يوفر المستودع أدلة تنفيذ عملية لبناء تطبيقات نماذج لغوية كبيرة، مثل أنظمة التوليد المعزز بالاسترجاع، ووكلاء الذكاء الاصطناعي ذوي الحالة، وسير عمل التعلم الآلي. يتميز بتقديم نهج منظم لسير عمل الترميز الوكيل، وتغطية تقطير نافذة السياق، وتوجيه النموذج المستقل عن المزود، والمخرجات المهيكلة المفروضة بالمخطط. تغطي المواد مجموعة واسعة من قدرات هندسة البرمجيات، بما في ذلك البرمجة غير المتزامنة مع طوابير المهام الموزعة، وتطوير تطبيقات الويب مع REST APIs، وسير عمل تحليل البيانات. كما يتضمن موارد لإتقان التصميم الموجه للكائنات، وتنفيذ خطوط أنابيب CI/CD، وتطبيق معايير التنسيق والتدقيق المهنية.
Provides structured workflows for cleaning and analyzing raw datasets to derive statistical insights.
This project is a structured data science curriculum and Python-based textbook designed to teach the fundamentals of data science through executable scripts and hands-on lessons. It functions as a guided programming tutorial for data manipulation and analysis within the Python ecosystem. The content covers introductory machine learning, including the implementation of basic models and algorithms, alongside Python data analysis for cleaning and processing datasets. The material is delivered via Jupyter Notebooks, combining modular exercises and markdown-driven documentation to map theoretical
Demonstrates how to use Python libraries to clean, process, and analyze datasets.
This is a comprehensive Python programming course and technical curriculum designed to take users from foundational syntax to advanced development patterns. It serves as a multi-disciplinary educational suite covering programming fundamentals, object-oriented design, and data analysis. The project provides specialized guides on professional development techniques, including the use of decorators, generators for memory management, and dunder-method operator overloading. It also includes instructional material on executing parallel tasks through concurrency and multiprocessing to reduce executi
Teaches the entire workflow of cleaning, transforming, and analyzing raw datasets to derive insights.