8 repositorios
Techniques and processes for cleaning, transforming, and analyzing raw datasets to derive insights.
Distinct from Python Code Analysis Libraries: The candidates focused on code analysis or specific libraries; this is about the domain of data analysis workflows.
Explore 8 awesome GitHub repositories matching data & databases · Data Analysis Workflows. Refine with filters or upvote what's useful.
This repository is a comprehensive collection of instructional guides and practical examples for Python development, focusing on machine learning, data science, and web scraping. It provides implementations for neural networks, reinforcement learning algorithms, and deep learning architectures using PyTorch, alongside detailed manuals for scientific computing and data visualization. The project distinguishes itself by offering specialized tutorials on concurrent programming to optimize CPU performance and guides for setting up Linux development environments. It covers the implementation of ad
Implements end-to-end workflows for cleaning, transforming, and analyzing tabular datasets.
This project is a Python education repository and programming tutorial designed to teach language fundamentals, from basic syntax and variables to advanced concepts. It serves as a data science starter kit and a guide for REST API integration. The repository provides instructional scripts and sample code covering object-oriented programming patterns and asynchronous programming. It includes practical demonstrations for fetching and processing JSON data from external web services using HTTP requests. The materials cover a broad capability surface including data analysis workflows with interac
Provides a workflow for cleaning, transforming, and analyzing raw datasets using interactive notebooks.
This project is a collection of educational notes and tutorials focused on Python programming, scientific computing, and data analysis. It serves as a reference for learning language basics, advanced techniques, and object-oriented design. The materials include implementation guides for building linear, logistic, and convolutional neural networks using symbolic graph frameworks. It also provides instruction on manipulating and visualizing structured data frames and performing complex mathematical operations through numerical libraries. The repository includes a system for converting interact
Provides a workflow for manipulating and visualizing structured data frames to uncover insights.
dlt es una herramienta de ingesta de datos en Python y framework de pipeline ETL diseñado para obtener datos de diversas fuentes y persistirlos en destinos estructurados. Funciona como un motor de inferencia de esquemas que detecta automáticamente tipos de datos y aplana estructuras JSON anidadas en tablas relacionales, moviendo datos desde fuentes a lakehouses, almacenes de datos o bases de datos vectoriales. El proyecto destaca por la generación de pipelines impulsada por IA, utilizando modelos de lenguaje de gran tamaño para crear código de extracción y conectores para APIs REST. También admite almacenamiento vectorial multimodal y población especializada de bases de datos vectoriales para soportar aplicaciones de IA y machine learning. El framework cubre una amplia gama de capacidades, incluyendo evolución automática de esquemas, carga incremental de datos mediante seguimiento de estado y validación de calidad de datos mediante la aplicación de contratos de datos. Proporciona herramientas para la normalización de datos relacionales, transformaciones pre y post-carga, y una variedad de adaptadores de destino para bases de datos SQL y almacenes de objetos en la nube. La observabilidad se maneja a través de paneles de ejecución de pipelines, seguimiento de linaje de columnas y verificación de versiones de esquema mediante hashes basados en contenido.
Profiles tables and plans charts using query code to uncover trends within a pipeline.
Este proyecto es una colección de frameworks y pipelines de big data, que incluye un framework de análisis de Apache Hive, una plataforma de análisis de datos de comportamiento, un motor de análisis predictivo y pipelines de datos en tiempo real. Proporciona la infraestructura para construir flujos de trabajo ETL (Extract, Transform, Load) para procesar grandes conjuntos de datos para almacenamiento distribuido y análisis basado en SQL. El sistema admite diversas implementaciones analíticas, como un motor predictivo que utiliza regresión lineal para la previsión de valores y una arquitectura en tiempo real que mueve datos a través de intermediarios de mensajes para informes inmediatos. Incluye capacidades especializadas para análisis de comportamiento del usuario, medición de rendimiento de comercio electrónico y análisis de datos de tránsito urbano. El código base cubre una amplia superficie de ingeniería y análisis de datos, incluyendo limpieza y transformación de datos, ingesta de datos distribuida, procesamiento de flujos basado en ventanas y visualización de resultados mediante herramientas de inteligencia de negocios. Además, permite el cálculo de métricas de negocio específicas como tasas de conversión, rendimiento de monetización y niveles de compromiso del usuario.
Provides comprehensive workflows for cleaning, transforming, and querying large datasets to extract business insights.
Este proyecto es una colección completa de materiales educativos de programación en Python, incluyendo tutoriales, ejercicios y muestras de código curadas. Sirve como un plan de estudios de aprendizaje y kit de herramientas de ingeniería de software, utilizando Jupyter Notebooks para combinar código ejecutable con texto educativo descriptivo. El repositorio proporciona guías de implementación prácticas para construir aplicaciones de modelos de lenguaje grandes, como sistemas de generación aumentada por recuperación, agentes de IA con estado y flujos de trabajo de aprendizaje automático. Se distingue por ofrecer un enfoque estructurado para flujos de trabajo de codificación agentica, cubriendo destilación de ventana de contexto, enrutamiento de modelos agnóstico al proveedor y salidas estructuradas forzadas por esquema. Los materiales cubren una amplia gama de capacidades de ingeniería de software, incluyendo programación asíncrona con colas de tareas distribuidas, desarrollo de aplicaciones web con API REST y flujos de trabajo de análisis de datos. También incluye recursos para dominar el diseño orientado a objetos, implementar tuberías de CI/CD y aplicar estándares profesionales de linting y formato.
Provides structured workflows for cleaning and analyzing raw datasets to derive statistical insights.
This project is a structured data science curriculum and Python-based textbook designed to teach the fundamentals of data science through executable scripts and hands-on lessons. It functions as a guided programming tutorial for data manipulation and analysis within the Python ecosystem. The content covers introductory machine learning, including the implementation of basic models and algorithms, alongside Python data analysis for cleaning and processing datasets. The material is delivered via Jupyter Notebooks, combining modular exercises and markdown-driven documentation to map theoretical
Demonstrates how to use Python libraries to clean, process, and analyze datasets.
This is a comprehensive Python programming course and technical curriculum designed to take users from foundational syntax to advanced development patterns. It serves as a multi-disciplinary educational suite covering programming fundamentals, object-oriented design, and data analysis. The project provides specialized guides on professional development techniques, including the use of decorators, generators for memory management, and dunder-method operator overloading. It also includes instructional material on executing parallel tasks through concurrency and multiprocessing to reduce executi
Teaches the entire workflow of cleaning, transforming, and analyzing raw datasets to derive insights.