17 repositorios
Mechanisms for appending computed results as new columns to tabular data structures.
Distinct from Distributed Dataframes: Existing candidates focus on disk storage or distributed dataframes, not the specific act of adding columns to an in-memory pandas DataFrame.
Explore 17 awesome GitHub repositories matching data & databases · DataFrame Integration. Refine with filters or upvote what's useful.
Perspective is a columnar data analytics engine and high-performance visualization component powered by WebAssembly. It provides a system for analyzing and visualizing large or streaming datasets through interactive data grids and charts, utilizing a compiled binary to achieve near-native performance within the browser. The project distinguishes itself through a WebSocket-based data streaming interface and deep Apache Arrow integration, which minimize memory overhead when synchronizing tables between servers and clients. It acts as a remote query proxy capable of translating visualization con
Converts pandas or polars DataFrame objects into internal high-performance tables while preserving indexing.
FastUI is a server-driven UI system and Pydantic UI framework that transforms backend data models into functional web interfaces. It operates as a model-based frontend generator where the server controls the layout and behavior of the user interface through structured data schemas, enabling a low-code approach to web development. The project allows for the definition of visual hierarchies and component properties on the backend, using a JSON-based protocol to communicate UI structure between the server and client. It utilizes schema-driven generation to automate the creation of interfaces, in
Displays tabular data from models with configurable columns, interactive links, and formatted fields.
Jeesite is a full-stack low-code development framework designed for building enterprise administrative portals using Spring Boot, MyBatis, and Vue. It functions as a comprehensive platform for creating administrative dashboards with integrated role-based access control and organizational data permission systems. The framework distinguishes itself through a combination of automated CRUD code generation and an integrated RAG platform that connects large language models to enterprise data via vector stores. It further incorporates a BPMN-based workflow engine to automate complex business process
Provides interactive data tables featuring sorting, pagination, and frozen columns for efficient administrative data management.
Mesop is a stateful, declarative Python web UI framework and component library designed for building interactive web applications and AI demos. It allows for the construction of data-driven interfaces and chat systems using only Python, removing the need to write separate HTML or CSS. The framework is specifically tailored for AI application development, offering dedicated tools for conversational UI design and the creation of dashboards for large language model applications. It distinguishes itself with a visual UI editor for real-time property adjustments and the ability to embed custom Jav
Renders data frames as interactive tables with sticky headers, columns, and clickable cells.
Pinot is a distributed, columnar analytical database designed for high-concurrency, low-latency query processing. It functions as a real-time OLAP datastore, enabling interactive, user-facing analytics by ingesting and querying massive datasets from both streaming and batch sources. The system architecture relies on a centralized controller for cluster coordination and a distributed segment-based storage model to ensure horizontal scalability. The platform distinguishes itself through a hybrid ingestion pipeline that unifies real-time event streams and historical batch data into a single quer
Converts Spark DataFrames into offline segment files and writes them to a specified filesystem path for ingestion.
dtale es una cuadrícula interactiva basada en web y visualizador para dataframes de pandas, diseñado como una herramienta de análisis de datos exploratorio. Proporciona una interfaz basada en navegador para analizar estructuras de datos tabulares, permitiendo a los usuarios calcular estadísticas, detectar valores atípicos y calcular correlaciones sin escribir código manual. El proyecto funciona como un visor de datos integrado que puede integrarse en aplicaciones web a través de iframes o rutas personalizadas, con soporte específico para Django, Flask y Streamlit. Permite la exploración de conjuntos de datos a través de una combinación de una cuadrícula de datos interactiva y una biblioteca de visualización de datos capaz de generar histogramas, diagramas de caja y gráficos de dispersión 3D. La plataforma cubre una amplia gama de capacidades de gestión y análisis de datos, incluyendo limpieza de datos tabulares, remodelación y filtrado interactivo. Incluye herramientas de observabilidad para el análisis de datos faltantes, cálculo de correlación y puntuación de poder predictivo. Para la gestión de sesiones, admite el seguimiento de múltiples instancias y la persistencia del estado en procesos de trabajo concurrentes. La interfaz está protegida por autenticación de nombre de usuario y contraseña y admite la ingesta de datos desde archivos delimitados, hojas de cálculo y almacenes de datos ArcticDB.
Connects to high-performance ArcticDB datastores to load and filter large-scale dataframes.
This is a pandas-based technical analysis library and financial feature engineering tool. It serves as a vectorized indicator calculator that transforms raw price and volume data into derived metrics for time series analysis. The library uses a NumPy-based engine to perform mathematical operations across entire arrays, avoiding iterative loops to maintain high performance. It organizes technical indicators into a modular class hierarchy with a consistent interface, allowing for bulk feature generation and the direct appending of results as new columns to a pandas DataFrame. The system covers
Appends computed indicator results as new columns to a pandas DataFrame to maintain time series alignment.
Mimesis es un generador de datos sintéticos en Python utilizado para crear conjuntos de datos falsos realistas y datos de prueba para el desarrollo y testing de software. Funciona como un generador de datasets basado en esquemas capaz de producir registros estructurados y conjuntos de datos relacionales, sirviendo también como anonimizador de datos de producción para reemplazar información sensible con valores sintéticos. La biblioteca se distingue por su soporte multilingüe integral, permitiendo la generación de información específica de una región para simular perfiles de usuario locales. Garantiza la reproducibilidad mediante la generación determinista de datos usando semillas, lo que permite crear conjuntos de datos consistentes en diferentes ejecuciones. La herramienta cubre una amplia gama de contenido sintético, incluyendo identidad personal, datos financieros, direcciones geográficas, metadatos de red y secuencias científicas. Sus capacidades se extienden a la transformación de datos mediante lógica condicional y tuberías (piping), así como la integración con dataframes y patrones de fábrica. Además, admite la generación de códigos de sistema estandarizados, tokens criptográficos y simulación de archivos binarios. El framework es extensible mediante proveedores de datos personalizados y manejadores de campos, permitiendo a los usuarios integrar lógica específica de dominio y archivos JSON externos para la generación de datos especializada.
Generates synthetic columns for use in tabular data structures like pandas DataFrames.
statsforecast es una biblioteca de pronóstico de series temporales estadísticas de alto rendimiento diseñada para generar pronósticos puntuales e intervalos de predicción. Funciona como un framework de series temporales distribuido que utiliza un motor de pronóstico basado en C y un selector de modelos automatizado para identificar y ajustar el modelo estadístico óptimo para cada serie única en un conjunto de datos. El sistema también incluye un detector de anomalías de series temporales para identificar puntos de datos inusuales comparando valores observados con intervalos de pronóstico probabilísticos. El proyecto se distingue por su capacidad para manejar pronósticos paralelos a gran escala para millones de series individuales. Esto se logra a través de un framework de computación distribuida, ejecución paralela multinúcleo y kernels en C compilados que aceleran la lógica central de ARIMA y suavizado exponencial. El sistema optimiza aún más el procesamiento a gran escala utilizando un diseño de datos en formato largo y un pipeline de datos de evaluación perezosa (lazy-evaluation) para reducir la sobrecarga de memoria. La biblioteca proporciona un conjunto completo de modelos, incluyendo AutoARIMA, varios métodos de suavizado exponencial para demanda intermitente o estacional, descomposición Theta y modelado de volatilidad GARCH para riesgo financiero. Cubre áreas de capacidad más amplias como el pronóstico multivariado con variables exógenas, descomposición de series temporales y evaluación de modelos mediante validación cruzada histórica y análisis de ventana deslizante. La biblioteca se integra con estructuras de datos de alto rendimiento como Polars y proporciona utilidades para servir modelos guardados como endpoints REST para predicciones accesibles por red.
Integrates with Polars data structures to accelerate memory management and processing during forecasting.
Plotnine es una librería de visualización de datos para Python basada en la Gramática de Gráficos. Sirve como un framework de trazado estadístico declarativo y motor de trazado multipanel, permitiendo a los usuarios crear gráficos complejos mapeando variables de datos a propiedades visuales como posición, color y tamaño. El proyecto se distingue por su uso de un modelo de composición en capas y un motor de transformación estadística que realiza agregaciones y cálculos antes de renderizar visuales. Cuenta con un sistema integral para faceting multipanel, que permite dividir una sola visualización en una cuadrícula de sub-gráficos basados en variables categóricas. La librería cubre una amplia gama de capacidades, incluyendo diversas representaciones geométricas para gráficos de distribución, área y dispersión, así como visualización geoespacial para renderizar límites geográficos. Proporciona herramientas extensas para mapeo de escalas, proyecciones de coordenadas y estilo basado en temas para separar los elementos impulsados por datos de las propiedades estéticas no relacionadas con los datos. El framework utiliza un backend de Matplotlib para el renderizado e integra con dataframes tabulares mediante operaciones de tubería (piping).
Integrates tabular dataframes via piping operations, converting external pandas or polars objects into internal plotting formats.
aws-sdk-pandas es una librería de Python que integra dataframes de pandas con servicios de AWS, actuando como una herramienta ETL de datos en la nube y conector de data lake. Proporciona una interfaz unificada para mover y transformar datos entre dataframes en memoria y almacenamiento en la nube, bases de datos y almacenes de datos. El proyecto se distingue como un orquestador de cómputo distribuido capaz de enviar cargas de trabajo basadas en pandas a clusters EMR y entornos de procesamiento sin servidor. Se especializa además en coordinar el procesamiento de datos distribuido mediante la inicialización de clusters Ray para manejar datasets que exceden la memoria de una sola máquina. La librería cubre una amplia gama de capacidades, incluyendo gestión de almacenamiento de objetos para S3, ejecución de consultas SQL para Athena y Redshift, e integración con bases de datos NoSQL, de grafos y de series temporales. También incluye utilidades para la gestión de metadatos a través del catálogo Glue, indexación de datos en OpenSearch y la gestión de activos de inteligencia de negocios en QuickSight. La funcionalidad adicional incluye la recuperación de secretos, el análisis de registros de CloudWatch y la gestión de conjuntos de reglas de calidad de datos.
Wraps multiple cloud service APIs to convert remote query results directly into Pandas dataframes.
dcat-admin is a Laravel admin panel framework used to rapidly build data-driven administration interfaces. It functions as a CRUD generator and backend scaffolding tool that automatically produces create, read, update, and delete interfaces based on database table schemas. The system distinguishes itself through a plugin-based extension architecture and the ability to run multiple independent administrative instances within a single installation. It provides specialized tools for mapping external APIs to forms and tables, as well as an event-driven form lifecycle for executing custom logic du
Renders database records in an expandable tree structure with lazy-loading for child nodes.
Vizro is a low-code Python framework for building production-ready data visualization applications. It functions as a UI orchestrator that allows users to define multi-page analytical dashboards through structured configurations in Python, YAML, or JSON, reducing the need for extensive frontend engineering. The project distinguishes itself through generative AI integration, utilizing a model context protocol server to translate natural language descriptions into validated dashboard configurations, charts, and layouts. It also features a decoupled data cataloging system that separates data sou
Displays dataframes in interactive tables with pre-configured sorting and pagination.
This project is a Python library that wraps official NBA endpoints to retrieve player, team, and game statistics as structured data. It serves as a programmatic interface for fetching professional basketball league records and real-time scoreboards via HTTP requests. The library integrates with Pandas to transform raw JSON responses from sports servers into DataFrames for statistical analysis and data science. It functions as a data retrieval utility for tracking league-wide performance trends and scouting professional basketball players. The tool covers a broad range of capabilities includi
Transforms raw JSON responses from sports servers into Pandas DataFrames for statistical analysis and data science.
This is a structured deep learning curriculum for programmers, delivered as a collection of Jupyter notebooks. It teaches the fundamentals of training neural networks for computer vision, natural language processing, tabular data analysis, and collaborative filtering using PyTorch and the fastai library. The course is designed to be hands-on, guiding learners from building a training loop from scratch to fine-tuning pretrained models for a variety of practical tasks. The curriculum distinguishes itself by covering the full lifecycle of a deep learning project, from data preparation and augmen
Reads column values from DataFrame rows as labels for supervised learning tasks.
Este proyecto es una colección de componentes de interfaz accesibles y reutilizables creados para el framework Svelte. Funciona como una implementación de sistema de diseño integral, proporcionando un kit de herramientas estandarizado para construir interfaces de usuario responsivas e inclusivas que cumplen con el lenguaje de diseño establecido y las pautas de accesibilidad. La librería destaca por su profunda integración con Svelte, utilizando transformaciones basadas en el compilador para optimizar el renderizado de componentes y la sincronización del estado reactivo. Cuenta con un robusto sistema de gestión de temas que aplica estilos visuales mediante propiedades personalizadas de CSS, permitiendo el cambio dinámico de temas en tiempo de ejecución. Además, la librería emplea renderizado basado en portales para elementos de UI flotantes, asegurando que las superposiciones no se vean obstruidas por las restricciones de los contenedores padres. El conjunto de componentes cubre una amplia gama de requisitos de interfaz, incluyendo la gestión de tablas de datos estructurados, la construcción de formularios dinámicos con validación integrada y contenedores de diseño responsivo. También proporciona utilidades especializadas para rastrear puntos de interrupción (breakpoints) de pantalla, gestionar la persistencia del estado de la aplicación y enviar notificaciones al usuario a través de sistemas modales o en línea. La librería está diseñada para soportar flujos de trabajo de desarrollo eficientes eliminando estilos no utilizados y optimizando la entrega de activos durante el proceso de compilación.
Renders structured datasets into sortable, interactive tables with defined headers and row identifiers.
React Base Table es una librería de componentes de interfaz reutilizables diseñados para construir grids de datos complejos y responsivos dentro de aplicaciones web. Proporciona una base de alto rendimiento para renderizar grandes datasets utilizando virtualización de filas basada en ventanas, lo que asegura que la interfaz de usuario permanezca responsiva incluso al mostrar extensas colecciones de datos. La librería se distingue por capacidades flexibles de diseño y navegación, incluyendo soporte para estructuras de datos jerárquicas que pueden renderizarse como filas de árbol expandibles. Permite un control preciso sobre la geometría de la tabla mediante el dimensionamiento proporcional de columnas y el seguimiento automático de contenedores, mientras permite a los usuarios fijar columnas específicas en los bordes del viewport para mantener la visibilidad durante el desplazamiento horizontal. Los desarrolladores pueden crear visualizaciones de datos altamente personalizadas inyectando componentes personalizados directamente en las celdas de la tabla y aplicando anulaciones de estilo para cumplir con requisitos de diseño específicos. El sistema se ajusta automáticamente a los cambios en el tamaño del contenedor padre, asegurando que el diseño de la tabla permanezca consistente en diferentes dimensiones de pantalla y configuraciones de interfaz.
Organizes and renders nested data structures as expandable tree rows to allow exploration of parent-child relationships.