21 dépôts
Programming components that provide sequential access to elements within a large data collection during processing.
Explore 21 awesome GitHub repositories matching data & databases · Data Iterators. Refine with filters or upvote what's useful.
Developer Roadmap est une plateforme pilotée par la communauté qui fournit des parcours d'apprentissage structurés basés sur des graphes pour le génie logiciel. Elle sert de dépôt de connaissances complet où les domaines techniques sont organisés en séquences visuelles pour guider l'acquisition de compétences professionnelles et la croissance de carrière. Le projet se distingue par un écosystème collaboratif qui permet aux utilisateurs de contribuer à des roadmaps, d'organiser les meilleures pratiques de l'industrie et de maintenir des profils professionnels. Il intègre des cadres d'évaluation diagnostique pour évaluer la compétence technique, aidant les développeurs à identifier les lacunes en matière de connaissances et à se préparer aux entretiens professionnels grâce à des séquences d'apprentissage ciblées. Au-delà de ses capacités de cartographie de base, la plateforme propose des idées de projets pratiques et du tutorat interactif pour renforcer les concepts d'ingénierie. Elle offre un espace centralisé pour que la communauté puisse partager des ressources, suivre le développement progressif des compétences et naviguer dans des paysages techniques complexes.
Provides sequential access to elements within large data collections during processing.
Faceswap is a comprehensive framework for automated media manipulation and neural face synthesis. It provides a modular pipeline that manages the entire lifecycle of facial feature extraction, deep learning model training, and image conversion. By coordinating complex computer vision workflows, the system enables users to map facial identities between source and destination datasets while maintaining structural alignment and lighting consistency across video frames. The project distinguishes itself through a highly extensible plugin-based architecture that handles hardware-accelerated process
Serves as a base class for plugins to ingest and pass information through the extraction pipeline.
LevelDB is an embedded database library and persistent storage engine that provides a sorted key-value store. It uses a log-structured merge-tree architecture to map byte arrays to values, running directly within a process to provide storage without the need for a separate server process. The system is distinguished by its use of custom comparison functions to define key ordering, enabling efficient range scans and sequenced lookups. It ensures data reliability through atomic batch execution, consistent snapshot generation, and log-based recovery after failures. The engine covers broad capab
Provides sequential iterators for traversing stored entries in forward or backward order.
Immutable.js is a library of persistent data structures and a functional state management toolkit. It provides a collection of immutable objects and arrays that prevent direct mutation to ensure predictable state management in JavaScript applications. The library utilizes structural sharing to efficiently create new versions of data without full copying and implements lazy sequence processing to chain data transformations that execute only when values are requested. It also supports batch mutation processing, allowing multiple changes to be applied to a temporary mutable copy before returning
Implements memory-efficient lazy iterators that defer data transformations until values are explicitly requested.
Datasets is a library designed for the management, processing, and sharing of large-scale data collections for machine learning workflows. It functions as both a data processing framework and a versioning platform, providing tools to organize, filter, and transform massive datasets while ensuring reproducibility across research and development teams. The library distinguishes itself by enabling the handling of datasets that exceed available system memory. It utilizes memory-mapped file access, disk-based caching, and lazy iterative streaming to maintain performance when working with large-sca
Implements lazy, memory-efficient iterators to process large datasets on demand without loading them into physical memory.
This library is a collection of generic utilities for the Go programming language designed to simplify the manipulation of slices and maps. It provides a functional toolkit that enables developers to perform data transformations, such as filtering, mapping, and reducing, while maintaining strict type safety through the use of language-level generics. The project distinguishes itself by offering a dual approach to data processing that balances functional programming patterns with performance-oriented execution. It supports both immutable functional pipelines for predictable state transitions a
Provides a comprehensive toolkit for memory-efficient, lazy data traversal and deferred computation of large or infinite sequences in Go.
Excelize is a library for reading and writing spreadsheet files in the Office Open XML format. It provides a comprehensive suite of tools for programmatically creating, modifying, and analyzing workbooks, worksheets, and cell data, ensuring compatibility across various office software suites through structured XML serialization. The library distinguishes itself with a built-in formula calculation engine that evaluates complex mathematical and logical expressions directly against workbook data. It also features a memory-mapped streaming architecture, which allows for the efficient processing o
Emits data iteratively to maintain low memory usage during large-scale file processing.
Gensim is an unsupervised natural language processing toolkit designed for topic modeling, word embedding training, and the processing of large-scale text corpora. It provides a framework for discovering latent themes and semantic structures in text without the need for labeled data. The toolkit is distinguished by its ability to handle datasets that exceed system memory through iterator-based data streaming from disk. It also supports distributed model training, allowing complex modeling tasks to be executed across computer clusters. The library covers a broad range of analysis capabilities
Implements data iterators to stream large text collections from disk, avoiding memory exhaustion.
Home Assistant is a local home automation platform and server that acts as an IoT device orchestrator. It integrates diverse smart home hardware by wrapping third-party APIs into a standardized logic layer and stores all system state and historical statistics on local hardware to eliminate cloud dependencies. The system functions as a Matter IoT controller and an MQTT home automation bridge, allowing for local interoperability between different manufacturers. It features a state-based entity model and an internal event bus that decouple physical device logic from system automation. The platf
Converts lazy sequences produced by filters into static lists to enable counting and sorting.
EASTL is a C++ Standard Template Library implementation consisting of containers, iterators, and algorithms. It provides cross-platform data structures and a template-based algorithm library designed for use in resource-constrained game engine environments. The library focuses on game engine memory management, providing specialized utilities that ensure predictable memory allocation and high-performance access for real-time applications. These containers maintain consistent behavior across different operating systems and hardware platforms. The project covers high-performance C++ development
Provides standardized iterators for traversing diverse data collections without exposing underlying memory layouts.
This project is an educational resource and a collection of instructional materials for performing data manipulation and statistical analysis using Python. It provides a comprehensive set of guides and code examples for using the Pandas, NumPy, and Matplotlib libraries to analyze structured data. The resource includes a dedicated guide for reshaping, cleaning, and aggregating tabular data and time series via Pandas, alongside a reference for high-performance vectorized operations and linear algebra using NumPy. It also features tutorials for creating publication-quality charts, distribution p
Uses generators to produce sequences of values on demand, reducing memory consumption for large datasets.
Node.js is an open-source, cross-platform JavaScript runtime environment built on the V8 engine, designed for executing JavaScript code outside a web browser. It operates as a server-side JavaScript platform with an event-driven, non-blocking I/O architecture that enables building scalable network applications and web servers. The runtime integrates the CommonJS module system for synchronous module loading and the npm ecosystem for sharing and reusing packages. The platform provides comprehensive capabilities for web server development, including creating HTTP and HTTPS servers, managing HTTP
Supports processing streaming data with async iterators for chunk-by-chunk consumption without full buffering.
Lazy.js is a JavaScript library that implements a lazy evaluation model for processing collections and data streams. It defers all computation until iteration begins, building chains of transformations that execute only when values are consumed, avoiding intermediate arrays and buffering. The library wraps data sources into a uniform sequence interface, enabling operations like map and filter to be chained together without materializing intermediate results. The library extends lazy processing beyond simple collections to handle asynchronous data sources, DOM events, strings, and Node.js stre
Integrates with asynchronous data sources by yielding values at timed intervals or from streams without blocking.
r4ds est un cursus de science des données et une ressource pédagogique conçue pour maîtriser le langage de programmation R. Il fournit un chemin d'apprentissage structuré pour le processus de bout en bout d'importation, de nettoyage, de transformation et de visualisation des données. Le projet met l'accent sur un guide de science des données reproductible et un cursus complet pour le data wrangling. Il inclut des tutoriels spécialisés sur la grammaire des graphiques pour la visualisation de données en couches et des publications techniques créées avec Quarto qui mélangent code exécutable et prose narrative. Le matériel couvre un large éventail de capacités analytiques, incluant l'ingestion de données à partir de sources diverses, la jointure de données relationnelles et la gestion des variables catégorielles. Il aborde également le nettoyage de données, la modélisation mathématique et la génération de rapports et présentations professionnels multi-formats. Le cursus se concentre sur l'application pratique de la programmation fonctionnelle et des principes de tidy data pour créer des analyses transparentes et répétables.
Demonstrates how to apply a consistent set of actions across data collections using functional programming.
Toolz is a Python library that implements functional programming utilities for iterable transformation, dictionary manipulation, function composition, and lazy evaluation. It provides a set of pure functions designed to work with Python's built-in data structures, enabling concise and composable data processing workflows. What distinguishes toolz is its support for curried partial application, allowing functions to be incrementally applied and reused. It includes dictionary-centric operations that handle nested structures, and offers iterable chain transformers that combine mapping, filtering
Processes sequences on-demand using generators for memory-efficient handling of large data streams.
Slonik est un client PostgreSQL avec typage sécurisé pour Node.js qui utilise des littéraux de template tagués pour garantir que les paramètres sont liés et protégés contre les attaques par injection. Il fournit un framework pour connecter des applications à PostgreSQL avec une vérification de type automatique pour les requêtes et les schémas de base de données. Le projet se distingue par un linter de requêtes SQL spécialisé qui détecte les colonnes invalides et les incompatibilités de type en vérifiant le code par rapport à un schéma de base de données en direct pendant le processus de développement. Il inclut également un inserteur de données en masse binaire haute performance pour charger de grands jeux de données en utilisant la sérialisation binaire native et un gestionnaire de pool de connexions capable de routage de requête dynamique entre les nœuds primaires et répliques. La bibliothèque couvre un large ensemble de capacités de base de données, y compris la gestion des transactions atomiques, la construction de requêtes SQL dynamiques et le traitement de grands jeux de résultats via le streaming async-iterable. Elle fournit en outre des intercepteurs de middleware pour la journalisation et le benchmarking, l'analyse de type personnalisée et des mécanismes de callback asynchrones pour rafraîchir les identifiants d'authentification de base de données.
Provides memory-efficient processing of large database result sets using async iterable streams.
Ignite est un framework d'entraînement de haut niveau pour les réseaux de neurones PyTorch, servant de moteur d'entraînement et de gestionnaire de cycle de vie pour le deep learning. Il fournit un système structuré pour organiser et automatiser les boucles d'entraînement et d'évaluation, gérer les itérateurs de données et déclencher des gestionnaires d'événements à des étapes spécifiques du processus d'entraînement du modèle. Le projet se distingue par une suite complète d'outils pour l'entraînement distribué et l'évaluation de modèles. Il inclut des utilitaires pour synchroniser les gradients et coordonner la communication collective entre plusieurs GPU ou nœuds, ainsi qu'une suite d'évaluation pour calculer des métriques de performance et effectuer une validation croisée k-fold. Ses capacités plus larges couvrent l'automatisation du workflow d'entraînement, incluant la planification du taux d'apprentissage, l'arrêt précoce (early stopping) et l'optimisation des hyperparamètres. Le framework fournit également des outils d'observabilité pour le suivi des expériences, le profilage du temps d'exécution et l'entraînement en précision mixte pour optimiser l'utilisation de la mémoire. Des mécanismes de persistance d'état sont inclus pour gérer les checkpoints des modèles et restaurer les sessions d'entraînement. Des environnements conteneurisés sont disponibles pour simplifier le déploiement et la configuration de l'environnement.
Controls finite or infinite data streams by determining epoch lengths or restarting exhausted iterators.
Il s'agit d'une bibliothèque typée côté serveur et d'un SDK de passerelle de paiement pour intégrer Stripe dans des applications Node.js. Elle fournit un client typé pour gérer les paiements, les clients et les abonnements, tout en offrant des outils spécialisés pour exécuter des transactions financières sécurisées et gérer les ressources de facturation. La bibliothèque se distingue par un client API idempotent qui empêche les opérations en double en utilisant des clés d'idempotence et une logique de tentative avec backoff exponentiel. Elle inclut un validateur de signature de webhook pour vérifier que les notifications d'événements HTTPS entrantes sont authentiques et un wrapper de pagination async-iterator pour parcourir de grands jeux de données. Le projet couvre un large éventail de capacités, y compris la gestion de la facturation par abonnement, l'orchestration de plateforme de paiement pour les comptes connectés et la recherche de ressources. Elle fournit une gestion complète des réponses via l'expansion d'objets et la sélection de champs, ainsi que des fonctionnalités de sécurité pour l'authentification des requêtes API et la vérification des webhooks. La bibliothèque est écrite en TypeScript.
Uses JavaScript async iterators to stream paginated data from the API without buffering the entire payload.
xtensor is a C++ multidimensional array library for numerical computing that provides N-dimensional containers with an interface mirroring the NumPy API. It utilizes a lazy evaluation expression engine to defer numerical computations until assignment, which minimizes memory allocations and intermediate copies. The library features a foreign memory array adaptor that allows it to wrap external buffers, such as NumPy arrays, to perform numerical operations in-place without duplicating data. It further optimizes performance through lazy broadcasting and a system that manages the lifetime of temp
Provides memory-efficient, STL-compatible forward and reverse iterators to process tensor data.
cuda-python provides low-level Python bindings for the CUDA Driver and Runtime APIs. It serves as a programmatic wrapper for controlling device memory, managing hardware toolchains, and orchestrating execution graphs on NVIDIA GPUs, allowing for the compilation and launching of parallel kernels directly from Python. The project enables the development of SIMT kernels and the execution of mathematical algorithms on device memory. It integrates pre-compiled bytecode as custom operators and interfaces with accelerated device libraries to access low-level hardware functions without leaving the la
Uses iterators to compute sequence elements on demand, minimizing the allocation of large intermediate arrays.