19 dépôts
Functions for processing complex, hierarchical data structures within columnar formats.
Distinguishing note: Specifically targets list-type columns rather than flat data structures.
Explore 19 awesome GitHub repositories matching data & databases · Nested Data Manipulations. Refine with filters or upvote what's useful.
Ce projet est un répertoire maintenu par la communauté qui sert d'index complet d'outils logiciels, de frameworks et de ressources éducatives. Il fonctionne comme une base de connaissances open source, organisant divers domaines d'ingénierie et ressources techniques dans une taxonomie structurée pour aider les développeurs à découvrir du contenu de haute qualité. Le répertoire se distingue par un modèle de revue par les pairs décentralisé, où des contributeurs indépendants organisent, vérifient et mettent à jour les entrées pour garantir leur exactitude et leur pertinence. Toutes les informations sont stockées dans un format markdown en fichiers plats, contrôlé par version, ce qui garantit l'indépendance de la plateforme, la transparence et l'auditabilité de l'ensemble de la collection. Le projet couvre une vaste surface de capacités, allant de la découverte de ressources techniques à l'avancement professionnel et à la gestion des connaissances en développement logiciel. Il donne accès à des parcours d'apprentissage structurés, des outils d'infrastructure et de sécurité, des utilitaires de gestion de données et des ressources spécialisées pour des domaines allant de la santé aux humanités numériques. Le dépôt est maintenu en tant que collection publique contrôlée par version, permettant un accès programmatique et des mises à jour pilotées par la communauté pour ses données structurées.
Offers functions for processing complex, hierarchical data structures.
Polars is a high-performance columnar data processing library designed for efficient analytical workflows. It functions as a structured data library that organizes information into typed columns, utilizing the Apache Arrow memory format to enable zero-copy data sharing and cache-friendly, vectorized operations. The engine is built to handle large-scale tabular datasets, providing both local and distributed analytical runtimes that scale from single-machine environments to multi-node clusters. The project distinguishes itself through a sophisticated lazy query engine that constructs abstract e
Processes list-type data columns using dedicated functions for aggregation and element-wise computation.
This is a persistent data structure library for JavaScript that provides collections which prevent the direct mutation of objects and arrays. It serves as an immutable state management tool and functional programming utility, ensuring that data remains unchanged after creation to simplify change detection and state tracking. The library enables the maintenance of application state by producing new versions of data structures during updates. It focuses on efficient data comparison by checking actual content instead of memory references and supports a functional programming workflow to prevent
Offers functions for processing and updating complex, hierarchical data structures using path-based accessors.
Portia is a containerized scraping platform and visual web scraper that enables no-code data extraction. It serves as a Scrapy visual scraping tool and spider generator, allowing users to design and deploy web scrapers through a graphical interface instead of writing manual selector code. The system distinguishes itself by converting visual web page annotations into executable Scrapy spider code and structured JSON specifications. This visual-to-code mapping allows users to define scraping logic and extraction rules through a point-and-click interface, which can then be exported for use in ex
Captures complex hierarchical data structures from web pages by nesting extracted items.
Databend is a cloud-native data warehouse and OLAP database designed for large-scale analytics. It functions as a SQL-compliant engine and serverless analytics platform that separates compute from storage to allow for independent scaling. The system integrates vector database capabilities, indexing high-dimensional embeddings to enable semantic, hybrid, and full-text searches across massive datasets. It further distinguishes itself through serverless compute management that automatically scales resources based on demand and shuts them down during idle periods. The platform covers a broad set
Flattens nested arrays or objects into individual rows to facilitate analysis of complex data structures.
VisiData is a terminal-based interactive data analysis tool and browser designed for exploring, filtering, and sorting large tabular datasets. It functions as a structured data inspector that loads and flattens complex formats like JSON, XML, and PCAP into interactive sheets, as well as a terminal file manager for navigating directories and performing staged filesystem operations. The project distinguishes itself by rendering data visualizations, such as scatter plots and histograms, directly in the terminal using Unicode Braille characters. It provides a Python-based data wrangling environme
Flattens complex hierarchical data like JSON arrays into multiple top-level columns.
This project is a comprehensive library of practical Python code examples and patterns. It provides a collection of scripts and snippets designed to demonstrate a wide range of programming tasks, from basic syntax to advanced implementation patterns. The repository focuses on several core domains, including the implementation of concurrency and multithreading examples, data analysis snippets for cleaning and manipulating tabular data, and various data visualization examples. It also covers automation scripts for file system management and a variety of general programming patterns. Additional
Provides a generator that recursively converts multi-level nested lists into a single flat list.
pydoll is a Chrome DevTools Protocol automation library and headless browser controller used for web data extraction and parallel browser automation. It controls Chromium-based browsers via direct WebSocket connections, allowing it to manage isolated browser contexts and tabs while bypassing the overhead and detection associated with WebDriver. The project features an anti-bot evasion framework that mimics natural human behavior, including mouse movements generated via Bezier curves and variable typing patterns. It provides specialized stealth capabilities to bypass behavioral analysis and au
Resolves hierarchical data by defining scope elements to extract nested sub-models from the DOM.
This repository is a collection of practical code snippets and implementation patterns for Flutter and Dart. It serves as a comprehensive guide and reference for asynchronous programming, state management patterns, and UI component design. The project provides advanced language reference material covering generics, reflection, factory constructors, and null-aware operators. It also includes specific utilities for manipulating Dart collections, such as helper methods for transforming and filtering maps, lists, and iterables. The coverage extends to high-level capabilities including asynchrono
Provides utilities to flatten lists containing sublists into a single linear sequence.
Faust is a Python library for building distributed stream processing applications that integrate with Kafka. It functions as an asynchronous stream processor designed to handle high-throughput event streams and real-time data analysis using asynchronous functions. The system operates as a distributed stream processor and state store, utilizing sharding and partitioned topics to scale processing workloads horizontally across multiple worker nodes. It maintains state through a replicated key-value storage system backed by local databases to ensure high availability and fast recovery. The frame
Maintains complex types like lists and sets within tables by utilizing a transaction log for the changelog.
collect.js is a dependency-free JavaScript library that provides a fluent, chainable interface for manipulating arrays and objects. It mirrors the Laravel Collection API, offering a consistent set of methods for data transformation across JavaScript and Laravel backend environments. The library stores collection data as plain arrays internally and supports fluent method chaining, where each method returns a new collection instance. The library distinguishes itself by closely replicating the Laravel Collection API in JavaScript, mapping each PHP method to an equivalent JavaScript implementatio
Recursively reduces a multi-dimensional array or object into a single-level collection.
Object-enumerator is a data structure crawler and enumeration library designed to discover and list all objects stored within deep or circular data references. It functions as a traversal tool that recursively walks through nested arrays and object graphs to identify every individual referenced object. The library flattens complex hierarchical data structures into a linear collection of unique objects. This process enables data structure analysis and memory reference mapping by tracing all objects connected to a root element to understand the overall composition of a data set.
Flattens complex object hierarchies into a comprehensive, linear list of all contained individual objects.
Ce projet est une bibliothèque curatée d'implémentations d'algorithmes et de problèmes de programmation résolus. Il sert de dépôt de référence pour la programmation compétitive et les implémentations de structures de données, fournissant des solutions optimisées pour un large éventail de défis de codage. La collection organise les exemples de code par technique algorithmique, en se concentrant spécifiquement sur l'implémentation d'arbres, de graphes et de tas pour optimiser la complexité temporelle et spatiale. Elle fournit des solutions spécifiques au langage utilisées pour des tâches de codage haute performance. Le dépôt couvre un large ensemble de capacités, incluant les parcours de graphes, la programmation dynamique, le traitement de motifs de chaînes et les opérations de recherche binaire. Il inclut également des implémentations pour l'interrogation de données sur plage, la manipulation de bits et la conception de structures de données personnalisées telles que des caches et des moteurs d'autocomplétion. Une couverture supplémentaire inclut les calculs mathématiques et le suivi des performances en concours.
Provides recursive logic to convert hierarchical nested list structures into linear integer sequences.
Pinot is a distributed, columnar analytical database designed for high-concurrency, low-latency query processing. It functions as a real-time OLAP datastore, enabling interactive, user-facing analytics by ingesting and querying massive datasets from both streaming and batch sources. The system architecture relies on a centralized controller for cluster coordination and a distributed segment-based storage model to ensure horizontal scalability. The platform distinguishes itself through a hybrid ingestion pipeline that unifies real-time event streams and historical batch data into a single quer
Transforms hierarchical or array-based data into individual rows during ingestion to enable granular analysis of nested collections and multi-level arrays.
Pest est une bibliothèque de parsing Rust et un générateur de parser automatique qui transforme des définitions de grammaire formelles en parsers fonctionnels. Il se spécialise dans les Parsing Expression Grammars (PEG) pour reconnaître et structurer des motifs textuels complexes, fournissant un système pour le parsing de grammaires non contextuelles. La bibliothèque implémente une tokenisation sans copie (zero-copy) et une compilation de grammaire statique pour réduire la surcharge à l'exécution. Elle supporte la compatibilité no-std, permettant au parser d'être compilé pour des environnements embarqués ou bare-metal où la bibliothèque standard est indisponible. Le projet couvre une gamme de capacités de parsing, incluant l'extraction de paires de tokens imbriqués et la validation syntaxique automatisée. Il est utilisé pour implémenter des langages dédiés (DSL), le parsing de langages personnalisés et l'évaluation d'expressions mathématiques. Il fournit également des rapports d'erreurs automatisés pour identifier les tokens inattendus ou les entrées manquantes.
Provides a hierarchical tree of rule names and byte offsets for efficient traversal of parsed input.
dplyr est une bibliothèque de manipulation de données pour R qui fournit une grammaire pour transformer les data frames tabulaires. Elle fonctionne comme un processeur de data frames en mémoire et un outil d'algèbre relationnelle, utilisant un ensemble cohérent de verbes pour filtrer, sélectionner et résumer les données. Le projet inclut un moteur de traduction SQL qui convertit des expressions de manipulation de données de haut niveau en requêtes optimisées. Cela permet aux utilisateurs d'effectuer des transformations directement sur des bases de données relationnelles distantes et du stockage cloud sans rapatrier les données localement. La bibliothèque couvre une large gamme d'opérations tabulaires, incluant la mutation de colonnes, le sous-ensemble de lignes et la jointure de données relationnelles. Elle offre également des capacités pour l'analyse de données groupées, permettant de partitionner les jeux de données pour des agrégations et des résumés indépendants.
Collapses rows into list-columns based on grouping variables to enable hierarchical analysis.
Ce projet est une bibliothèque de référence curatée de modèles algorithmiques, d'implémentations de structures de données et de notes de conception système. Il sert d'ensemble de problèmes algorithmiques Java et de guide de programmation compétitive, fournissant une collection de solutions pour des défis de codage provenant de plateformes comme LeetCode et LintCode. La bibliothèque se distingue par son ensemble complet d'implémentations Java pour des structures de données avancées et des stratégies algorithmiques. Elle inclut des références détaillées pour résoudre des problèmes complexes avec une analyse de complexité temporelle et spatiale associée. Le projet couvre une large surface des fondamentaux de l'informatique, incluant la conception d'algorithmes, l'implémentation de structures de données et la conception système. Son contenu couvre la théorie des graphes, la programmation dynamique, la recherche et l'optimisation, ainsi que les techniques de traitement de données linéaires. Il inclut également des notes sur l'évolutivité de l'infrastructure, le caching de performance et les modèles d'architecture logicielle.
Provides recursive methods to convert multi-level nested list structures into linear sequences.
PRAW est un wrapper Python pour l'API Reddit, fonctionnant comme un client API REST et un crawler de données de réseaux sociaux. Il fournit une interface programmatique pour récupérer des données, gérer le contenu d'un compte et interagir avec la plateforme. La bibliothèque implémente un client OAuth 2.0 complet prenant en charge plusieurs flux d'autorisation, y compris les mots de passe, les jetons implicites et de rafraîchissement, ainsi que l'accès invité en lecture seule. Elle se distingue par un planificateur de requêtes conscient des limites de débit qui suit le bridage côté serveur pour éviter l'épuisement du quota API, et utilise des objets de ressources à chargement différé pour ne récupérer les données que lorsque des attributs spécifiques sont accédés. Les capacités couvrent la gestion des communautés et des utilisateurs, le streaming de soumissions en temps réel via des générateurs, et l'extraction de fils de discussion imbriqués. L'ensemble d'outils inclut également la gestion de contenu pour créer des posts et des commentaires, ainsi que des options de configuration réseau pour les sessions personnalisées et le routage via proxy.
Provides recursive conversion of hierarchical discussion threads into linear lists of comment objects.
FastAdapter is a framework for Android development designed to simplify the creation of complex list interfaces. It functions as a modular controller for list views, providing a system to bind data models to custom view templates while reducing the boilerplate code typically required for managing list adapters. The library distinguishes itself through an adapter composition pattern that allows developers to aggregate multiple independent data sources into a single unified list. It utilizes a type-safe registry to map data models to specific view holders and employs a centralized event dispatc
Transforms nested data structures into a linear list representation to allow efficient rendering of expandable content.