22 Repos
Techniques for processing large datasets in small chunks to prevent memory overload.
Distinct from Stream Processing: Distinct from general Stream Processing by focusing on local memory efficiency and chunking rather than real-time high-velocity data analysis.
Explore 22 awesome GitHub repositories matching data & databases · Memory-Efficient Data Streaming. Refine with filters or upvote what's useful.
AISystem is a comprehensive AI full-stack infrastructure project covering the entire pipeline from AI chip architecture to high-level training frameworks. It encompasses the development of AI compiler frameworks, inference engines, and distributed training orchestrators designed to coordinate workloads across a heterogeneous compute stack of CPUs, GPUs, and NPUs. The project focuses on the deep integration of software and hardware, employing software-hardware co-design to align tensor layouts with physical memory structures. It provides specialized capabilities for accelerating Transformer mo
Divides large matrices into smaller blocks to balance memory bandwidth and maximize hardware compute utilization.
PHPExcel is a PHP spreadsheet library used for programmatically reading and writing spreadsheet files in various formats. It utilizes an in-memory spreadsheet model that maps spreadsheet structures to a hierarchy of objects for programmatic manipulation. The library functions as an Office Open XML processor for generating and manipulating XLSX documents and serves as a reader for extracting data and structure from legacy binary XLS files. It also includes tools for CSV data integration and importing. The project provides capabilities for automated report generation and spreadsheet data extra
Implements chunk-based processing to minimize memory consumption when reading or writing large spreadsheet datasets.
This project is a structured Node.js programming course and educational guide designed to teach JavaScript backend development. It provides a sequence of workshops and interactive tutorials that focus on the fundamentals of the Node.js runtime and its core modules. The material emphasizes asynchronous programming, specifically covering non-blocking I/O, callback patterns, and event-driven architecture. It includes a practical exploration of the core API for managing network applications, file system operations, and binary data. The curriculum covers module management and dependency resolutio
Teaches how to process large datasets using streams to avoid loading entire files into memory.
This project is a software engineering style guide and a curated collection of architectural patterns and coding standards. It provides a multi-language coding standard to ensure maintainable software across Ruby, Python, JavaScript, and Swift. The project establishes a development workflow specification for version control, continuous integration, and peer review to maintain a linear project history. It also includes a web accessibility framework based on ARIA and WCAG standards, using design tokens and semantic HTML patterns to build inclusive interfaces. The guides cover a broad range of
Implements sequential chunk processing for infinite event streams to prevent memory overflows.
YARA is a pattern matching engine and binary analysis tool used to identify and classify malware samples. It functions as a malware research framework that allows for the definition of file descriptions and detection rules to find indicators of compromise within binaries. The system enables the creation of custom detection rules using strings, wildcards, and regular expressions. These rules use boolean logic to match textual or binary patterns, allowing for the classification of files into specific malware families and the automation of threat intelligence. The engine utilizes Aho-Corasick s
Processes large binaries in memory-efficient chunks to prevent system memory overload during scans.
llrt is a low-latency JavaScript runtime based on the QuickJS engine, specifically designed for executing asynchronous functions in serverless environments. It provides a lightweight execution layer optimized for fast startup times and minimal memory usage when running ES2023 workloads. The project differentiates itself by bundling natively optimized cloud service SDKs directly into the runtime binary to eliminate external dependency loading. To further reduce cold start latency, it implements parallel connection warming for TLS and network handshakes during the startup phase. The runtime co
Processes continuous data flows using buffers and stream interfaces for efficient memory management.
Higress ist ein KI-natives und Cloud-natives API-Gateway, das den Datenverkehr zwischen Clients und Diensten großer Sprachmodelle (LLMs) routet, absichert und optimiert. Es fungiert als zentraler Einstiegspunkt für Microservices und dient sowohl als Kubernetes-Ingress-Controller als auch als KI-Gateway-Orchestrator. Das Projekt zeichnet sich dadurch aus, dass es den Datenverkehr über mehrere KI-Anbieter hinweg mittels eines einheitlichen Protokolls verwaltet und dabei token-bewusstes Rate-Limiting sowie Response-Caching integriert, um die Modell-Inferenz zu optimieren. Es koordiniert die Kommunikation zwischen KI-Modellen und externen Werkzeugen, um Echtzeit-Kontext und Daten bereitzustellen, während es gleichzeitig Server-Endpunkte für KI-Agenten hostet. Zu den umfassenden Funktionen gehören API-Sicherheitsdurchsetzung mittels Web Application Firewalls (WAF), automatisiertes TLS-Zertifikatsmanagement und dynamische Service-Discovery. Das Gateway unterstützt die benutzerdefinierte Anforderungsverarbeitung durch sandboxed WebAssembly-Plugins, die eine Verkehrstransformation mit Hot-Reloading ermöglichen. Das System implementiert standardisierte Ingress-APIs, um das Netzwerk-Routing innerhalb containerisierter Cluster mit geringem Ressourcen-Overhead zu verwalten.
Processes request and response bodies as continuous data streams to minimize memory overhead for AI responses.
CloudSaver is a multi-cloud file transfer manager and storage aggregator designed to discover remote resources and save them directly to cloud drives. It functions as a cloud file downloader and management platform that enables the movement of data between different cloud storage providers without requiring files to be downloaded to a local device first. The system uses OAuth authentication to manage secure connections to third-party cloud drives, facilitating direct server-to-server data transfers. It incorporates asynchronous streaming to move data between remote sources and destinations, p
Uses memory-efficient data streaming to move large files between remote servers without loading them into RAM.
The C++ REST SDK is a library for asynchronous HTTP and RESTful communication in native C++ applications. It provides a non-blocking network client for sending requests and receiving responses, a JSON parser for serializing and deserializing data, and a WebSocket client library for real-time, full-duplex communication. The project includes a dedicated OAuth2 authentication client to manage access tokens and authorization flows for secure communication with protected cloud resources. It utilizes a task-based asynchronous model to coordinate background operations and keep application interfaces
Processes large network payloads in incremental chunks to maintain memory efficiency.
elasticsearch-dump is a command line tool for importing, exporting, and transferring data between Elasticsearch and OpenSearch instances. It functions as an index dump utility that saves documents, mappings, and analyzers to local files or standard output. The tool enables the movement of data between clusters using local files as an intermediary and can flatten nested JSON documents into CSV files for external analysis. It allows for the modification or anonymization of documents during the transfer process through the use of custom JavaScript functions. The utility covers data extraction a
Processes documents in sequential chunks to move data without overloading system memory.
This project is a learning guide and collection of study notes designed to teach Node.js backend development. It provides a comprehensive core API reference and practical demonstrations for implementing server-side logic, network programming, and system APIs. The guide specifically covers advanced technical domains including process management for scaling applications via clusters and child processes, as well as network programming for building TCP, UDP, and HTTP services. It also includes detailed instructional material on security implementation, focusing on cryptographic hashing and encryp
Processes large datasets incrementally in small chunks to maintain low memory overhead.
DbGate is a universal database management tool and SQL client that provides a unified interface for querying and administering multiple SQL and NoSQL databases. It functions as a multi-database administration GUI and SQL IDE, allowing users to write and execute scripts and manage database schemas. The project distinguishes itself by acting as an API client and explorer for REST, GraphQL, and OData services, enabling users to fetch and export data from these endpoints. It also serves as a data integration tool, facilitating the movement of records between diverse databases and file formats suc
Moves records between sources and destinations using a pipeline of readers and writers to handle large datasets efficiently.
Lit-llama ist ein PyTorch-basiertes Implementierungs-Framework für das LLaMA-Sprachmodell und bietet ein System für Pre-Training, Fine-Tuning und Hochleistungs-Inferenz. Es enthält eine Pre-Training-Pipeline zur Erstellung grundlegender Sprachmodelle von Grund auf sowie Tools zur Ausführung vortrainierter Gewichte, um natürlichen Text zu generieren und Sequenzen vorherzusagen. Das Projekt bietet spezialisierte Toolkits für parameter-effizientes Fine-Tuning unter Verwendung von Low-Rank Adaptation (LoRA) und leichtgewichtigen Adaptern. Es enthält zudem eine Quantisierungsbibliothek, die den Speicherbedarf von Modellen durch 4-Bit- und 8-Bit-Präzision reduziert, um die Ausführung auf Hardware mit begrenzten Ressourcen zu ermöglichen. Das Framework integriert ein vereinfachtes Transformer-Design und verwendet Flash-Attention, um Speicher und Geschwindigkeit zu optimieren. Es verwaltet zudem große Datensätze durch Streaming-Datenformate, um das Laden ganzer Korpora in den Arbeitsspeicher zu vermeiden.
Processes massive datasets in small chunks from disk to prevent system memory overload during pre-training.
CppGuide is a curated collection of educational resources and practical guides focused on C++ server development, Linux kernel internals, concurrent programming, network protocols, and security exploitation. It provides structured learning paths for backend developers, covering everything from interview preparation to building high-performance network servers and understanding operating system fundamentals. The guide distinguishes itself by offering in-depth, hands-on tutorials that walk through real-world implementations, including building a Redis-like server from scratch, designing custom
Streams results through worker pools and pipelines to handle high-volume data efficiently.
X-Ray ist ein Web-Scraping-Framework und asynchroner Web-Crawler, der darauf ausgelegt ist, strukturierte Daten von Websites zu extrahieren. Es fungiert als HTML-Datenextraktor, der rohe Seiteninhalte mittels CSS-artiger Selektoren in ein definiertes Schema transformiert. Das Projekt implementiert einen Headless-Browser-Crawler, der JavaScript ausführen kann, um dynamische Inhalte zu rendern. Es handhabt die Entdeckung von Website-Inhalten durch eine Breadth-First-Crawling-Strategie und automatische Paginierungserkennung, um mehrseitige Ergebnismengen zu durchlaufen. Das Framework verwaltet Web-Daten-Pipelines mittels einer Concurrency-limitierten Request-Queue und Request-Rate-Control, um ausgehende Netzwerkanrufe zu regulieren. Extrahierte Ergebnisse werden über Stream-basierte Datenpersistenz verarbeitet, um große Datensätze ohne Überlastung des Systemspeichers zu bewältigen.
Writes extracted data to streams to process large datasets without overloading system memory.
Diese Bibliothek ist ein CSV-Datenserialisierer und Stringifier für die Transformation strukturierter Datensätze in kommagetrennte Werte. Sie bietet Tools für die Konvertierung von Datensätzen in Klartext mittels synchroner, callback-basierter oder stream-basierter Implementierungen. Das Projekt zeichnet sich durch eine Streaming-Implementierung mittels der nativen Node.js-Transform-API aus, die die Verarbeitung großer Datensätze ermöglicht, ohne alle Datensätze in den Arbeitsspeicher zu laden. Es enthält zudem ein flexibles Formatierungssystem zur Definition spezifischer Trennzeichen, Anführungszeichen, Escape-Zeichen und Header-Konfigurationen. Das Toolset deckt die Automatisierung von Datenexporten und das Mapping von Datensätzen zu Strings ab, was die programmatische Generierung von Dateien aus Datenbankeinträgen oder API-Antworten ermöglicht.
Utilizes a streaming pipeline to transform records into CSV format while minimizing memory usage.
more-itertools ist eine Python-Utility-Bibliothek für Iterables, die erweiterte Funktionen zur Manipulation, Filterung und Transformation von Datensequenzen bereitstellt. Sie dient als Toolkit für die Verarbeitung von Datenströmen und als Sammlung von Hilfsmitteln für das Management von Iterator-Zuständen, womit sie die Möglichkeiten des Standard-Moduls itertools erweitert. Die Bibliothek enthält ein kombinatorisches Mathe-Toolkit zur Erzeugung von Permutationen, Kombinationen und Potenzmengen sowie Routinen für zahlentheoretische Berechnungen und Matrixoperationen. Zudem bietet sie Werkzeuge für das Stream-State-Management, mit denen Benutzer einen Blick auf kommende Elemente werfen oder innerhalb einer Sequenz navigieren können, um die Datenverarbeitung zu steuern. Weitere Funktionen umfassen Routinen für das Chunking, Interleaving und Flattening komplexer Sequenzen. Das Toolkit enthält außerdem Funktionen zur Analyse von Iterable-Eigenschaften und zur Synchronisierung paralleler Datenströme.
Offers a toolkit for chunking, interleaving, and flattening sequences to process large datasets with minimal memory overhead.
Dieses Projekt ist ein Framework zur Generierung synthetischer tabellarischer Daten, das die statistischen Eigenschaften und die relationale Integrität der ursprünglichen Quelldatensätze bewahrt. Es fungiert als metadatengesteuerte Engine, die Sprachmodelle nutzt, um Informationen zu synthetisieren, selbst wenn ursprüngliche Trainingsstichproben eingeschränkt sind. Das System ist darauf ausgelegt, die logische Konsistenz über komplexe, tabellenübergreifende Strukturen hinweg aufrechtzuerhalten und gleichzeitig sicherzustellen, dass die generierten Ausgaben den definierten Schemaanforderungen entsprechen. Die Plattform zeichnet sich durch einen Fokus auf datenschutzfreundliche Synthese aus und integriert Tools zur Quantifizierung und Minderung von Re-Identifizierungsrisiken durch differenzielle Privatsphäre und Anonymisierungstechniken. Sie unterstützt modulare Erweiterbarkeit, was die Integration benutzerdefinierter Generierungsmodelle und Datenkonnektoren ermöglicht. Darüber hinaus enthält das Framework automatisierte Validierungsroutinen, die die Verteilungs- und Korrelationsmuster synthetischer Ausgaben mit Quelldaten vergleichen, um die statistische Wiedergabetreue zu verifizieren. Über die Kerngenerierung hinaus bietet das System Funktionen für die Datenanreicherung und Feature-Engineering durch Ableitung neuer Spalten aus gelernten Mustern. Es integriert betriebliche Überwachungstools, um die Ressourcennutzung und Verarbeitungseffizienz bei hochvolumigen Aufgaben zu überwachen. Die Bibliothek ist darauf ausgelegt, große Datensätze durch speichereffiziente Stream-Verarbeitung und iterative Batch-Verarbeitung zu handhaben, um Stabilität zu gewährleisten.
Processes large-scale datasets in memory-efficient chunks to maintain system stability during high-volume generation.
Der Swift OpenAPI Generator ist ein Build-Time-Tool, das typsicheren Swift-Client- und Server-Code direkt aus OpenAPI-Spezifikationsdokumenten erstellt. Durch die Integration in Build-Systeme mittels nativer Plugins automatisiert er die Erstellung stark typisierter Interfaces und Protokoll-Stubs, die Netzwerkoperationen auf native Methoden abbilden und so sicherstellen, dass der Anwendungscode strikt mit definierten Datenschemas konsistent bleibt. Das Projekt zeichnet sich durch eine protokollorientierte Architektur aus, die Geschäftslogik von spezifischen Transportimplementierungen entkoppelt. Es nutzt eine austauschbare Transportschicht und Middleware-basiertes Request-Interception, um übergreifende Anliegen wie Authentifizierung, Logging und Metrikerfassung zu handhaben. Dieses Design ermöglicht es Entwicklern, eine konsistente Kommunikationsschicht beizubehalten, während sie agnostisch gegenüber den zugrunde liegenden Web-Frameworks oder Netzwerkübertragungsdetails bleiben. Der Generator unterstützt eine breite Palette von Funktionen, einschließlich schema-gesteuertem Data-Mapping und Content-Negotiation für verschiedene Formate. Er bietet speichereffiziente Handhabung großer Payloads durch inkrementelle Stream-Verarbeitung, was den Austausch komplexer Daten ermöglicht, ohne den gesamten Inhalt in den Speicher zu laden. Das Toolset enthält zudem Utilities für automatisiertes Contract-Testing und die Generierung interaktiver Dokumentationen zur Unterstützung bei der Validierung von Endpoint-Anforderungen.
Handles large request and response payloads incrementally to maintain memory efficiency during network exchanges.
Kotlinx-io is a multiplatform library designed for input and output operations, providing a unified interface for streaming data, managing byte buffers, and interacting with local filesystems. It serves as a cross-platform abstraction layer that standardizes how applications handle data movement across different operating systems and hardware architectures. The library distinguishes itself by providing high-performance tools for both mutable and immutable byte sequences. It utilizes segmented memory pools and direct memory access to minimize allocation overhead and prevent unnecessary data co
Processes large datasets in continuous flows to minimize memory usage.