12 dépôts
Capabilities for saving extracted data across various storage types including flat files, relational, and document databases.
Distinct from Relational Data Storage: Covers a hybrid approach to persistence across multiple storage paradigms rather than a single database type.
Explore 12 awesome GitHub repositories matching data & databases · Multi-Format Data Persistence. Refine with filters or upvote what's useful.
This project is a comprehensive educational guide and framework for building web scrapers using Python. It provides a course-based approach to data extraction, combining a Python crawler framework with tutorials on web reverse engineering and network traffic analysis. The project distinguishes itself by covering advanced extraction challenges, including the decryption of obfuscated JavaScript and the bypass of anti-scraping measures. It specifically addresses mobile application scraping through the simulation of user interactions and the interception of network traffic. The capability surfac
Saves extracted information into flat files, relational databases, or document databases for long-term storage.
weiboSpider is a Python web scraper and social media crawler designed to extract user profiles, posts, and engagement metrics from Sina Weibo. It functions as an automated data pipeline for academic research and trend analysis, collecting long-form text and multimedia content. The tool distinguishes itself through the use of browser session cookies to authenticate requests and access protected profiles. It implements randomized request pacing and global pauses to manage traffic and avoid platform rate limits, while supporting incremental crawling to capture only new content based on timestamp
Persists extracted information across various storage types, including flat files and relational or document databases.
This project is an educational resource and a collection of instructional materials for performing data manipulation and statistical analysis using Python. It provides a comprehensive set of guides and code examples for using the Pandas, NumPy, and Matplotlib libraries to analyze structured data. The resource includes a dedicated guide for reshaping, cleaning, and aggregating tabular data and time series via Pandas, alongside a reference for high-performance vectorized operations and linear algebra using NumPy. It also features tutorials for creating publication-quality charts, distribution p
Enables saving and loading multidimensional numerical arrays to disk in raw binary formats with compression support.
TiddlyWiki5 is a modular wiki engine and non-linear knowledge base that organizes information into small, linked chunks. It can function as a single-file personal wiki where all content and application logic are stored within one HTML file for local-first use, or as a self-hosted wiki server that serves content over HTTP. The project is distinguished by a data-driven architecture where plugins and extensions are treated as stored data entries. It features a filter-based query engine for manipulating structured data and a transclusion system that allows the live content of one entry to be embe
Supports persisting content across multiple formats, including JSON, HTML, and plain text files.
big-AGI is a self-hosted AI frontend and multi-model client that provides a unified workspace for interacting with various large language models. It functions as an orchestration dashboard, allowing users to connect to cloud-based AI providers, aggregator services, and locally hosted model servers. The project is distinguished by its ability to execute prompts across multiple models simultaneously for side-by-side comparison and response synthesis. It enables the merging of outputs from different models to reduce hallucinations and improve accuracy, while using persona-based configuration map
Supports persisting application data across multiple backends, including serverless Postgres and MongoDB Atlas.
libigl est une bibliothèque de traitement géométrique en C++ utilisée pour analyser et manipuler des maillages 3D triangulaires et tétraédriques. Elle fonctionne comme une suite d'algèbre linéaire numérique et un framework de manipulation de maillage, intégrant un moteur de déformation géométrique pour implémenter des transformations rigides et polyharmoniques. Le projet se distingue par sa conception de bibliothèque header-only et son implémentation de techniques de déformation spécialisées, incluant la déformation de forme rigide et polyharmonique. Il fournit également un outil de visualisation pour le rendu de surfaces et de champs scalaires avec des contrôles de scène interactifs et la sélection de maillage. La bibliothèque couvre une large gamme de capacités incluant l'analyse géométrique pour la courbure et les distances géodésiques, la génération de maillage via l'extraction d'iso-surfaces et la triangulation, et le remaillage par déformation anisotrope. Elle prend également en charge les opérations booléennes sur les maillages, la paramétrisation de surface et l'optimisation numérique pour résoudre des équations de Laplace et des programmes quadratiques. La boîte à outils inclut des utilitaires pour importer et exporter divers formats de géométrie 3D et prend en charge l'interopérabilité avec Matlab pour exécuter des scripts et partager des matrices.
Persists large numerical arrays to disk using binary or ASCII formats for high precision.
ArrayFire est un framework de calcul agnostique au matériel et un moteur de tenseurs compilé JIT conçu pour le calcul numérique haute performance. Il sert de bibliothèque de calcul numérique GPU et de toolkit de traitement du signal parallèle qui abstrait les backends matériels, permettant à la même base de code de s'exécuter sur diverses architectures GPU et CPU. Le projet se distingue par un moteur JIT qui utilise la compilation d'expressions pour fusionner les opérations et minimiser la surcharge mémoire. Il emploie un graphe d'exécution différée pour optimiser les chaînes de calcul et fournit des primitives d'interopérabilité pour partager des données et des contextes d'exécution avec des plateformes de calcul externes comme CUDA et OpenCL. La bibliothèque couvre un large éventail de capacités, incluant l'algèbre linéaire parallèle, le traitement du signal numérique et la vision par ordinateur accélérée. Elle fournit des outils pour l'implémentation de l'apprentissage automatique, la simulation de modélisation financière et la résolution d'équations aux dérivées partielles pour les simulations de systèmes physiques. Son système de gestion de tenseurs gère l'allocation de tableaux multidimensionnels, le découpage et les transferts de données hôte-périphérique.
Saves and loads multidimensional numerical tensors to and from files using keys or indices.
Ce projet est un scraper web pour Sina Weibo et un pipeline de données de réseaux sociaux conçu pour extraire les profils d'utilisateurs, les publications, les commentaires et les ressources multimédias. Il fonctionne comme un crawler de données conteneurisé qui automatise la collecte et le stockage local de contenu de réseaux sociaux et de métriques d'engagement. Le système inclut une couche de traitement qui utilise des modèles de langage étendus (LLM) pour analyser le texte extrait, générant des résumés et une analyse de sentiment. Il se distingue par un modèle de déploiement prêt à l'emploi sous forme de conteneur, doté d'une interface HTTP pour gérer les tâches d'extraction et surveiller la progression des travaux. Le crawler couvre un large éventail de capacités, incluant la surveillance des réseaux sociaux via des mises à jour incrémentales planifiées, l'archivage des ressources multimédias sur disques locaux et l'exportation de données multi-formats vers des fichiers plats ou des bases de données. Il capture également des interactions sociales détaillées, telles que les commentaires de premier niveau et les reposts.
Supports persisting extracted content across flat files, relational databases, and document databases.
Joblib est une suite d'utilitaires pour paralléliser les charges de travail computationnelles et optimiser le stockage de grands jeux de données numériques et de résultats de fonctions. Elle fonctionne comme une bibliothèque de calcul parallèle et un wrapper de multiprocessing qui distribue l'exécution des fonctions sur plusieurs cœurs CPU pour accélérer les tâches indépendantes et les boucles computationnelles. Le projet fournit un framework de mise en cache sur disque qui persiste les sorties de fonctions coûteuses sur le système de fichiers, en les réévaluant uniquement lorsque les arguments d'entrée changent. Il se spécialise en outre dans la sérialisation de grands tableaux numériques, utilisant une compression efficace et un mappage mémoire pour optimiser le stockage et la récupération de jeux de données massifs. La boîte à outils inclut des capacités pour le mappage de fonctions parallèles et l'utilisation de backends d'exécution enfichables pour contrôler la façon dont les tâches sont distribuées sur le matériel disponible. Sa couche de stockage couvre la persistance d'objets complexes et la compression transparente pour les données sérialisées.
Provides memory-mapping for large numerical arrays to allow efficient disk-based random access without consuming full RAM.
CrawlerTutorial est un tutoriel complet de web scraping en Python et un framework conçu pour extraire des données de sites web statiques et dynamiques. Il fonctionne comme un pipeline d'extraction de données web et un orchestrateur de requêtes HTTP, couvrant tout le cycle de vie des applications de scraping, de la récupération initiale au stockage final des données. Le projet fournit des conseils spécialisés sur les techniques de contournement anti-bot et l'ingénierie inverse d'API web. Il inclut des méthodes pour échapper à la détection par navigateur via le masquage d'identité et la rotation de proxies, ainsi que des techniques pour identifier les points de terminaison d'API cachés en analysant le trafic réseau et les signatures de requêtes. Le framework englobe un large ensemble de capacités, incluant l'automatisation de navigateur pour les pages riches en JavaScript, l'authentification utilisateur automatisée via codes QR ou SMS, et la gestion de la persistance de session. Il dispose également d'outils de prétraitement de données pour nettoyer le texte brut, supprimer les enregistrements en double et persister les informations recueillies dans des fichiers plats ou des bases de données relationnelles.
Saves extracted information across multiple storage types including JSON and CSV flat files.
xtensor is a C++ multidimensional array library for numerical computing that provides N-dimensional containers with an interface mirroring the NumPy API. It utilizes a lazy evaluation expression engine to defer numerical computations until assignment, which minimizes memory allocations and intermediate copies. The library features a foreign memory array adaptor that allows it to wrap external buffers, such as NumPy arrays, to perform numerical operations in-place without duplicating data. It further optimizes performance through lazy broadcasting and a system that manages the lifetime of temp
Deno-xtensor reads and writes multidimensional arrays using CSV, NPY, and JSON formats for persistence.
This project is a NestJS testing boilerplate and reference implementation. It provides a structured monorepo workspace designed to demonstrate various architectural and testing patterns for NestJS applications. The project features a dockerized test environment and an integration testing framework. It includes a dedicated GraphQL API test suite to validate graph-based endpoints and schemas for queries and mutations. The suite covers a layered testing hierarchy consisting of unit, integration, and end-to-end tests. These capabilities extend across the application and data layers, including da
Simulates interactions across multiple database technologies to verify data retrieval and storage logic.