27 dépôts
Systems for merging technical data from disparate sources like websites, repositories, and media into a unified structure.
Distinct from Multi-file Aggregators: Candidates focus on real-time telemetry streams or simple file globs; this is multi-modal technical content aggregation.
Explore 27 awesome GitHub repositories matching data & databases · Multi-Source Content Aggregation. Refine with filters or upvote what's useful.
Owl is a framework for agentic workflow automation and multi-agent orchestration. It functions as a system for coordinating autonomous large language model agents to decompose and execute complex tasks through shared communication and collaborative planning. The project distinguishes itself through a multi-modal toolset for processing images, audio, and video, alongside a synthetic data generator that produces domain-specific datasets using self-instruct and verifier loops. It further incorporates a retrieval-augmented generation pipeline framework that integrates long-term memory and real-ti
Ships a suite of tools for processing images, audio, and video files alongside structured document parsing.
WebAgent is an autonomous web navigation agent and research system designed to browse the internet and synthesize information to answer complex queries. It functions as a reasoning orchestrator that navigates the web iteratively to perform deep research and extract structured data. The project includes a reinforcement learning training pipeline that generates synthetic interaction datasets for model pre-training and fine-tuning. It employs token-level policy gradients to stabilize training in non-stationary environments and uses a dual-mode inference scaling mechanism to balance execution bet
Normalizes heterogeneous inputs from live web pages and local PDFs into a uniform representation for processing.
Skill Seekers is a toolset for generating large language model knowledge bases, featuring a multi-source content scraper and a dedicated RAG data pipeline. It extracts technical data from documentation, code, and video to create structured assets and configuration files for AI-powered IDE extensions. The project distinguishes itself through the ability to transform raw data into polished tutorials and specialized skills for AI plugin marketplaces. It utilizes abstract syntax tree parsing and optical character recognition to analyze GitHub repositories, PDFs, and video frames, converting these
Combines content from websites, repositories, and media files into a unified knowledge structure.
This project is a self-hosted RSS feed aggregator and reader designed to collect and organize content from RSS, Atom, and JSON feeds. It functions as a privacy-focused client that blocks pixel trackers and strips URL parameters to prevent third-party tracking and referrer leakage. The system is built as a REST API feed reader, exposing its data and user accounts through a programmable interface for third-party clients. It maintains compatibility with the OPML standard for importing and exporting subscriptions and provides tools for web content extraction using readability parsers and custom r
Collects and organizes content from Atom, RSS, and JSON sources into a unified interface.
PicaComic is a digital comic and manga reader that enables browsing and reading content from multiple online sources within a single unified interface. It aggregates data from various providers into a local database for consistent searching and browsing. The application supports custom content integration, allowing the registration of new third-party reading sources through a provider-based extension system. It also features cross-device reading synchronization to keep reading progress and favorite lists aligned across different devices. Additional capabilities include offline content manage
Aggregates comic data from multiple third-party sources into a single unified interface.
Gridsome is a Vue.js static site generator designed for building Jamstack websites. It functions as a progressive web app framework that pre-renders components into static HTML files for delivery via content delivery networks. The system includes a GraphQL data orchestrator that unifies content from multiple APIs and local files into a single schema for site queries. It also integrates a frontend asset optimizer to automatically compress images and implement code-splitting. The framework provides support for offline-capable websites through prefetching pages and critical asset loading. Addit
Combines content from various APIs and local files into a single interface to power a website's frontend.
CloudSaver is a multi-cloud file transfer manager and storage aggregator designed to discover remote resources and save them directly to cloud drives. It functions as a cloud file downloader and management platform that enables the movement of data between different cloud storage providers without requiring files to be downloaded to a local device first. The system uses OAuth authentication to manage secure connections to third-party cloud drives, facilitating direct server-to-server data transfers. It incorporates asynchronous streaming to move data between remote sources and destinations, p
Merges searchable file information from disparate cloud providers into a unified structure for cross-platform discovery.
Jazzy is a source code documentation tool and API generator designed for Swift and Objective-C. It analyzes project roots and compiled modules to produce searchable HTML websites or offline docsets. The system functions as a multi-module API documenter, aggregating documentation from separate source modules into a single site with cross-module linking. It serves as a markdown-based documentation engine that integrates technical guides and LaTeX mathematical equations to complement generated API references. The tool covers a broad capability surface including multi-language API generation for
Merges technical API data from disparate source modules into a unified structure with shared search.
Horizon est un système d'agrégation de nouvelles alimenté par l'IA, conçu pour construire des pipelines personnalisés qui récupèrent, filtrent et enrichissent les informations provenant de diverses sources web. Il utilise des grands modèles de langage pour automatiser le filtrage de l'information, notant le contenu pour supprimer le bruit et mettre en évidence les histoires à haute valeur. Le système intègre le Model Context Protocol pour exposer les étapes du pipeline en tant qu'outils pour les assistants IA externes. Il emploie un adaptateur unifié pour standardiser divers fournisseurs de modèles IA pour des tâches cohérentes de notation et de résumé de contenu. Le pipeline agrège des données provenant de flux RSS, de plateformes sociales, de boîtes à outils financières et de dépôts de code. Il gère le contenu par déduplication, filtrage de catégorie basé sur des quotas et enrichissement contextuel avant de livrer des briefings multilingues par email, webhooks ou déploiement de site statique. Les workflows sont orchestrés par une automatisation cloud récurrente pour gérer la collecte et la livraison planifiées des informations traitées.
Aggregates technical content from diverse sources like RSS, social platforms, and repositories into a unified structure.
Ce projet est un gestionnaire de paquets Android et un client de boutique d'applications conçu pour parcourir, installer et mettre à jour des logiciels open source depuis F-Droid et des dépôts tiers personnalisés. Il fonctionne comme un client de dépôt open source qui permet aux utilisateurs de découvrir des logiciels via un catalogue synchronisé. Le système dispose d'un cache de dépôt local, permettant aux utilisateurs de rechercher et de gérer leur bibliothèque logicielle en mode hors ligne sans connexion internet active. Il prend en charge la gestion de catalogues multi-sources pour agréger les données d'applications provenant de plusieurs URL de dépôt dans un index unique. Le client fournit des chemins d'installation de paquets flexibles, routant les déploiements via des invites basées sur la session, l'accès root ou l'élévation de privilèges spécialisée via Shizuku. Il inclut également une interrogation automatique des mises à jour en arrière-plan pour garder les applications installées à jour.
Aggregates application data from multiple custom and default repository URLs into a single unified index.
BibiGPT-v1 is an AI-powered media summarizer that generates concise summaries and enables interactive Q&A for audio and video content from multiple platforms. It uses large language models to process transcripts from sources like YouTube, Bilibili, and local files, delivering real-time streaming responses for an interactive chat experience. The project distinguishes itself by combining multi-platform content aggregation with a conversational learning assistant capability, allowing users to query audio and video content through AI-driven dialogue. It also includes export functionality for savi
Fetches and processes media from diverse sources like YouTube, Bilibili, and local files into a unified AI workflow.
DeepChat is a desktop application that connects to multiple cloud and local AI model providers through a single unified chat interface, while also integrating external ACP-compatible coding and task agents as selectable models. It manages local AI agent sessions with project folders, permission modes, and resumable context for long-running tasks, and connects external tools and data sources via the Model Context Protocol using StreamableHTTP, SSE, or Stdio transports. The application distinguishes itself by supporting remote desktop session control, binding messaging app channels to sessions
Displays Markdown, code blocks, images, Mermaid diagrams, and artifacts within conversations for diverse result presentation.
Podcastfy is an AI content-to-podcast generator that converts text, URLs, PDFs, images, and videos into conversational audio podcasts. It integrates with over 100 language models for transcript creation and multiple text-to-speech engines for audio output, with support for customizable dialogue style and optional local transcript generation for privacy. The project distinguishes itself through a flexible architecture that decouples job submission from result retrieval via asynchronous polling, normalizes heterogeneous inputs into uniform text, and routes content through pluggable LLM and TTS
Transforms heterogeneous inputs like text, URLs, images, and PDFs into a uniform text representation.
Returns images or media from tools, allowing the LLM to analyze visual content.
Ce projet est une bibliothèque agnostique de framework pour construire des interfaces accessibles de type "recherche à la frappe". Elle fournit une couche logique headless qui découple la gestion de l'état de recherche et le filtrage des résultats de la présentation visuelle, permettant aux développeurs de conserver un contrôle total sur la structure HTML et le style sous-jacents. La bibliothèque se distingue par une architecture hautement modulaire qui prend en charge l'agrégation de données multi-sources, permettant la combinaison de résultats provenant de tableaux statiques, d'API distantes et d'index externes dans une interface unique. Elle dispose d'un moteur de rendu flexible qui s'intègre à diverses bibliothèques de DOM virtuel, ainsi qu'un système basé sur des plugins pour étendre les fonctionnalités avec des options comme les suggestions de requêtes, l'historique de recherche récent et les redirections personnalisées. Le système couvre un large éventail de capacités de recherche, y compris l'intégration de l'IA générative pour des réponses contextuelles, le filtrage des résultats en temps réel et l'ajustement de la pertinence. Il inclut des outils d'observabilité intégrés pour suivre les interactions des utilisateurs et l'état du réseau, ainsi qu'une prise en charge complète des normes d'accessibilité WAI-ARIA pour assurer une navigation inclusive au clavier et au lecteur d'écran. La bibliothèque est conçue pour une intégration dans divers environnements web, offrant des utilitaires de configuration pour les sources de données, la localisation de l'interface et les optimisations spécifiques aux mobiles.
Aggregates search results from diverse sources like static arrays, remote APIs, and external indices into a single unified interface.
TAICHI-flet est un navigateur de ressources intégré à l'IA et une application de bureau Windows construite avec Flet. Il sert de hub multimédia centralisé et d'agrégateur de contenu web conçu pour combiner des utilitaires d'intelligence artificielle avec des outils pour rechercher et accéder à des films, de la musique et des logiciels. L'application permet l'agrégation de ressources provenant de sources multiples, incluant des lecteurs de stockage cloud et des adresses web externes. Elle fournit des outils spécialisés pour le streaming et le téléchargement d'animes et de musique, la lecture de romans en ligne avec synthèse vocale, et l'automatisation d'opérations sur le système d'exploitation Windows en utilisant l'intelligence artificielle. L'interface inclut un système de navigation par onglets pour basculer entre les catégories de contenu et un système de gestion de thèmes pour personnaliser l'esthétique du bureau et les fonds d'écran. Les capacités techniques incluent l'utilisation de serveurs proxy pour contourner les restrictions de sécurité cross-origin pour les images distantes et le traitement par thread démon pour maintenir la réactivité de l'interface pendant les tâches de longue durée.
Aggregates multimedia and software resources from various web APIs and cloud drives into a unified interface.
Proxypool est un crawler et agrégateur de proxy automatisé qui découvre, valide et organise des serveurs proxy à partir de pages publiques et d'adresses d'abonnement. Il fonctionne comme un service d'arrière-plan qui collecte des nœuds proxy à travers plusieurs protocoles et sert la liste validée résultante via une API réseau pour une consommation externe. Le système gère l'intégralité du cycle de vie de la découverte de proxy en agrégeant des données provenant de sources multiples, en dédupliquant les entrées et en utilisant un validateur de connectivité pour s'assurer que seuls les nœuds actifs et fonctionnels sont maintenus. Les sources de crawl sont gérées via un fichier de configuration pour cibler des adresses externes spécifiques. Le projet gère la gestion continue de la liste de proxys via des tâches d'arrière-plan planifiées qui automatisent le rafraîchissement et la mise à jour des nœuds disponibles. Ce processus inclut des tests de connectivité automatisés et l'élagage des serveurs inactifs pour garder la liste organisée à jour.
Collects and merges proxy nodes from multiple public pages and channels into a single curated list.
ShuiZe_0x727 is an open-source intelligence gathering framework and attack surface management tool. It functions as an asset discovery engine and cyber intelligence aggregator designed to identify internet-facing assets, map network infrastructure, and visualize total network exposure. The project integrates vulnerability scanning and sensitive data leak detection to identify security weaknesses and unauthorized access points. It employs a combination of network space API queries, certificate log analysis, and public repository scanning to extract leaked credentials, API keys, and internal ad
Merges technical data from certificate logs, DNS records, and crawlers into a single asset structure.
UserScripts is a collection of JavaScript browser userscripts designed to modify website behavior and add custom functionality to web browsers. It serves as a multi-purpose toolset for web page content automation, web interface enhancement, and specialized web scraping and downloading. The project distinguishes itself through a wide range of specialized utilities, including a browser-based text transformer for character encoding and terminology mapping, and tools for bypassing content censorship. It provides advanced web scraping capabilities such as deciphering obfuscated download links, agg
Aggregates multi-chapter text from web pages into a single file by detecting main content automatically.
Aidoku is a manga reader application and digital library manager. It serves as a modular content aggregator that allows users to discover, download, and read manga from various third-party sources and local files. The application utilizes a modular source plugin system to integrate external provider packages, enabling the ingestion of content from multiple third-party sources. It includes a sync engine that communicates with external tracking APIs to maintain consistent reading progress across different platforms. The system covers manga library management, including the ability to search fo
Merges manga content from disparate third-party sources into a unified internal structure for consistent rendering.