7 dépôts
Systems that collect and consolidate information from multiple disparate sources into a unified format.
Distinct from Bug Bounty Report Mappings: Existing candidates focus on reporting templates or specific CVE mappings rather than the process of aggregating feeds into a dataset.
Explore 7 awesome GitHub repositories matching data & databases · Data Aggregators. Refine with filters or upvote what's useful.
Edict is a multi-agent orchestration system and framework designed to coordinate specialized large language model agents. It functions as a workflow designer and orchestrator that decomposes complex objectives into structured plans, using directed acyclic graphs and role-based hierarchies to execute sub-tasks. The system is distinguished by its event-driven architecture, utilizing a publish-subscribe event bus and transactional outbox to manage agent communications and task transitions. It features a dedicated skill management system that allows for the importation, updating, and sandboxed ex
Collects and summarizes information from multiple third-party platforms into consolidated datasets for agent processing.
Pinot is a distributed, columnar analytical database designed for high-concurrency, low-latency query processing. It functions as a real-time OLAP datastore, enabling interactive, user-facing analytics by ingesting and querying massive datasets from both streaming and batch sources. The system architecture relies on a centralized controller for cluster coordination and a distributed segment-based storage model to ensure horizontal scalability. The platform distinguishes itself through a hybrid ingestion pipeline that unifies real-time event streams and historical batch data into a single quer
Sources events from streaming platforms into a unified SQL-queryable view with tenant isolation for teams.
hackerone-reports is a bug bounty dataset aggregator and vulnerability intelligence tool designed to scrape and parse public security reports from the HackerOne platform. It functions as a security report parser that transforms raw bug bounty feeds into structured datasets for analysis. The system automates the collection of public vulnerability reports to identify common security patterns and facilitate security research. It specializes in organizing these disclosures by bug type, payout amount, and target program to enable vulnerability trend analysis. The tool covers capabilities for scra
Collects high-impact security reports from public feeds and organizes them by type, payout, and program.
Akka.NET is an actor model framework used for building concurrent and distributed applications. It functions as a distributed computing platform and state manager that enables isolated actors to communicate via asynchronous message passing, ensuring thread-safe state management without manual locks. The project is distinguished by its decentralized coordination capabilities, including a distributed state manager that uses sharding and dynamic rebalancing to maintain high availability. It incorporates an event sourcing engine that persists state as a sequence of events in an append-only log an
Collects and consolidates information from groups of actors to generate reports or status queries.
m3 est une base de données de séries temporelles distribuée conçue pour les métriques haute résolution et la gestion de données à haute cardinalité. Elle fonctionne comme un système de stockage évolutif et un moteur de requête multi-cluster, fournissant un agrégateur de métriques distribué capable de sous-échantillonner et de résumer les données avant qu'elles ne soient validées dans le stockage. Le projet se distingue par un modèle de cluster coordonné utilisant etcd pour l'appartenance aux nœuds et le placement des shards. Il prend en charge plusieurs protocoles d'ingestion, notamment le protocole d'écriture à distance Prometheus, le protocole InfluxDB line et le protocole Graphite Carbon en texte brut, et fournit des interfaces de requête compatibles pour PromQL et Graphite. Le système couvre de larges domaines de capacités, notamment le stockage de séries temporelles en colonnes, la réplication synchrone des données et le fan-out de requêtes distribuées. Il intègre l'automatisation du cycle de vie des données, le réglage de la cohérence basé sur le quorum et l'indexation des séries basée sur les tags pour maintenir l'intégrité des données et la vitesse de récupération à travers des espaces de noms isolés. L'orchestration du cluster et le placement des composants sont gérés via des outils automatisés et des opérateurs pour assurer une haute disponibilité et une distribution équilibrée des données.
Provides a mechanism to output aggregated metrics to long-term storage for persistence.
mmocr est un framework de reconnaissance optique de caractères (OCR) basé sur PyTorch conçu pour entraîner et déployer des modèles de détection de texte, de reconnaissance et d'extraction d'informations clés. Il sert de boîte à outils complète pour la détection et la reconnaissance de texte dans les scènes, fournissant des bibliothèques spécialisées pour localiser les régions de texte et convertir le texte visuel en chaînes encodées par machine. Le projet se distingue par un framework de recherche pour l'extraction d'informations clés et des capacités avancées de repérage de texte. Celles-ci incluent le repérage basé sur des points utilisant des transformers et l'utilisation de courbes de Bezier paramétrées pour identifier et transcrire du texte de forme arbitraire. Le framework couvre une large surface de capacités de vision par ordinateur, notamment la gestion de pipeline de données pour augmenter et standardiser divers jeux de données OCR, l'entraînement de modèles avec mise à l'échelle distribuée et l'évaluation des performances utilisant des métriques OCR standard. Il fournit également des utilitaires pour la manipulation de polygones géométriques et la visualisation des résultats pour auditer les prédictions par rapport aux annotations de vérité terrain. Le système est implémenté en Python et prend en charge l'installation via l'empaquetage d'environnement Docker.
Aggregates multiple distinct data sources into a single unified dataset for training or evaluation.
Open Health est une plateforme de données de santé sécurisée et un gestionnaire de dossiers de santé personnels conçu pour collecter et stocker des antécédents médicaux disparates dans un emplacement centralisé unique. Il fonctionne comme un outil de conversation médicale alimenté par l'IA et un analyseur de données qui transforme des documents de santé non structurés en fichiers structurés pour l'analyse et le traitement. La plateforme intègre des modèles de langage de grande taille pour fournir des conseils de santé personnalisés en injectant des dossiers médicaux personnels structurés dans le contexte du modèle. Cela permet la génération de réponses médicales adaptées basées sur les données de santé spécifiques de l'utilisateur. Le système couvre la gestion des données des patients via l'enregistrement de compte utilisateur et la validation d'identité pour protéger les informations sensibles. Il fournit en outre des capacités pour la structuration des dossiers médicaux et la consolidation des données de santé provenant de sources multiples.
Provides a system to collect and consolidate disparate medical records into a unified format for a comprehensive health overview.