8 dépôts
Internal data models that normalize diverse input formats into a consistent structure for uniform processing.
Explore 8 awesome GitHub repositories matching data & databases · Intermediate Representations. Refine with filters or upvote what's useful.
Docling is a modular framework designed for document parsing, layout analysis, and structured data extraction. It transforms unstructured files and web content into a unified, hierarchical data model that preserves the spatial and semantic relationships between text, tables, images, and layout elements. By normalizing diverse input formats into a consistent internal representation, the library enables uniform processing across various document types. The project distinguishes itself through a schema-driven approach that maps document regions to strongly-typed objects, ensuring data accuracy t
Normalizes diverse input formats into a consistent internal data model to enable uniform processing across different sources.
This project is a diagram-as-code tool that transforms declarative text scripts into professional visual representations. It functions as a technical documentation generator, allowing users to define nodes, connections, and hierarchical relationships through a domain-specific modeling language that integrates directly into version-controlled developer workflows. The tool distinguishes itself through a highly modular architecture that decouples diagram definitions from spatial positioning. It features a pluggable layout engine that supports multiple arrangement algorithms, alongside a styling
Normalizes input scripts into a unified intermediate graph representation to facilitate consistent cross-format rendering.
DataX is a distributed data integration framework and plugin-based ETL tool designed for synchronizing large datasets between heterogeneous sources and destinations. It functions as a JDBC data migration engine and offline synchronization tool, enabling the movement of data between relational databases, NoSQL stores, and object storage. The system utilizes a plugin-based connector architecture that decouples reader and writer logic, allowing it to map and transform data types across different storage engines using a standardized internal representation. This design supports heterogeneous data
Employs internal data models that normalize diverse input formats into a consistent structure for uniform processing across different storage engines.
dbt-core is a command-line framework for transforming data within a warehouse using modular SQL and version control. It functions as a data transformation engine that enables users to define data structures and business logic through declarative configuration files, which the system then compiles into executable code. By managing complex data dependencies through a directed acyclic graph, it ensures that transformation tasks execute in the correct order while maintaining a manifest-driven state to track lineage and execution history. The project distinguishes itself through an adapter-based d
Separates complex, multi-step data processing into dedicated models to simplify final reporting tables.
Clair is a container image vulnerability scanner and security analyzer. It performs static analysis of container images by matching package contents against vulnerability databases to identify security risks across different package formats and architectures. The project functions as both an image indexer and a vulnerability database manager. It processes container layers into intermediate representations to enable fast security lookups and synchronizes security metadata from multiple external sources to maintain a local registry. Capability areas include continuous security monitoring, whic
Transforms raw package data into a standardized intermediate representation to correlate source-level packages with binary versions.
Ce projet est un utilitaire de profilage écrit en Rust qui capture, transforme et visualise les piles d'appels de fonctions pour identifier les goulots d'étranglement des performances du système. Il fonctionne comme un wrapper de profileur d'échantillonnage qui convertit les données de profilage brutes en flamegraphs interactifs, qui sont des cartes hiérarchiques de la consommation des ressources. L'outil fournit une intégration spécialisée avec le système de build Rust pour profiler les binaires et les benchmarks de performance. Il permet également des configurations de profilage personnalisées, permettant aux utilisateurs d'outrepasser les outils de profilage système par défaut ou les indicateurs d'enregistrement pour contrôler la manière dont les données sont collectées. L'utilitaire prend en charge la surveillance des performances des applications et l'analyse de l'exécution binaire. Il peut capturer des données de performance en s'attachant à un ID de processus actif pour analyser une application en cours d'exécution sans nécessiter de redémarrage.
Normalizes raw text output from various profiling tools into a consistent internal call stack representation.
Poml is a prompt management framework and templating engine designed for authoring, versioning, and rendering structured prompts for large language models. It uses a semantic markup language to organize prompts into reusable templates, combining them with dynamic context and data to generate formatted inputs. The system distinguishes itself by decoupling core prompt logic from final presentation through a stylesheet-based approach. It provides a dedicated JSON schema output generator to enforce strict, machine-parsable model responses and a configuration interface for managing function tool s
Transforms semantic XML-like syntax into a structured internal tree for consistent processing across different models.
Dokka est un moteur de documentation extensible conçu pour générer des supports de référence API structurés pour les projets Kotlin. En analysant le code source et les commentaires, il fonctionne comme un générateur de site statique qui transforme les bases de code en documentation lisible. Il s'intègre directement dans les workflows de développement en tant que plugin de système de build, permettant la création automatisée de supports de référence pendant le processus de compilation standard. Le projet se distingue par un pipeline de traitement modulaire piloté par des plugins qui permet aux développeurs de modifier le workflow de génération, de personnaliser les formats de sortie et d'ajuster le style visuel. Il prend en charge des structures de projet complexes en agrégeant la documentation de plusieurs sous-projets en une seule sortie unifiée. De plus, il inclut un moteur de références croisées qui résout les symboles de code internes et les liens vers la documentation de bibliothèques externes, garantissant que les supports générés restent connectés et navigables. Le moteur offre un contrôle étendu sur la sortie finale, y compris la possibilité de filtrer des éléments de code spécifiques, d'intégrer des exemples d'utilisation en direct et de lier directement vers des dépôts de code source distants. Il prend en charge plusieurs formats de sortie, tels que HTML, Markdown et Javadoc, et permet une personnalisation poussée des templates et des assets pour répondre à des exigences spécifiques de branding ou de documentation. L'outil est conçu pour être invoqué via des interfaces en ligne de commande ou via des intégrations natives d'outils de build, facilitant son utilisation dans des pipelines de déploiement automatisés.
Normalizes diverse source code structures into a unified model to facilitate consistent documentation output.