2 Repos
Interfaces for visually auditing and comparing structured data output against original source documents.
Distinct from Web Inspection Utilities: None of the candidates cover the specific use case of comparing parsed structured data against a visual document layout.
Explore 2 awesome GitHub repositories matching user interface & experience · Data Extraction Visualizers. Refine with filters or upvote what's useful.
Parsr ist ein Extraktor für unstrukturierte Daten und eine Dokumenten-Parsing-Pipeline, die Rohdateien und Bilder in bereinigte, maschinenlesbare Formate konvertiert. Es fungiert als Dokumenten-Layout-Analysator und Pipeline zur Extraktion strukturierter Daten und Labels mittels Large Language Models. Das System enthält einen Dokumenten-Parsing-Visualizer, der ein grafisches Interface bietet, um Dokumente hochzuladen und den resultierenden strukturierten Datenausgang zu inspizieren. Das Projekt deckt Dokumentendigitalisierungs-Workflows ab, einschließlich Layout-Analyse zur Erkennung von Überschriften, Tabellen und Listen sowie automatisierte Dateneingabe durch die Bereinigung und Anreicherung unstrukturierter Inhalte.
Provides a graphical tool to compare original document layouts against the extracted structured data output.
Sparrow ist eine LLM-Plattform zur Dokumentenextraktion und eine vision-basierte Inferenz-Engine, die darauf ausgelegt ist, Bilder und PDFs in validierte, strukturierte Daten umzuwandeln. Sie fungiert als agentischer Workflow-Orchestrator, der Klassifizierungs-, Extraktions- und Validierungsaufgaben in mehrstufige Pipelines verkettet. Das System zeichnet sich durch eine Backend-agnostische Inferenzschicht aus, die Modelle über lokale GPUs, Apple Silicon und Cloud-Anbieter hinweg verwaltet. Es nutzt koordinatenbasiertes Visual Grounding, um extrahierten Text präzisen Bounding-Box-Koordinaten zuzuordnen, und verwendet hinweisgesteuerte Modellsteuerung, um die Aufmerksamkeit zu lenken und Datenformate zu normalisieren. Die Plattform deckt Workflows für Dokumentenintelligenz ab, einschließlich spezialisierter bildbasierter Tabellenverarbeitung zur Wahrung der strukturellen Integrität sowie schema-basierter Validierung zur Überprüfung der Korrektheit extrahierter Felder. Zudem bietet sie ein Dashboard zur Dokumentenanalyse für das Monitoring von API-Performance, Nutzungsstatistiken und Systemzustand. Die Architektur umfasst ein Plugin-basiertes Erweiterungssystem zur Integration von Drittanbieter-Bibliotheken für Indizierung und Orchestrierung.
Generates bounding box coordinates for extracted elements to provide visual grounding for the data.