Why is axa-group/parsr a recommended Data Extraction Visualizers GitHub Repositories repository?

Provides a graphical tool to compare original document layouts against the extracted structured data output.

Why is katanaml/sparrow a recommended Data Extraction Visualizers GitHub Repositories repository?

Generates bounding box coordinates for extracted elements to provide visual grounding for the data.

2 Repos

Awesome GitHub RepositoriesData Extraction Visualizers

Interfaces for visually auditing and comparing structured data output against original source documents.

Distinct from Web Inspection Utilities: None of the candidates cover the specific use case of comparing parsed structured data against a visual document layout.

Explore 2 awesome GitHub repositories matching user interface & experience · Data Extraction Visualizers. Refine with filters or upvote what's useful.

Finde die besten Repos mit KI.Wir suchen mit KI nach den am besten passenden Repositories.

axa-group/parsr
axa-group/Parsr
6,178Auf GitHub ansehen
Parsr ist ein Extraktor für unstrukturierte Daten und eine Dokumenten-Parsing-Pipeline, die Rohdateien und Bilder in bereinigte, maschinenlesbare Formate konvertiert. Es fungiert als Dokumenten-Layout-Analysator und Pipeline zur Extraktion strukturierter Daten und Labels mittels Large Language Models. Das System enthält einen Dokumenten-Parsing-Visualizer, der ein grafisches Interface bietet, um Dokumente hochzuladen und den resultierenden strukturierten Datenausgang zu inspizieren. Das Projekt deckt Dokumentendigitalisierungs-Workflows ab, einschließlich Layout-Analyse zur Erkennung von Überschriften, Tabellen und Listen sowie automatisierte Dateneingabe durch die Bereinigung und Anreicherung unstrukturierter Inhalte.
Provides a graphical tool to compare original document layouts against the extracted structured data output.
JavaScript
Auf GitHub ansehen6,178
katanaml/sparrow
katanaml/sparrow
5,162Auf GitHub ansehen
Sparrow ist eine LLM-Plattform zur Dokumentenextraktion und eine vision-basierte Inferenz-Engine, die darauf ausgelegt ist, Bilder und PDFs in validierte, strukturierte Daten umzuwandeln. Sie fungiert als agentischer Workflow-Orchestrator, der Klassifizierungs-, Extraktions- und Validierungsaufgaben in mehrstufige Pipelines verkettet. Das System zeichnet sich durch eine Backend-agnostische Inferenzschicht aus, die Modelle über lokale GPUs, Apple Silicon und Cloud-Anbieter hinweg verwaltet. Es nutzt koordinatenbasiertes Visual Grounding, um extrahierten Text präzisen Bounding-Box-Koordinaten zuzuordnen, und verwendet hinweisgesteuerte Modellsteuerung, um die Aufmerksamkeit zu lenken und Datenformate zu normalisieren. Die Plattform deckt Workflows für Dokumentenintelligenz ab, einschließlich spezialisierter bildbasierter Tabellenverarbeitung zur Wahrung der strukturellen Integrität sowie schema-basierter Validierung zur Überprüfung der Korrektheit extrahierter Felder. Zudem bietet sie ein Dashboard zur Dokumentenanalyse für das Monitoring von API-Performance, Nutzungsstatistiken und Systemzustand. Die Architektur umfasst ein Plugin-basiertes Erweiterungssystem zur Integration von Drittanbieter-Bibliotheken für Indizierung und Orchestrierung.
Generates bounding box coordinates for extracted elements to provide visual grounding for the data.
Pythonagentic-aicomputer-visiondocumentai
Auf GitHub ansehen5,162

Awesome Data Extraction Visualizers GitHub Repositories

axa-group/Parsr

katanaml/sparrow

Unter-Tags erkunden