13 Repos
Utilities for parsing, extracting, and manipulating document formats.
Explore 13 awesome GitHub repositories matching part of an awesome list · Document Processing. Refine with filters or upvote what's useful.
SheetJS is a comprehensive library for parsing, manipulating, and generating complex spreadsheet file formats. It functions as a universal data processor that maps diverse binary, XML, and text-based file structures into a unified internal object model, allowing developers to create, read, and transform workbook data programmatically. The library distinguishes itself through a portable logic layer that provides a consistent execution environment across web browsers, server-side runtimes, and native desktop or mobile applications. By utilizing stream-based processing, it handles large files in
Spreadsheet data processing and manipulation toolkit.
jsPDF is a JavaScript PDF generation library and client-side engine that produces documents directly on the user's device. It provides a scriptable interface for creating PDF files within web browsers and other JavaScript runtime environments without requiring a backend server. The library includes a tool for defining document dimensions, orientation, and measurement units to control page layout. It also functions as a Unicode font integrator, allowing for the embedding of custom font files to support diverse languages and special characters. Capability areas cover dynamic document automatio
Client-side generation of PDF files.
ExcelJS is a Node.js spreadsheet engine and manipulation library used for reading, writing, and modifying XLSX and CSV files. It functions as a formatting tool and asynchronous streaming parser for generating complex workbooks containing formulas, rich text, and custom styles. The library is distinguished by its ability to process large datasets using asynchronous data streaming and incremental processing, which minimizes memory usage during data extraction and file generation. Its capability surface covers comprehensive data management, including structured tables, named ranges, and cell da
Comprehensive management and manipulation of Excel worksheets.
pdfkit is a JavaScript PDF generation library used to programmatically create binary PDF documents in Node.js and browser environments. It functions as a vector graphics engine for rendering paths, shapes, gradients, and tiling patterns, and as a tool for producing rich text and tagged documents that follow international accessibility standards for screen reader compatibility. The library includes a security and encryption utility for applying document encryption and restricting user permissions regarding printing, copying, or editing. It also serves as a form and annotation tool, enabling th
Cross-environment PDF document generation library.
nodeppt ist ein Markdown-Präsentationsgenerator und statischer Seitengenerator, der Markdown-Quelldateien in interaktive webbasierte Slide-Decks transformiert. Er besteht aus einem Command-Line-Build-Tool und einer spezialisierten Frontend-Runtime, die verwendet wird, um Präsentationen in einem Webbrowser bereitzustellen. Das Projekt bietet eine Dual-Screen-Präsentations-Runtime, die die Zuschaueransicht mit einem privaten Monitor für Sprechernotizen synchronisiert. Es verwendet eine Plugin-basierte Markdown-Pipeline und ein DOM-Transformationssystem für die Nachbearbeitung, um benutzerdefinierte Syntax in strukturierten HTML-Inhalt zu konvertieren. Das Framework unterstützt die Generierung technischer Inhalte, einschließlich Rendering mathematischer Formeln, Code-Syntax-Highlighting und Einbettung interaktiver Diagramme. Es bietet ein Layout-System für Grid- und Card-Designs, visuelle Bewegungseffekte und datengesteuerte Visualisierungen. Ein lokaler Entwicklungsserver ist für Echtzeit-Iterationen enthalten, und ein Utility wird bereitgestellt, um Präsentationen als PDF-Dokumente zu exportieren.
Web-based presentation and slideshow tool.
pypdf is a Python library for parsing, manipulating, and generating PDF documents. It provides high-level operations for document processing, such as merging multiple files into one or splitting a single document into smaller files. The project includes specialized tools for managing interactive elements, including the creation and modification of annotations, hyperlinks, and form fields. It also supports advanced metadata management, allowing for the extraction and modification of standard document properties and XML-based XMP metadata. Beyond basic structural changes, the library covers pa
Divides single PDF files into smaller documents by extracting specific page ranges.
pdf-lib ist eine JavaScript-Bibliothek zur PDF-Manipulation, die zum programmatischen Erstellen, Modifizieren und Bearbeiten von PDF-Dokumenten verwendet wird. Sie fungiert als Cross-Runtime-Tool, das mit Node, Browser, Deno und mobilen JavaScript-Umgebungen kompatibel ist. Die Bibliothek bietet eine programmatische Schnittstelle für die Dokumentenbearbeitung und Formulargenerierung. Sie unterstützt das Erstellen interaktiver PDF-Formulare, das Befüllen bestehender Felder mit benutzerdefinierten Daten und das Flattening von Formularen zu statischen Inhalten. Zu den weiteren Funktionen gehören das Generieren neuer Dokumente von Grund auf, das Neuanordnen oder Kopieren von Seiten zwischen Dateien sowie die Verwaltung von Dokumentenmetadaten. Zudem ermöglicht sie das Zeichnen visueller Inhalte wie Text, Bilder und Vektorgrafiken sowie das Einbetten benutzerdefinierter Schriftarten und das Anhängen externer Dateien.
Creation and modification of PDF documents.
Conversion of Word documents into clean HTML.
docx ist eine JavaScript- und TypeScript-Bibliothek für die programmatische Generierung und Manipulation von Word-Dokumenten. Sie dient als OOXML-Dokumentengenerator, der es Entwicklern ermöglicht, formatierte Office-Dateien durch Code anstatt durch manuelle Bearbeitung zu erstellen. Die Bibliothek ermöglicht Dokumentenautomatisierung sowohl in Node.js- als auch in Webbrowser-Umgebungen. Sie unterstützt clientseitigen Dokumentenexport, wodurch Nutzer Dateien direkt im Browser generieren und herunterladen können, ohne einen Backend-Server zu benötigen. Die Funktionen umfassen die Möglichkeit, Seitenlayouts, Ränder und Ausrichtung zu definieren. Nutzer können programmatisch Dokumentenelemente wie Text, Listen, Tabellen und Bilder einfügen, um benutzerdefinierte Dokumentstrukturen und automatisierte Berichte zu erstellen.
API-driven generation of Word documents.
Percollate ist ein Command-Line-Tool zur Konvertierung von Webseiten und RSS-Feeds in strukturierte Dateien. Es fungiert als Web-Content-Konverter, Generator für statische Dokumente und Page-Bundler, der Online-Inhalte in PDF-, EPUB-, HTML- oder Markdown-Formate umwandelt. Das Tool erstellt in sich geschlossene Dokumente, indem es externe Bilder als kodierte Daten-URLs einbettet und benutzerdefinierte HTML-Templates und CSS-Stylesheets anwendet. Es kann mehrere Web-URLs oder Feed-Einträge zu einem einzigen digitalen Buch zusammenfassen, das über ein generiertes Inhaltsverzeichnis und einen verlinkten Index verfügt. Zusätzliche Funktionen umfassen die Zerlegung von Atom- und RSS-Feeds in einzelne Artikel und die sequentielle Planung von Anfragen, um das Traffic-Pacing beim Abrufen von Inhalten von Servern zu verwalten.
CLI tool for converting web pages into PDF or EPUB.
Creating Office Open XML files (Word, Excel and Powerpoint) for Microsoft Office 2007 and later without external tools, just pure Javascript. officegen should work on any environment that supports Node.js including Linux, OSX and Windows. officegen also supporting PowerPoint native charts…
Stream-based generation of Word, PowerPoint, and Excel documents.
pdf2json is a node.js module that converts binary PDF to JSON and text. Built with pdf.js, it extracts text content and interactive form elements for server-side processing and command-line use.
Parsing PDF binary files into structured JSON.
Excel XLSX parser/generator written in JavaScript with Node.js and browser support, jQuery/d3-style method chaining, encryption, and a focus on keeping existing workbook features and styles in tact.
Generation and parsing of Excel XLSX files.