13 repository-uri
Utilities for parsing, extracting, and manipulating document formats.
Explore 13 awesome GitHub repositories matching part of an awesome list · Document Processing. Refine with filters or upvote what's useful.
SheetJS is a comprehensive library for parsing, manipulating, and generating complex spreadsheet file formats. It functions as a universal data processor that maps diverse binary, XML, and text-based file structures into a unified internal object model, allowing developers to create, read, and transform workbook data programmatically. The library distinguishes itself through a portable logic layer that provides a consistent execution environment across web browsers, server-side runtimes, and native desktop or mobile applications. By utilizing stream-based processing, it handles large files in
Spreadsheet data processing and manipulation toolkit.
jsPDF is a JavaScript PDF generation library and client-side engine that produces documents directly on the user's device. It provides a scriptable interface for creating PDF files within web browsers and other JavaScript runtime environments without requiring a backend server. The library includes a tool for defining document dimensions, orientation, and measurement units to control page layout. It also functions as a Unicode font integrator, allowing for the embedding of custom font files to support diverse languages and special characters. Capability areas cover dynamic document automatio
Client-side generation of PDF files.
ExcelJS is a Node.js spreadsheet engine and manipulation library used for reading, writing, and modifying XLSX and CSV files. It functions as a formatting tool and asynchronous streaming parser for generating complex workbooks containing formulas, rich text, and custom styles. The library is distinguished by its ability to process large datasets using asynchronous data streaming and incremental processing, which minimizes memory usage during data extraction and file generation. Its capability surface covers comprehensive data management, including structured tables, named ranges, and cell da
Comprehensive management and manipulation of Excel worksheets.
pdfkit is a JavaScript PDF generation library used to programmatically create binary PDF documents in Node.js and browser environments. It functions as a vector graphics engine for rendering paths, shapes, gradients, and tiling patterns, and as a tool for producing rich text and tagged documents that follow international accessibility standards for screen reader compatibility. The library includes a security and encryption utility for applying document encryption and restricting user permissions regarding printing, copying, or editing. It also serves as a form and annotation tool, enabling th
Cross-environment PDF document generation library.
nodeppt este un generator de prezentări markdown și un generator de site-uri statice care transformă fișierele sursă markdown în slide-uri interactive bazate pe web. Acesta constă într-un instrument de build în linie de comandă și un runtime frontend specializat utilizat pentru a livra prezentări într-un browser web. Proiectul dispune de un runtime de prezentare cu ecran dublu care sincronizează vizualizarea publicului cu un monitor privat pentru notițele vorbitorului. Utilizează un pipeline markdown bazat pe plugin-uri și un sistem de transformare DOM post-procesare pentru a converti sintaxa personalizată în conținut HTML structurat. Framework-ul suportă generarea de conținut tehnic, inclusiv randarea formulelor matematice, evidențierea sintaxei codului și încorporarea diagramelor interactive. Oferă un sistem de layout pentru design-uri de tip grid și card, efecte vizuale de mișcare și vizualizări bazate pe date. Este inclus un server de dezvoltare locală pentru iterație în timp real și este furnizat un utilitar pentru exportul prezentărilor ca documente PDF.
Web-based presentation and slideshow tool.
pypdf is a Python library for parsing, manipulating, and generating PDF documents. It provides high-level operations for document processing, such as merging multiple files into one or splitting a single document into smaller files. The project includes specialized tools for managing interactive elements, including the creation and modification of annotations, hyperlinks, and form fields. It also supports advanced metadata management, allowing for the extraction and modification of standard document properties and XML-based XMP metadata. Beyond basic structural changes, the library covers pa
Divides single PDF files into smaller documents by extracting specific page ranges.
pdf-lib este o bibliotecă JavaScript de manipulare PDF utilizată pentru crearea, modificarea și editarea programatică a documentelor PDF. Funcționează ca un instrument cross-runtime compatibil cu Node, Browser, Deno și medii JavaScript mobile. Biblioteca oferă o interfață programatică pentru editarea documentelor și generarea de formulare. Suportă crearea de formulare PDF interactive, popularea câmpurilor existente cu date personalizate și aplatizarea formularelor în conținut static. Capabilitățile sale mai largi includ generarea de documente noi de la zero, rearanjarea sau copierea paginilor între fișiere și gestionarea metadatelor documentelor. De asemenea, permite desenarea de conținut vizual, cum ar fi text, imagini și grafică vectorială, precum și încorporarea de fonturi personalizate și atașarea de fișiere externe.
Creation and modification of PDF documents.
Conversion of Word documents into clean HTML.
docx este o bibliotecă JavaScript și TypeScript pentru generarea și manipularea programatică a documentelor Word. Servește drept generator de documente OOXML, permițând dezvoltatorilor să creeze fișiere office formatate prin cod în loc de editare manuală. Biblioteca permite automatizarea documentelor atât în medii Node.js, cât și în browser-ul web. Suportă exportul documentelor client-side, permițând utilizatorilor să genereze și să descarce fișiere direct în browser fără un server backend. Capabilitățile includ capacitatea de a defini layout-uri de pagină, margini și orientare. Utilizatorii pot insera programatic elemente de document precum text, liste, tabele și imagini pentru a construi structuri de documente personalizate și rapoarte automatizate.
API-driven generation of Word documents.
Percollate este un instrument în linie de comandă pentru convertirea paginilor web și a fluxurilor RSS în fișiere structurate. Funcționează ca un convertor de conținut web, generator de documente statice și bundler de pagini care transformă conținutul online în formate PDF, EPUB, HTML sau Markdown. Instrumentul creează documente auto-conținute prin încorporarea imaginilor externe ca URL-uri de date codificate și aplicarea de template-uri HTML și stylesheet-uri CSS personalizate. Poate combina mai multe URL-uri web sau intrări de flux într-o singură carte digitală care dispune de un cuprins generat și un index cu hyperlink-uri. Capabilitățile suplimentare includ descompunerea fluxurilor Atom și RSS în articole individuale și programarea secvențială a cererilor pentru a gestiona ritmul traficului la preluarea conținutului de pe servere.
CLI tool for converting web pages into PDF or EPUB.
Creating Office Open XML files (Word, Excel and Powerpoint) for Microsoft Office 2007 and later without external tools, just pure Javascript. officegen should work on any environment that supports Node.js including Linux, OSX and Windows. officegen also supporting PowerPoint native charts…
Stream-based generation of Word, PowerPoint, and Excel documents.
pdf2json is a node.js module that converts binary PDF to JSON and text. Built with pdf.js, it extracts text content and interactive form elements for server-side processing and command-line use.
Parsing PDF binary files into structured JSON.
Excel XLSX parser/generator written in JavaScript with Node.js and browser support, jQuery/d3-style method chaining, encryption, and a focus on keeping existing workbook features and styles in tact.
Generation and parsing of Excel XLSX files.