13 repositorios
Utilities for parsing, extracting, and manipulating document formats.
Explore 13 awesome GitHub repositories matching part of an awesome list · Document Processing. Refine with filters or upvote what's useful.
SheetJS is a comprehensive library for parsing, manipulating, and generating complex spreadsheet file formats. It functions as a universal data processor that maps diverse binary, XML, and text-based file structures into a unified internal object model, allowing developers to create, read, and transform workbook data programmatically. The library distinguishes itself through a portable logic layer that provides a consistent execution environment across web browsers, server-side runtimes, and native desktop or mobile applications. By utilizing stream-based processing, it handles large files in
Spreadsheet data processing and manipulation toolkit.
jsPDF is a JavaScript PDF generation library and client-side engine that produces documents directly on the user's device. It provides a scriptable interface for creating PDF files within web browsers and other JavaScript runtime environments without requiring a backend server. The library includes a tool for defining document dimensions, orientation, and measurement units to control page layout. It also functions as a Unicode font integrator, allowing for the embedding of custom font files to support diverse languages and special characters. Capability areas cover dynamic document automatio
Client-side generation of PDF files.
ExcelJS is a Node.js spreadsheet engine and manipulation library used for reading, writing, and modifying XLSX and CSV files. It functions as a formatting tool and asynchronous streaming parser for generating complex workbooks containing formulas, rich text, and custom styles. The library is distinguished by its ability to process large datasets using asynchronous data streaming and incremental processing, which minimizes memory usage during data extraction and file generation. Its capability surface covers comprehensive data management, including structured tables, named ranges, and cell da
Comprehensive management and manipulation of Excel worksheets.
pdfkit is a JavaScript PDF generation library used to programmatically create binary PDF documents in Node.js and browser environments. It functions as a vector graphics engine for rendering paths, shapes, gradients, and tiling patterns, and as a tool for producing rich text and tagged documents that follow international accessibility standards for screen reader compatibility. The library includes a security and encryption utility for applying document encryption and restricting user permissions regarding printing, copying, or editing. It also serves as a form and annotation tool, enabling th
Cross-environment PDF document generation library.
nodeppt es un generador de presentaciones en markdown y generador de sitios estáticos que transforma archivos fuente markdown en presentaciones interactivas basadas en web. Consiste en una herramienta de compilación de línea de comandos y un runtime frontend especializado utilizado para entregar presentaciones en un navegador web. El proyecto cuenta con un runtime de presentación de doble pantalla que sincroniza la vista de la audiencia con un monitor privado de notas del orador. Emplea un pipeline de markdown basado en plugins y un sistema de transformación DOM de post-procesamiento para convertir sintaxis personalizada en contenido HTML estructurado. El framework admite la generación de contenido técnico, incluyendo renderizado de fórmulas matemáticas, resaltado de sintaxis de código e incrustación de diagramas interactivos. Proporciona un sistema de layout para diseños de rejilla y tarjetas, efectos de movimiento visual y visualizaciones basadas en datos. Se incluye un servidor de desarrollo local para iteración en tiempo real, y se proporciona una utilidad para exportar presentaciones como documentos PDF.
Web-based presentation and slideshow tool.
pypdf is a Python library for parsing, manipulating, and generating PDF documents. It provides high-level operations for document processing, such as merging multiple files into one or splitting a single document into smaller files. The project includes specialized tools for managing interactive elements, including the creation and modification of annotations, hyperlinks, and form fields. It also supports advanced metadata management, allowing for the extraction and modification of standard document properties and XML-based XMP metadata. Beyond basic structural changes, the library covers pa
Divides single PDF files into smaller documents by extracting specific page ranges.
pdf-lib es una biblioteca de manipulación de PDF en JavaScript utilizada para crear, modificar y editar documentos PDF de forma programática. Funciona como una herramienta multiplataforma compatible con Node, navegadores, Deno y entornos móviles de JavaScript. La biblioteca proporciona una interfaz programática para la edición de documentos y la generación de formularios. Admite la creación de formularios PDF interactivos, el llenado de campos existentes con datos personalizados y la aplanación de formularios en contenido estático. Sus capacidades más amplias incluyen la generación de nuevos documentos desde cero, la reorganización o copia de páginas entre archivos y la gestión de metadatos de documentos. También permite dibujar contenido visual como texto, imágenes y gráficos vectoriales, así como incrustar fuentes personalizadas y adjuntar archivos externos.
Creation and modification of PDF documents.
Conversion of Word documents into clean HTML.
docx es una librería de JavaScript y TypeScript para la generación y manipulación programática de documentos de Word. Sirve como un generador de documentos OOXML, permitiendo a los desarrolladores crear archivos de oficina formateados mediante código en lugar de edición manual. La librería permite la automatización de documentos tanto en entornos de Node.js como de navegador web. Soporta la exportación de documentos del lado del cliente, permitiendo a los usuarios generar y descargar archivos directamente en el navegador sin un servidor backend. Las capacidades incluyen la capacidad de definir diseños de página, márgenes y orientación. Los usuarios pueden insertar programáticamente elementos de documento como texto, listas, tablas e imágenes para construir estructuras de documentos personalizadas e informes automatizados.
API-driven generation of Word documents.
Percollate es una herramienta de línea de comandos para convertir páginas web y feeds RSS en archivos estructurados. Funciona como un convertidor de contenido web, generador de documentos estáticos y empaquetador de páginas que transforma contenido online en formatos PDF, EPUB, HTML o Markdown. La herramienta crea documentos autocontenidos embebiendo imágenes externas como URLs de datos codificados y aplicando plantillas HTML y hojas de estilo CSS personalizadas. Puede combinar múltiples URLs web o entradas de feed en un solo libro digital que cuenta con una tabla de contenido generada e índice hipervinculado. Las capacidades adicionales incluyen la descomposición de feeds Atom y RSS en artículos individuales y la programación secuencial de solicitudes para gestionar el ritmo del tráfico al recuperar contenido de servidores.
CLI tool for converting web pages into PDF or EPUB.
Creating Office Open XML files (Word, Excel and Powerpoint) for Microsoft Office 2007 and later without external tools, just pure Javascript. officegen should work on any environment that supports Node.js including Linux, OSX and Windows. officegen also supporting PowerPoint native charts…
Stream-based generation of Word, PowerPoint, and Excel documents.
pdf2json is a node.js module that converts binary PDF to JSON and text. Built with pdf.js, it extracts text content and interactive form elements for server-side processing and command-line use.
Parsing PDF binary files into structured JSON.
Excel XLSX parser/generator written in JavaScript with Node.js and browser support, jQuery/d3-style method chaining, encryption, and a focus on keeping existing workbook features and styles in tact.
Generation and parsing of Excel XLSX files.