14 repositorios
Command-line utilities for batch processing and exporting images.
Distinguishing note: Focuses on CLI-based automation for image tasks.
Explore 14 awesome GitHub repositories matching development tools & productivity · CLI Image Processing Tools. Refine with filters or upvote what's useful.
Aseprite is a specialized graphics editor and animation suite designed for the creation of pixel-based artwork. It provides a comprehensive environment for managing multi-layered animation sequences, offering tools for frame-by-frame design, onion skinning, and real-time motion previews. The application is built to handle both indexed color palettes and full-color RGB editing, allowing users to maintain precise control over pixel data and transparency. What distinguishes Aseprite is its focus on programmable workflows and game asset production. It features a scriptable command architecture th
Supports command-line operations to convert, resize, and export sprite files.
ImageMagick is a comprehensive software suite for the creation, editing, composition, and conversion of digital images. It functions as both a command-line utility for batch processing and automation, and as a programming library that allows developers to integrate advanced image manipulation capabilities into external applications. The project is distinguished by its modular architecture, which supports hundreds of image formats through a pluggable coder system and external delegate libraries. It is designed for high-performance environments, utilizing memory-mapped pixel caching, stream-ori
Supports executing image conversion, composition, and editing tasks directly from the command line with support for batch processing.
Caire is a command-line image processing engine designed for content-aware resizing and batch manipulation. It utilizes seam carving algorithms to adjust image dimensions by identifying and removing low-energy pixels, allowing for the rescaling of images while preserving primary visual subjects and maintaining aspect ratios. The tool distinguishes itself through its ability to protect specific visual elements, such as human faces, from distortion during the resizing process. Users can apply custom binary masks to define regions for protection or forced removal, and the engine provides real-ti
Provides a command-line utility for batch processing, format conversion, and visual filtering via standard streams.
waifu2x-caffe is a deep learning image upscaler and denoiser that uses the Caffe framework to increase image resolution and remove noise from illustrations and photographs. It functions as a neural network image processor that reduces compression artifacts and pixelation while maintaining visual clarity. The project provides specialized neural network weights optimized separately for 2D illustrations and real-world photographs. It includes distinct processing for alpha channels to preserve transparency and employs test-time augmentation to improve output precision. The tool supports both a c
Provides command-line utilities for the automated batch upscaling and denoising of images.
pixelmatch is a JavaScript image comparison library and pixel-level difference detector. It identifies mismatched pixels between image data arrays and quantifies the differences based on a configurable sensitivity threshold. The tool generates visual difference maps that highlight specific pixel changes for manual review. It includes a command-line interface for comparing image files and exporting the resulting difference maps to the file system. The project provides capabilities for automated image analysis and visual regression testing, utilizing anti-aliasing heuristic filtering to ignore
Ships a command-line utility for comparing image files and exporting resulting difference maps.
Basic-pitch es un transcriptor de audio de red neuronal y detector de tono polifónico. Funciona como un convertidor de audio a MIDI que transforma grabaciones de audio polifónicas en eventos de notas MIDI y datos de pitch bend. El sistema preserva la expresión musical rastreando fluctuaciones de frecuencia continuas para convertir deslizamientos y vibrato en eventos de pitch bend MIDI. Utiliza un motor de inferencia conectable que permite configurar el tiempo de ejecución del modelo según el sistema operativo o las necesidades de aceleración de hardware. El proyecto proporciona una interfaz de línea de comandos para el procesamiento de audio por lotes y una interfaz programática para integrar la transcripción y la extracción de eventos de notas en software personalizado. Los resultados de la transcripción se pueden exportar como archivos MIDI, salidas de modelo sin procesar y hojas de cálculo de eventos de notas.
Exposes the model runtime through a terminal interface for batch processing and automated file conversion.
Clip es una herramienta de visualización de datos de línea de comandos diseñada para generar gráficos y diagramas basados en imágenes a partir de descripciones de texto. Funciona como un generador de gráficos que convierte datos escritos y patrones descriptivos en formatos visuales sin el uso de una interfaz gráfica de usuario. La herramienta se especializa en producir gráficos vectoriales escalables, traduciendo transformaciones de texto a gráfico en rutas vectoriales basadas en XML. Este enfoque permite la creación automatizada de ilustraciones técnicas y diagramas específicamente adecuados para la documentación de desarrolladores. El sistema emplea un motor de diseño basado en plantillas para posicionar elementos de gráficos y mapear estructuras de datos en formas geométricas y coordenadas visuales.
Provides a terminal interface for converting text commands into visual chart files.
Freeze es un generador de código a imagen y renderizador de salida de terminal que convierte código fuente y texto de terminal ANSI en imágenes de alta calidad. Funciona como una herramienta de línea de comandos que transforma texto y secuencias estilizadas en gráficos vectoriales escalables para su uso en documentación y presentaciones. La herramienta se diferencia al capturar la salida cruda de comandos de shell a través de un entorno de pseudo-terminal y traducir los códigos de escape y colores ANSI directamente en estilos SVG. Cuenta con una interfaz de usuario de terminal para el ajuste de parámetros en tiempo real y admite perfiles de configuración para mantener estilos visuales consistentes en múltiples exportaciones. La superficie de capacidad cubre la gestión de tipografía mediante la incrustación de fuentes personalizadas y el control de altura de línea, así como el estilo visual para marcos de ventana, sombras y márgenes. También incluye utilidades para el resaltado de sintaxis y el recorte de rangos de líneas específicos de fragmentos de código.
Provides a command-line interface for batch processing and exporting styled code images.
Bild es una biblioteca de procesamiento de imágenes implementada en el lenguaje de programación Go. Proporciona una colección de motores algorítmicos para la manipulación de imágenes, incluyendo un motor de kernel de convolución para filtrado, una herramienta de mezcla de imágenes para composición de capas y un generador de ruido procedimental para crear texturas sintéticas. El proyecto se distingue por sus capacidades de generación procedimental, implementando algoritmos de ruido Perlin, Gaussiano, binario y uniforme para producir distribuciones de píxeles aleatorias y patrones orgánicos. También cuenta con una interfaz de línea de comandos que permite a los usuarios aplicar efectos visuales, ajustes de color y transformaciones geométricas a archivos de imagen sin escribir código personalizado. La biblioteca cubre una amplia gama de capacidades de procesamiento de imágenes, incluyendo transformaciones geométricas como rotación, cizallamiento y zoom, así como manipulación de color y análisis de distribución. Proporciona herramientas para el análisis y segmentación de imágenes, filtrado morfológico y admite la lectura y escritura de datos de imagen en formatos PNG, JPEG, BMP y WebP.
Includes a command-line interface for applying visual effects, color adjustments, and geometric transformations.
NAPS2 is a suite of document scanning software consisting of a desktop application, a command-line interface tool, and a networked scanner server. It serves as an interface for capturing images from scanners via TWAIN and WIA drivers, organizing those captures into digital documents, and exporting them to various file formats. The project distinguishes itself by providing a networked scanner server that shares local hardware across a network for remote image capture. It also includes a command-line tool for automating document capture and image processing workflows through scripts and termina
Provides a command-line interface for automating document capture and image processing tasks.
Whisper streaming is an automated speech recognition engine designed to convert live audio into text. It functions as a network-based transcription server that accepts raw audio data from remote clients and returns incremental text results in real-time. The system distinguishes itself through its ability to process audio streams incrementally, allowing for immediate transcription and translation as speech is captured. It incorporates voice activity detection to isolate human speech from background noise and utilizes sliding-window buffering to manage incoming audio segments, ensuring that pro
Replays pre-recorded audio files to mimic live streaming conditions for testing latency and benchmarking performance.
Vocal-separate es una herramienta de procesamiento de audio diseñada para aislar pistas vocales e instrumentales de archivos de audio y video. Funciona como un motor de inteligencia artificial local que realiza la separación de fuentes directamente en la máquina del usuario, asegurando la privacidad de los datos al eliminar la necesidad de conectividad con servidores externos. El sistema proporciona una interfaz de control basada en navegador para gestionar subidas de medios y monitorear tareas de procesamiento. Para manejar la descomposición intensiva de señales, utiliza procesamiento de tensores acelerado por hardware, que descarga cálculos matemáticos complejos a hardware gráfico dedicado para mejorar la velocidad y la eficiencia de la memoria. El software incluye una cola de tareas asíncrona para gestionar múltiples solicitudes secuencialmente y soporta integración programática a través de una interfaz de red local. Esto permite a los usuarios automatizar flujos de trabajo de separación de audio por lotes conectando scripts o aplicaciones personalizadas al motor de procesamiento.
Supports batch audio separation workflows through integration with custom scripts and applications.
Esta utilidad de línea de comandos proporciona una interfaz especializada para gestionar y manipular archivos de audiolibros. Funciona como un motor de procesamiento diseñado para manejar la fusión, división y estandarización de formatos de audio, permitiendo a los usuarios organizar grandes colecciones a través de flujos de trabajo automatizados. La herramienta se distingue por integrar detección de silencio para identificar automáticamente puntos de ruptura lógicos para la creación y segmentación de capítulos. Admite la ejecución de tareas en paralelo para maximizar el rendimiento durante operaciones por lotes y utiliza la inyección de metadatos para asegurar que los marcadores de capítulo, el arte de portada y la información de indexación permanezcan persistentes a través de varios reproductores multimedia. Más allá de la manipulación central, el software incluye capacidades para ajustar bitrates y tasas de muestreo para asegurar la compatibilidad con hardware o requisitos de reproducción específicos. Gestiona la extracción y modificación de marcadores de capítulo y admite el procesamiento de múltiples archivos simultáneamente mediante coincidencia de patrones de directorio. La aplicación se distribuye como un archivo independiente, agrupando todas las dependencias necesarias para simplificar el despliegue en diferentes entornos.
Automates batch operations on audio directories to standardize formats and chapter structures.
Este proyecto es un toolkit integral para el reconocimiento de voz, síntesis y procesamiento de audio en el dispositivo, diseñado específicamente para Apple Silicon. Proporciona un framework para construir agentes de voz full-duplex en tiempo real que operan completamente offline, aprovechando la aceleración de hardware nativa para mantener el rendimiento y la privacidad. Al utilizar modelos de machine learning optimizados, la biblioteca permite la ejecución local de tareas de audio complejas sin depender de servicios externos en la nube. La biblioteca se distingue por su enfoque especializado en la interacción de voz local de alto rendimiento. Incluye una orquestación sofisticada para pipelines de audio en streaming, permitiendo la transcripción en tiempo real, síntesis de voz y clonación de voz con baja latencia. El sistema está diseñado para manejar conversaciones interactivas continuas, presentando mecanismos integrados para evitar bucles de retroalimentación de audio y gestionar sesiones de streaming persistentes. Más allá de la interacción central, el proyecto ofrece un amplio conjunto de capacidades de mejora y gestión de audio. Admite procesamiento de señales avanzado, incluyendo separación de fuentes, reducción de ruido y sobremuestreo de audio, junto con herramientas para diarización de hablantes y extracción de embeddings. El framework también proporciona amplias utilidades de gestión de modelos, como controles de cuantización, gestión de memoria y soporte para la carga de pesos de modelos personalizados, asegurando que los desarrolladores puedan equilibrar la velocidad de procesamiento y el consumo de recursos en hardware local. El proyecto incluye una interfaz de línea de comandos para ejecutar tareas de audio y convertir pesos de modelos en formatos optimizados. También expone endpoints HTTP y WebSocket para facilitar la integración con interfaces estándar de la industria.
Performs speech recognition, synthesis, diarization, and audio processing operations directly from the command line interface.