14 repository-uri
Command-line utilities for batch processing and exporting images.
Distinguishing note: Focuses on CLI-based automation for image tasks.
Explore 14 awesome GitHub repositories matching development tools & productivity · CLI Image Processing Tools. Refine with filters or upvote what's useful.
Aseprite is a specialized graphics editor and animation suite designed for the creation of pixel-based artwork. It provides a comprehensive environment for managing multi-layered animation sequences, offering tools for frame-by-frame design, onion skinning, and real-time motion previews. The application is built to handle both indexed color palettes and full-color RGB editing, allowing users to maintain precise control over pixel data and transparency. What distinguishes Aseprite is its focus on programmable workflows and game asset production. It features a scriptable command architecture th
Supports command-line operations to convert, resize, and export sprite files.
ImageMagick is a comprehensive software suite for the creation, editing, composition, and conversion of digital images. It functions as both a command-line utility for batch processing and automation, and as a programming library that allows developers to integrate advanced image manipulation capabilities into external applications. The project is distinguished by its modular architecture, which supports hundreds of image formats through a pluggable coder system and external delegate libraries. It is designed for high-performance environments, utilizing memory-mapped pixel caching, stream-ori
Supports executing image conversion, composition, and editing tasks directly from the command line with support for batch processing.
Caire is a command-line image processing engine designed for content-aware resizing and batch manipulation. It utilizes seam carving algorithms to adjust image dimensions by identifying and removing low-energy pixels, allowing for the rescaling of images while preserving primary visual subjects and maintaining aspect ratios. The tool distinguishes itself through its ability to protect specific visual elements, such as human faces, from distortion during the resizing process. Users can apply custom binary masks to define regions for protection or forced removal, and the engine provides real-ti
Provides a command-line utility for batch processing, format conversion, and visual filtering via standard streams.
waifu2x-caffe is a deep learning image upscaler and denoiser that uses the Caffe framework to increase image resolution and remove noise from illustrations and photographs. It functions as a neural network image processor that reduces compression artifacts and pixelation while maintaining visual clarity. The project provides specialized neural network weights optimized separately for 2D illustrations and real-world photographs. It includes distinct processing for alpha channels to preserve transparency and employs test-time augmentation to improve output precision. The tool supports both a c
Provides command-line utilities for the automated batch upscaling and denoising of images.
pixelmatch is a JavaScript image comparison library and pixel-level difference detector. It identifies mismatched pixels between image data arrays and quantifies the differences based on a configurable sensitivity threshold. The tool generates visual difference maps that highlight specific pixel changes for manual review. It includes a command-line interface for comparing image files and exporting the resulting difference maps to the file system. The project provides capabilities for automated image analysis and visual regression testing, utilizing anti-aliasing heuristic filtering to ignore
Ships a command-line utility for comparing image files and exporting resulting difference maps.
Basic-pitch este un transcriber audio bazat pe rețele neuronale și un detector de pitch polifonic. Funcționează ca un convertor audio-to-MIDI care transformă înregistrările audio polifonice în evenimente de note MIDI și date de pitch bend. Sistemul păstrează expresia muzicală prin urmărirea fluctuațiilor continue de frecvență pentru a converti glissando-urile și vibrato-ul în evenimente de pitch bend MIDI. Utilizează un motor de inferență pluggable care permite configurarea runtime-ului modelului în funcție de sistemul de operare sau de nevoile de accelerare hardware. Proiectul oferă o interfață în linie de comandă pentru procesarea audio în loturi și o interfață programatică pentru integrarea transcrierii și extracției evenimentelor de note în software personalizat. Rezultatele transcrierii pot fi exportate ca fișiere MIDI, output-uri brute ale modelului și foi de calcul cu evenimente de note.
Exposes the model runtime through a terminal interface for batch processing and automated file conversion.
Clip este un instrument de vizualizare a datelor în linie de comandă conceput pentru a genera diagrame și grafice bazate pe imagini din descrieri text. Funcționează ca un generator de grafice care convertește datele scrise și modelele descriptive în formate vizuale fără utilizarea unei interfețe grafice. Instrumentul se specializează în producerea de grafică vectorială scalabilă (SVG), traducând transformările text-to-chart în căi vectoriale bazate pe XML. Această abordare permite crearea automată de ilustrații tehnice și diagrame potrivite special pentru documentația dezvoltatorilor. Sistemul folosește un motor de layout bazat pe template-uri pentru a poziționa elementele graficului și a mapa structurile de date în forme geometrice și coordonate vizuale.
Provides a terminal interface for converting text commands into visual chart files.
Freeze este un generator de cod-la-imagine și un rander de output de terminal care convertește codul sursă și textul de terminal ANSI în imagini de înaltă calitate. Acesta funcționează ca un instrument de linie de comandă care transformă textul și secvențele stilizate în grafică vectorială scalabilă pentru utilizare în documentație și prezentări. Instrumentul se diferențiază prin capturarea output-ului brut din comenzile shell printr-un mediu pseudo-terminal și traducerea codurilor de escape ANSI și a culorilor direct în stiluri SVG. Dispune de o interfață utilizator de terminal pentru ajustarea parametrilor în timp real și suportă profiluri de configurare pentru a menține stiluri vizuale consistente în mai multe exporturi. Suprafața de capabilități acoperă gestionarea tipografiei prin încorporarea fonturilor personalizate și controlul înălțimii liniilor, precum și stilizarea vizuală pentru cadrele ferestrelor, umbre și margini. Include, de asemenea, utilitare pentru evidențierea sintaxei și decuparea unor intervale specifice de linii din fragmentele de cod.
Provides a command-line interface for batch processing and exporting styled code images.
Bild este o bibliotecă de procesare a imaginilor implementată în limbajul de programare Go. Oferă o colecție de motoare algoritmice pentru manipularea imaginilor, inclusiv un motor de kernel de convoluție pentru filtrare, un instrument de blending pentru compoziția straturilor și un generator procedural de zgomot pentru crearea de texturi sintetice. Proiectul se distinge prin capabilitățile sale de generare procedurală, implementând algoritmi de zgomot Perlin, Gaussian, binar și uniform pentru a produce distribuții aleatorii de pixeli și modele organice. De asemenea, dispune de o interfață de linie de comandă care permite utilizatorilor să aplice efecte vizuale, ajustări de culoare și transformări geometrice fișierelor imagine fără a scrie cod personalizat. Biblioteca acoperă o gamă largă de capabilități de procesare a imaginilor, inclusiv transformări geometrice precum rotația, forfecarea (shearing) și zoom-ul, precum și manipularea culorilor și analiza distribuției. Oferă instrumente pentru analiza și segmentarea imaginilor, filtrare morfologică și suportă citirea și scrierea datelor de imagine în formatele PNG, JPEG, BMP și WebP.
Includes a command-line interface for applying visual effects, color adjustments, and geometric transformations.
NAPS2 is a suite of document scanning software consisting of a desktop application, a command-line interface tool, and a networked scanner server. It serves as an interface for capturing images from scanners via TWAIN and WIA drivers, organizing those captures into digital documents, and exporting them to various file formats. The project distinguishes itself by providing a networked scanner server that shares local hardware across a network for remote image capture. It also includes a command-line tool for automating document capture and image processing workflows through scripts and termina
Provides a command-line interface for automating document capture and image processing tasks.
Whisper streaming este un motor de recunoaștere automată a vorbirii conceput pentru a converti audio live în text. Funcționează ca un server de transcriere bazat pe rețea care acceptă date audio brute de la clienți la distanță și returnează rezultate text incrementale în timp real. Sistemul se distinge prin capacitatea sa de a procesa fluxuri audio incremental, permițând transcrierea și traducerea imediată pe măsură ce vorbirea este capturată. Încorporează detecția activității vocale pentru a izola vorbirea umană de zgomotul de fundal și utilizează buffering-ul cu fereastră glisantă pentru a gestiona segmentele audio primite, asigurându-se că procesarea rămâne eficientă și coerentă pe durate lungi. Dincolo de transcrierea live, proiectul suportă procesarea audio la distanță și oferă instrumente pentru a simula condiții de timp real folosind fișiere pre-înregistrate. Aceste capabilități permit benchmarking-ul modelelor de recunoaștere a vorbirii și testarea latenței în medii controlate. Software-ul este distribuit ca un pachet bazat pe Python.
Replays pre-recorded audio files to mimic live streaming conditions for testing latency and benchmarking performance.
Vocal-separate este un instrument de procesare audio conceput pentru a izola pistele vocale și instrumentale din fișierele audio și video. Funcționează ca un motor local de inteligență artificială care efectuează separarea surselor direct pe mașina utilizatorului, asigurând confidențialitatea datelor prin eliminarea necesității conectivității la servere externe. Sistemul oferă o interfață de control bazată pe browser pentru gestionarea încărcărilor media și monitorizarea sarcinilor de procesare. Pentru a gestiona descompunerea intensivă a semnalului, utilizează procesarea tensorială accelerată hardware, care descarcă calculele matematice complexe către hardware grafic dedicat pentru a îmbunătăți viteza și eficiența memoriei. Software-ul include o coadă de sarcini asincrone pentru a gestiona mai multe cereri secvențial și suportă integrarea programatică printr-o interfață de rețea locală. Acest lucru permite utilizatorilor să automatizeze fluxurile de lucru de separare audio în loturi prin conectarea scripturilor sau aplicațiilor personalizate la motorul de procesare.
Supports batch audio separation workflows through integration with custom scripts and applications.
Acest utilitar de linie de comandă oferă o interfață specializată pentru gestionarea și manipularea fișierelor audiobooks. Funcționează ca un motor de procesare conceput pentru a gestiona îmbinarea, divizarea și standardizarea formatelor audio, permițând utilizatorilor să organizeze colecții mari prin fluxuri de lucru automatizate. Instrumentul se distinge prin integrarea detecției de liniște pentru a identifica automat punctele logice de pauză pentru crearea capitolelor și segmentare. Suportă execuția paralelă a sarcinilor pentru a maximiza throughput-ul în timpul operațiunilor batch și utilizează injectarea de metadate pentru a asigura că markerii de capitol, coperta și informațiile de indexare rămân persistente pe diverse playere media. Dincolo de manipularea de bază, software-ul include capabilități pentru ajustarea bitrate-urilor și a ratelor de eșantionare pentru a asigura compatibilitatea cu hardware-ul sau cerințele de redare specifice. Gestionează extragerea și modificarea markerilor de capitol și suportă procesarea mai multor fișiere simultan prin potrivirea modelelor de directoare. Aplicația este distribuită ca o arhivă standalone, incluzând toate dependențele necesare pentru a simplifica deployment-ul în medii diferite.
Automates batch operations on audio directories to standardize formats and chapter structures.
Acest proiect este un toolkit cuprinzător pentru recunoașterea vocală on-device, sinteză și procesare audio, conceput special pentru Apple Silicon. Oferă un framework pentru construirea de agenți vocali full-duplex în timp real care operează complet offline, valorificând accelerarea hardware nativă pentru a menține performanța și confidențialitatea. Prin utilizarea modelelor de machine learning optimizate, biblioteca permite execuția locală a sarcinilor audio complexe fără dependență de servicii cloud externe. Biblioteca se distinge prin accentul său specializat pe interacțiunea vocală locală, de înaltă performanță. Include orchestrare sofisticată pentru pipeline-uri audio de streaming, permițând transcrierea în timp real, sinteza vocală și clonarea vocii cu latență scăzută. Sistemul este conceput pentru a gestiona conversații interactive, continue, având mecanisme încorporate pentru a preveni buclele de feedback audio și a gestiona sesiunile de streaming persistente. Dincolo de interacțiunea de bază, proiectul oferă o suită largă de capabilități de îmbunătățire și gestionare audio. Suportă procesarea avansată a semnalului, inclusiv separarea surselor, reducerea zgomotului și upsampling audio, alături de instrumente pentru diarizarea vorbitorilor și extracția de embedding-uri. Framework-ul oferă, de asemenea, utilitare extinse de gestionare a modelelor, cum ar fi controale de cuantizare, gestionarea memoriei și suport pentru încărcarea ponderilor de modele personalizate, asigurându-se că dezvoltatorii pot echilibra viteza de procesare și consumul de resurse pe hardware local. Proiectul include o interfață CLI pentru executarea sarcinilor audio și conversia ponderilor modelelor în formate optimizate. De asemenea, expune endpoint-uri HTTP și WebSocket pentru a facilita integrarea cu interfețele standard din industrie.
Performs speech recognition, synthesis, diarization, and audio processing operations directly from the command line interface.