14 Repos
Command-line utilities for batch processing and exporting images.
Distinguishing note: Focuses on CLI-based automation for image tasks.
Explore 14 awesome GitHub repositories matching development tools & productivity · CLI Image Processing Tools. Refine with filters or upvote what's useful.
Aseprite is a specialized graphics editor and animation suite designed for the creation of pixel-based artwork. It provides a comprehensive environment for managing multi-layered animation sequences, offering tools for frame-by-frame design, onion skinning, and real-time motion previews. The application is built to handle both indexed color palettes and full-color RGB editing, allowing users to maintain precise control over pixel data and transparency. What distinguishes Aseprite is its focus on programmable workflows and game asset production. It features a scriptable command architecture th
Supports command-line operations to convert, resize, and export sprite files.
ImageMagick is a comprehensive software suite for the creation, editing, composition, and conversion of digital images. It functions as both a command-line utility for batch processing and automation, and as a programming library that allows developers to integrate advanced image manipulation capabilities into external applications. The project is distinguished by its modular architecture, which supports hundreds of image formats through a pluggable coder system and external delegate libraries. It is designed for high-performance environments, utilizing memory-mapped pixel caching, stream-ori
Supports executing image conversion, composition, and editing tasks directly from the command line with support for batch processing.
Caire is a command-line image processing engine designed for content-aware resizing and batch manipulation. It utilizes seam carving algorithms to adjust image dimensions by identifying and removing low-energy pixels, allowing for the rescaling of images while preserving primary visual subjects and maintaining aspect ratios. The tool distinguishes itself through its ability to protect specific visual elements, such as human faces, from distortion during the resizing process. Users can apply custom binary masks to define regions for protection or forced removal, and the engine provides real-ti
Provides a command-line utility for batch processing, format conversion, and visual filtering via standard streams.
waifu2x-caffe is a deep learning image upscaler and denoiser that uses the Caffe framework to increase image resolution and remove noise from illustrations and photographs. It functions as a neural network image processor that reduces compression artifacts and pixelation while maintaining visual clarity. The project provides specialized neural network weights optimized separately for 2D illustrations and real-world photographs. It includes distinct processing for alpha channels to preserve transparency and employs test-time augmentation to improve output precision. The tool supports both a c
Provides command-line utilities for the automated batch upscaling and denoising of images.
pixelmatch is a JavaScript image comparison library and pixel-level difference detector. It identifies mismatched pixels between image data arrays and quantifies the differences based on a configurable sensitivity threshold. The tool generates visual difference maps that highlight specific pixel changes for manual review. It includes a command-line interface for comparing image files and exporting the resulting difference maps to the file system. The project provides capabilities for automated image analysis and visual regression testing, utilizing anti-aliasing heuristic filtering to ignore
Ships a command-line utility for comparing image files and exporting resulting difference maps.
Basic-pitch ist ein neuronaler Audio-Transkribierer und polyphoner Tonhöhendetektor. Er fungiert als Audio-zu-MIDI-Konverter, der polyphone Audioaufnahmen in MIDI-Notenereignisse und Pitch-Bend-Daten umwandelt. Das System bewahrt den musikalischen Ausdruck, indem es kontinuierliche Frequenzschwankungen verfolgt, um Glides und Vibrato in MIDI-Pitch-Bend-Ereignisse umzuwandeln. Es nutzt eine pluggbare Inference-Engine, die es ermöglicht, die Modell-Laufzeit basierend auf dem Betriebssystem oder den Anforderungen an die Hardwarebeschleunigung zu konfigurieren. Das Projekt bietet ein Command-Line-Interface für die Batch-Audioverarbeitung und eine programmatische Schnittstelle zur Integration von Transkription und Notenereignis-Extraktion in benutzerdefinierte Software. Transkriptionsergebnisse können als MIDI-Dateien, rohe Modellausgaben und Notenereignis-Tabellen exportiert werden.
Exposes the model runtime through a terminal interface for batch processing and automated file conversion.
Clip ist ein Command-Line-Datenvisualisierungstool, das darauf ausgelegt ist, bildbasierte Charts und Diagramme aus Textbeschreibungen zu generieren. Es fungiert als Chart-Generator, der geschriebene Daten und beschreibende Muster in visuelle Formate umwandelt, ohne die Verwendung einer grafischen Benutzeroberfläche. Das Tool ist darauf spezialisiert, skalierbare Vektorgrafiken zu produzieren und Text-zu-Chart-Transformationen in XML-basierte Vektorpfade zu übersetzen. Dieser Ansatz ermöglicht die automatisierte Erstellung technischer Illustrationen und Diagramme, die speziell für Entwicklerdokumentationen geeignet sind. Das System verwendet eine Template-gesteuerte Layout-Engine, um Chart-Elemente zu positionieren und Datenstrukturen in geometrische Formen und visuelle Koordinaten abzubilden.
Provides a terminal interface for converting text commands into visual chart files.
Freeze ist ein Code-zu-Bild-Generator und Terminal-Ausgabe-Renderer, der Quellcode und ANSI-Terminaltext in hochwertige Bilder umwandelt. Er fungiert als Kommandozeilentool, das Text und gestaltete Sequenzen in skalierbare Vektorgrafiken für die Verwendung in Dokumentationen und Präsentationen umwandelt. Das Tool unterscheidet sich dadurch, dass es Rohausgaben von Shell-Befehlen über eine Pseudo-Terminal-Umgebung erfasst und ANSI-Escape-Codes und Farben direkt in SVG-Stile übersetzt. Es verfügt über eine Terminal-Benutzeroberfläche für die Echtzeit-Parameteranpassung und unterstützt Konfigurationsprofile, um konsistente visuelle Stile über mehrere Exporte hinweg beizubehalten. Der Funktionsumfang deckt die Typografieverwaltung durch benutzerdefinierte Schrifteinbettung und Zeilenhöhenkontrolle sowie visuelle Gestaltung für Fensterrahmen, Schatten und Ränder ab. Es enthält zudem Dienstprogramme für Syntax-Highlighting und das Zuschneiden spezifischer Zeilenbereiche aus Code-Snippets.
Provides a command-line interface for batch processing and exporting styled code images.
Bild ist eine Bildverarbeitungsbibliothek, die in der Programmiersprache Go implementiert ist. Sie bietet eine Sammlung algorithmischer Engines für die Bildmanipulation, darunter eine Convolution-Kernel-Engine für Filter, ein Bild-Blending-Tool für Layer-Komposition und einen prozeduralen Rauschgenerator für die Erstellung synthetischer Texturen. Das Projekt zeichnet sich durch seine prozeduralen Generierungsfähigkeiten aus und implementiert Perlin-, Gauß-, Binär- und gleichmäßige Rauschalgorithmen, um zufällige Pixelverteilungen und organische Muster zu erzeugen. Es verfügt zudem über eine Kommandozeilenschnittstelle, die es Benutzern ermöglicht, visuelle Effekte, Farbanpassungen und geometrische Transformationen auf Bilddateien anzuwenden, ohne eigenen Code schreiben zu müssen. Die Bibliothek deckt ein breites Spektrum an Bildverarbeitungsfunktionen ab, einschließlich geometrischer Transformationen wie Rotation, Scherung und Zoom sowie Farbmanipulation und Verteilungsanalyse. Sie bietet Werkzeuge für Bildanalyse und Segmentierung, morphologische Filterung und unterstützt das Lesen und Schreiben von Bilddaten in den Formaten PNG, JPEG, BMP und WebP.
Includes a command-line interface for applying visual effects, color adjustments, and geometric transformations.
NAPS2 is a suite of document scanning software consisting of a desktop application, a command-line interface tool, and a networked scanner server. It serves as an interface for capturing images from scanners via TWAIN and WIA drivers, organizing those captures into digital documents, and exporting them to various file formats. The project distinguishes itself by providing a networked scanner server that shares local hardware across a network for remote image capture. It also includes a command-line tool for automating document capture and image processing workflows through scripts and termina
Provides a command-line interface for automating document capture and image processing tasks.
Whisper streaming ist eine automatisierte Spracherkennungs-Engine, die darauf ausgelegt ist, Live-Audio in Text umzuwandeln. Sie fungiert als netzwerkbasierter Transkriptionsserver, der rohe Audiodaten von Remote-Clients akzeptiert und inkrementelle Textergebnisse in Echtzeit zurückgibt. Das System zeichnet sich durch seine Fähigkeit aus, Audiostreams inkrementell zu verarbeiten, was eine sofortige Transkription und Übersetzung ermöglicht, während Sprache erfasst wird. Es integriert eine Spracherkennungs-Aktivitätsprüfung (Voice Activity Detection), um menschliche Sprache von Hintergrundgeräuschen zu isolieren, und nutzt Sliding-Window-Buffering, um eingehende Audiosegmente zu verwalten, wodurch sichergestellt wird, dass die Verarbeitung über lange Zeiträume hinweg effizient und kohärent bleibt. Über die Live-Transkription hinaus unterstützt das Projekt die Remote-Audioverarbeitung und bietet Tools zur Simulation von Echtzeitbedingungen unter Verwendung vorab aufgezeichneter Dateien. Diese Fähigkeiten ermöglichen das Benchmarking von Spracherkennungsmodellen und das Testen der Latenz unter kontrollierten Umgebungen. Die Software wird als Python-basiertes Paket vertrieben.
Replays pre-recorded audio files to mimic live streaming conditions for testing latency and benchmarking performance.
Vocal-separate ist ein Audio-Processing-Tool zur Isolierung von Gesangs- und Instrumentalspuren aus Audio- und Videodateien. Es fungiert als lokale KI-Engine, die die Quellentrennung direkt auf dem Rechner des Benutzers durchführt und so den Datenschutz durch den Wegfall externer Serververbindungen gewährleistet. Das System bietet ein browserbasiertes Kontrollinterface für die Verwaltung von Medien-Uploads und die Überwachung von Verarbeitungsprozessen. Zur Bewältigung intensiver Signalzerlegung nutzt es hardwarebeschleunigte Tensor-Verarbeitung, die komplexe mathematische Berechnungen auf dedizierte Grafikhardware auslagert, um Geschwindigkeit und Speichereffizienz zu verbessern. Die Software enthält eine asynchrone Aufgabenwarteschlange zur sequenziellen Verwaltung mehrerer Anfragen und unterstützt die programmatische Integration über ein lokales Netzwerk-Interface. Dies ermöglicht es Benutzern, Batch-Audio-Separations-Workflows durch die Verbindung eigener Skripte oder Anwendungen mit der Processing-Engine zu automatisieren.
Supports batch audio separation workflows through integration with custom scripts and applications.
Dieses Befehlszeilen-Dienstprogramm bietet eine spezialisierte Schnittstelle für die Verwaltung und Manipulation von Hörbuchdateien. Es fungiert als Verarbeitungs-Engine, die für das Zusammenführen, Teilen und die Formatstandardisierung von Audio konzipiert ist und es Benutzern ermöglicht, große Sammlungen durch automatisierte Workflows zu organisieren. Das Tool zeichnet sich durch die Integration von Stilleerkennung aus, um logische Bruchpunkte für die Kapitelbildung und Segmentierung automatisch zu identifizieren. Es unterstützt die parallele Aufgabenausführung, um den Durchsatz bei Batch-Operationen zu maximieren, und nutzt Metadaten-Injektion, um sicherzustellen, dass Kapitelmarkierungen, Cover-Art und Indexierungsinformationen über verschiedene Mediaplayer hinweg persistent bleiben. Über die Kernmanipulation hinaus enthält die Software Funktionen zur Anpassung von Bitraten und Abtastraten, um die Kompatibilität mit spezifischen Hardware- oder Wiedergabeanforderungen sicherzustellen. Sie verwaltet die Extraktion und Modifikation von Kapitelmarkierungen und unterstützt die gleichzeitige Verarbeitung mehrerer Dateien durch Verzeichnismusterabgleich. Die Anwendung wird als einzelnes, eigenständiges Archiv vertrieben, das alle notwendigen Abhängigkeiten bündelt, um das Deployment über verschiedene Umgebungen hinweg zu vereinfachen.
Automates batch operations on audio directories to standardize formats and chapter structures.
Dieses Projekt ist ein umfassendes Toolkit für On-Device-Spracherkennung, -Synthese und Audioverarbeitung, das speziell für Apple Silicon entwickelt wurde. Es bietet ein Framework für den Aufbau von Echtzeit-Voice-Agents mit Vollduplex-Funktionalität, die vollständig offline arbeiten und native Hardwarebeschleunigung nutzen, um Performance und Datenschutz zu wahren. Durch den Einsatz optimierter Machine-Learning-Modelle ermöglicht die Bibliothek die lokale Ausführung komplexer Audioaufgaben ohne Abhängigkeit von externen Cloud-Diensten. Die Bibliothek zeichnet sich durch ihren spezialisierten Fokus auf lokale, hochperformante Sprachinteraktion aus. Sie enthält eine ausgefeilte Orchestrierung für Streaming-Audio-Pipelines, die Echtzeit-Transkription, Sprachsynthese und Voice-Cloning mit geringer Latenz ermöglicht. Das System ist für die Handhabung kontinuierlicher, interaktiver Konversationen konzipiert und verfügt über integrierte Mechanismen zur Vermeidung von Audio-Feedback-Schleifen und zur Verwaltung persistenter Streaming-Sitzungen. Über die Kerninteraktion hinaus bietet das Projekt eine breite Palette an Audio-Enhancement- und Management-Funktionen. Es unterstützt fortgeschrittene Signalverarbeitung, einschließlich Quellentrennung, Rauschunterdrückung und Audio-Upsampling, neben Tools für Sprecher-Diarisierung und Embedding-Extraktion. Das Framework bietet zudem umfangreiche Modellmanagement-Utilities, wie z. B. Quantisierungskontrollen, Speicherverwaltung und Unterstützung für das Laden benutzerdefinierter Modellgewichte, um sicherzustellen, dass Entwickler Verarbeitungsgeschwindigkeit und Ressourcenverbrauch auf lokaler Hardware ausbalancieren können. Das Projekt enthält eine CLI für die Ausführung von Audioaufgaben und die Konvertierung von Modellgewichten in optimierte Formate. Es stellt zudem HTTP- und WebSocket-Endpunkte bereit, um die Integration mit Standard-Industrieschnittstellen zu erleichtern.
Performs speech recognition, synthesis, diarization, and audio processing operations directly from the command line interface.