14 مستودعات
Command-line utilities for batch processing and exporting images.
Distinguishing note: Focuses on CLI-based automation for image tasks.
Explore 14 awesome GitHub repositories matching development tools & productivity · CLI Image Processing Tools. Refine with filters or upvote what's useful.
Aseprite is a specialized graphics editor and animation suite designed for the creation of pixel-based artwork. It provides a comprehensive environment for managing multi-layered animation sequences, offering tools for frame-by-frame design, onion skinning, and real-time motion previews. The application is built to handle both indexed color palettes and full-color RGB editing, allowing users to maintain precise control over pixel data and transparency. What distinguishes Aseprite is its focus on programmable workflows and game asset production. It features a scriptable command architecture th
Supports command-line operations to convert, resize, and export sprite files.
ImageMagick is a comprehensive software suite for the creation, editing, composition, and conversion of digital images. It functions as both a command-line utility for batch processing and automation, and as a programming library that allows developers to integrate advanced image manipulation capabilities into external applications. The project is distinguished by its modular architecture, which supports hundreds of image formats through a pluggable coder system and external delegate libraries. It is designed for high-performance environments, utilizing memory-mapped pixel caching, stream-ori
Supports executing image conversion, composition, and editing tasks directly from the command line with support for batch processing.
Caire is a command-line image processing engine designed for content-aware resizing and batch manipulation. It utilizes seam carving algorithms to adjust image dimensions by identifying and removing low-energy pixels, allowing for the rescaling of images while preserving primary visual subjects and maintaining aspect ratios. The tool distinguishes itself through its ability to protect specific visual elements, such as human faces, from distortion during the resizing process. Users can apply custom binary masks to define regions for protection or forced removal, and the engine provides real-ti
Provides a command-line utility for batch processing, format conversion, and visual filtering via standard streams.
waifu2x-caffe is a deep learning image upscaler and denoiser that uses the Caffe framework to increase image resolution and remove noise from illustrations and photographs. It functions as a neural network image processor that reduces compression artifacts and pixelation while maintaining visual clarity. The project provides specialized neural network weights optimized separately for 2D illustrations and real-world photographs. It includes distinct processing for alpha channels to preserve transparency and employs test-time augmentation to improve output precision. The tool supports both a c
Provides command-line utilities for the automated batch upscaling and denoising of images.
pixelmatch is a JavaScript image comparison library and pixel-level difference detector. It identifies mismatched pixels between image data arrays and quantifies the differences based on a configurable sensitivity threshold. The tool generates visual difference maps that highlight specific pixel changes for manual review. It includes a command-line interface for comparing image files and exporting the resulting difference maps to the file system. The project provides capabilities for automated image analysis and visual regression testing, utilizing anti-aliasing heuristic filtering to ignore
Ships a command-line utility for comparing image files and exporting resulting difference maps.
Basic-pitch هو ناسخ صوتي للشبكة العصبية وكاشف طبقة صوت متعدد الأصوات. يعمل كمحول صوت إلى MIDI يحول تسجيلات الصوت متعددة الأصوات إلى أحداث ملاحظات MIDI وبيانات انحناء طبقة الصوت. يحافظ النظام على التعبير الموسيقي من خلال تتبع تقلبات التردد المستمرة لتحويل الانزلاقات والاهتزاز إلى أحداث انحناء طبقة صوت MIDI. يستخدم محرك استدلال قابلاً للتوصيل يسمح بتهيئة وقت تشغيل النموذج بناءً على نظام التشغيل أو احتياجات تسريع الأجهزة. يوفر المشروع واجهة سطر أوامر لمعالجة الصوت المجمعة وواجهة برمجية لدمج النسخ واستخراج أحداث الملاحظات في برمجيات مخصصة. يمكن تصدير نتائج النسخ كملفات MIDI، ومخرجات نموذج خام، وجداول بيانات أحداث الملاحظات.
Exposes the model runtime through a terminal interface for batch processing and automated file conversion.
Clip هي أداة لتصور البيانات عبر سطر الأوامر مصممة لإنشاء مخططات ورسوم بيانية قائمة على الصور من الأوصاف النصية. تعمل كمولد مخططات يحول البيانات المكتوبة والأنماط الوصفية إلى تنسيقات مرئية دون استخدام واجهة مستخدم رسومية. تتخصص الأداة في إنتاج رسومات متجهة قابلة للتوسع، وتحويل تحويلات النص إلى مخطط إلى مسارات متجهة قائمة على XML. يسمح هذا النهج بالإنشاء التلقائي للرسوم التوضيحية الفنية والمخططات المناسبة خصيصاً لتوثيق المطورين. يستخدم النظام محرك تخطيط مدفوع بالقوالب لوضع عناصر المخطط وتعيين هياكل البيانات في أشكال هندسية وإحداثيات مرئية.
Provides a terminal interface for converting text commands into visual chart files.
Freeze هو مولد كود إلى صورة وعارض مخرجات طرفية يحول الكود المصدري ونص ANSI الطرفي إلى صور عالية الجودة. يعمل كأداة سطر أوامر تحول النص والتسلسلات المنسقة إلى رسومات متجهة قابلة للتطوير لاستخدامها في الوثائق والعروض التقديمية. تتميز الأداة بالتقاط المخرجات الخام من أوامر shell عبر بيئة طرفية زائفة وترجمة رموز الهروب ANSI والألوان مباشرة إلى أنماط SVG. تتميز الأداة بواجهة مستخدم طرفية لضبط المعلمات في الوقت الفعلي وتدعم ملفات تعريف التكوين للحفاظ على أنماط مرئية متسقة عبر عمليات تصدير متعددة. تغطي إمكانيات الأداة إدارة الطباعة من خلال تضمين الخطوط المخصصة والتحكم في ارتفاع السطر، بالإضافة إلى التصميم المرئي لإطارات النوافذ والظلال والهوامش. تتضمن الأداة أيضاً أدوات لتمييز بناء الجملة واقتصاص نطاقات أسطر محددة من مقتطفات الكود.
Provides a command-line interface for batch processing and exporting styled code images.
Bild هي مكتبة لمعالجة الصور تم تنفيذها بلغة البرمجة Go. توفر مجموعة من المحركات الخوارزمية لمعالجة الصور، بما في ذلك محرك نواة التلافيف (Convolution kernel) للتصفية، وأداة مزج الصور لتركيب الطبقات، ومولد ضوضاء إجرائي لإنشاء أنسجة اصطناعية. يتميز المشروع بقدراته على التوليد الإجرائي، حيث ينفذ خوارزميات ضوضاء Perlin وGaussian وثنائية وموحدة لإنتاج توزيعات بكسل عشوائية وأنماط عضوية. كما يتميز بواجهة سطر أوامر تسمح للمستخدمين بتطبيق تأثيرات بصرية، وتعديلات لونية، وتحويلات هندسية على ملفات الصور دون كتابة كود مخصص. تغطي المكتبة مجموعة واسعة من إمكانيات معالجة الصور، بما في ذلك التحويلات الهندسية مثل التدوير، والقص، والتكبير، بالإضافة إلى معالجة الألوان وتحليل التوزيع. وتوفر أدوات لتحليل الصور وتقسيمها، والتصفية المورفولوجية، وتدعم قراءة وكتابة بيانات الصور عبر تنسيقات PNG وJPEG وBMP وWebP.
Includes a command-line interface for applying visual effects, color adjustments, and geometric transformations.
NAPS2 is a suite of document scanning software consisting of a desktop application, a command-line interface tool, and a networked scanner server. It serves as an interface for capturing images from scanners via TWAIN and WIA drivers, organizing those captures into digital documents, and exporting them to various file formats. The project distinguishes itself by providing a networked scanner server that shares local hardware across a network for remote image capture. It also includes a command-line tool for automating document capture and image processing workflows through scripts and termina
Provides a command-line interface for automating document capture and image processing tasks.
Whisper streaming هو محرك التعرف التلقائي على الكلام مصمم لتحويل الصوت المباشر إلى نص. يعمل كخادم نسخ قائم على الشبكة يقبل بيانات الصوت الخام من العملاء البعيدين ويعيد نتائج نصية تزايدية في الوقت الفعلي. يتميز النظام بقدرته على معالجة تدفقات الصوت بشكل تزايدي، مما يسمح بالنسخ والترجمة الفورية أثناء التقاط الكلام. وهو يدمج الكشف عن نشاط الصوت لعزل الكلام البشري عن ضوضاء الخلفية ويستخدم التخزين المؤقت للنافذة المنزلقة لإدارة مقاطع الصوت الواردة، مما يضمن بقاء المعالجة فعالة ومتماسكة على مدى فترات طويلة. بالإضافة إلى النسخ المباشر، يدعم المشروع معالجة الصوت عن بعد ويوفر أدوات لمحاكاة ظروف الوقت الفعلي باستخدام ملفات مسجلة مسبقاً. تسمح هذه القدرات بقياس أداء نماذج التعرف على الكلام واختبار زمن الوصول في ظل بيئات خاضعة للرقابة. يتم توزيع البرنامج كحزمة قائمة على Python.
Replays pre-recorded audio files to mimic live streaming conditions for testing latency and benchmarking performance.
Vocal-separate هي أداة معالجة صوتية مصممة لعزل المسارات الصوتية والآلية من ملفات الصوت والفيديو. تعمل كمحرك ذكاء اصطناعي محلي يقوم بفصل المصدر مباشرة على جهاز المستخدم، مما يضمن خصوصية البيانات من خلال إلغاء الحاجة إلى اتصال خادم خارجي. يوفر النظام واجهة تحكم قائمة على المتصفح لإدارة تحميلات الوسائط ومراقبة مهام المعالجة. وللتعامل مع تفكيك الإشارة المكثف، فإنه يستخدم معالجة الموتر (tensor) المسرعة بالأجهزة، والتي تفرغ الحسابات الرياضية المعقدة إلى أجهزة رسومات مخصصة لتحسين السرعة وكفاءة الذاكرة. يتضمن البرنامج طابور مهام غير متزامن لإدارة طلبات متعددة بالتسلسل ويدعم التكامل البرمجي من خلال واجهة شبكة محلية. وهذا يسمح للمستخدمين بأتمتة سير عمل فصل الصوت المجمع عن طريق ربط نصوص برمجية أو تطبيقات مخصصة بمحرك المعالجة.
Supports batch audio separation workflows through integration with custom scripts and applications.
This command-line utility provides a specialized interface for managing and manipulating audiobook files. It functions as a processing engine designed to handle audio merging, splitting, and format standardization, allowing users to organize large collections through automated workflows. The tool distinguishes itself by integrating silence detection to automatically identify logical break points for chapter creation and segmentation. It supports parallel task execution to maximize throughput during batch operations and utilizes metadata injection to ensure that chapter markers, cover art, and
Automates batch operations on audio directories to standardize formats and chapter structures.
This project is a comprehensive toolkit for on-device speech recognition, synthesis, and audio processing, specifically engineered for Apple Silicon. It provides a framework for building real-time, full-duplex voice agents that operate entirely offline, leveraging native hardware acceleration to maintain performance and privacy. By utilizing optimized machine learning models, the library enables local execution of complex audio tasks without reliance on external cloud services. The library distinguishes itself through its specialized focus on local, high-performance voice interaction. It incl
Performs speech recognition, synthesis, diarization, and audio processing operations directly from the command line interface.