2 Repos
Tools and interfaces for managing and preprocessing diverse media types such as text, image, audio, and video for AI training.
Distinct from Cross-Modal Context Management: None of the candidates cover the general CLI-based processing of multiple modalities before training; they focus on retrieval, binding, or context management.
Explore 2 awesome GitHub repositories matching artificial intelligence & ml · Multi-Modal Data Processing. Refine with filters or upvote what's useful.
Align-anything ist ein Framework für das Alignment von multimodalen Large Language Models, das für das Fine-Tuning von Modellen über Text, Bild, Video und Audio hinweg entwickelt wurde. Es fungiert als Orchestrator für verteiltes Training und als Toolkit zur Implementierung von präferenzbasiertem Lernen, um sicherzustellen, dass das Modellverhalten menschlichen Absichten und Werten entspricht. Das Framework bietet spezialisierte Pipelines für Supervised Fine-Tuning und Direct Preference Optimization. Es enthält einen leistungsstarken Inference-Engine-Wrapper für Actor-Modelle, um die Zeit für die Sequenzgenerierung zu verkürzen, sowie eine dedizierte Trainingsumgebung für die Verfeinerung von Vision-Language-Action-Modellen in der Robotik. Das System verwaltet die multimodale Datenverarbeitung über ein Command-Line-Interface und unterstützt das automatisierte Deployment von Trainings-Workloads auf Hardware-Clustern mit Ressourcenmanagement. Die Funktionen umfassen die Implementierung von Alignment-Algorithmen, multimodales Fine-Tuning und die Optimierung von Hardwareressourcen.
Includes a command-line interface to manage and streamline the processing of diverse media inputs before training.
Dieses Projekt ist eine PHP-Kompatibilitätsbibliothek, die ein Polyfill für die native ctype-Erweiterung bereitstellt. Sie dient als Portabilitätsschicht und implementiert fehlende Kernsprachfunktionen, um ein konsistentes Verhalten über verschiedene Serverumgebungen und PHP-Versionen hinweg sicherzustellen. Die Bibliothek ist auf die Validierung von Zeichentypen spezialisiert und bildet das Verhalten nativer Erweiterungsfunktionen unter Verwendung von reinem PHP-Code nach. Sie nutzt die Erkennung der Laufzeitumgebung, um festzustellen, ob die native Erweiterung fehlt, und injiziert Fallback-Implementierungen direkt in den globalen Namensraum, um Kollisionen zu vermeiden und die Code-Portabilität zu wahren.
Handles multiple input and output types including text, images, and audio using compatible models.