11 Repos
Compiling source code into binaries specifically optimized for particular hardware revisions or architectures.
Distinct from Multi-Target Compilers: Focuses on hardware-specific build rules and directives rather than general multi-target bytecode generation.
Explore 11 awesome GitHub repositories matching programming languages & runtimes · Hardware-Targeted Compilation. Refine with filters or upvote what's useful.
This project is an open source Linux GPU kernel driver implemented as a loadable kernel module. It functions as a GPU firmware loader, providing the low-level driver services necessary to enable direct communication between the operating system and graphics processing units. The driver utilizes a dual-module architecture that separates GPL-licensed kernel code from proprietary firmware blobs. This system extracts and links signed binary firmware images into the kernel modules at driver load time. The project provides driver support for Turing-architecture GPUs and all subsequent newer hardwa
Allows compiling code for specific GPU hardware architectures using target-specific build rules.
Dieses Projekt ist eine Lua-basierte Firmware-Umgebung für den ESP8266-WLAN-Chip und bietet einen eingebetteten Lua-Interpreter sowie ein Entwicklungs-Framework für WLAN-SoC-Hardware. Es fungiert als C-basierter Wrapper um das Espressif non-OS SDK und ermöglicht die Ausführung asynchroner Skripte zur Verwaltung der drahtlosen Kommunikation und Hardware-Peripherie. Die Umgebung integriert ein SPIFFS-Flash-Dateisystem zum Speichern persistenter Skripte und Daten direkt im nichtflüchtigen Speicher. Um begrenzte Hardwareressourcen zu optimieren, nutzt das System Execute-in-Place-Flash-Ausführung, wobei schreibgeschützte Konstanten und Anweisungen direkt aus dem Flash-Speicher ausgeführt werden, um System-RAM zu schonen. Das Projekt deckt die Verwaltung drahtloser Konnektivität, die Implementierung von Netzwerkdiensten und das Mapping von Hardware-Peripherie ab. Es enthält Tools für die Firmware-Kompilierung, die Kompilierung von Lua-Skripten in Bytecode und die Generierung von Dateisystem-Images für die Zielbereitstellung.
Transforms source code into binary images for deployment on target hardware using a cross-compile toolchain.
OpenBLAS is a high-performance implementation of the Basic Linear Algebra Subprograms standard designed for numerical computing and matrix operations. It serves as a hardware-accelerated numerical library and optimized math kernel library, providing a computational engine for large-scale matrix multiplication and vector operations. The library distinguishes itself through the use of hand-tuned assembly kernels and SIMD instruction mapping, such as AVX and SVE, to maximize floating-point performance on specific CPU architectures. It features a multi-threaded framework that manages parallel exe
Compiles routines into binaries specifically optimized for particular hardware revisions to maximize performance.
OpenBLAS ist eine High-Performance-Bibliothek für grundlegende lineare Algebra-Unterprogramme, die optimierte Matrix- und Vektoroperationen bereitstellt. Sie dient als mathematisches Backend für mehrere Architekturen und als Framework für numerisches Rechnen, das darauf ausgelegt ist, komplexe mathematische Berechnungen und numerische Analysen mit hoher Geschwindigkeit auszuführen. Die Bibliothek fungiert als optimierte CPU-Mathe-Bibliothek, die Hardware zur Laufzeit erkennt, um die effizientesten Operations-Kernels für den jeweiligen Prozessor anzuwenden. Sie unterstützt mehrere CPU-Ziele durch eine Kombination aus optimierten Assembly- und C-Implementierungen. Das Projekt deckt lineare Algebra mit hoher Performance, CPU-Architektur-Optimierung und Infrastruktur für wissenschaftliches Rechnen ab. Es enthält Funktionen für das Ressourcenmanagement bei numerischen Berechnungen, wie etwa die Steuerung der Thread-Zuweisung für rechenintensive Workloads auf gemeinsam genutzten Systemen.
Supports compiling a single library for various CPU architectures via flexible build configurations.
WinObjC is an implementation of the Objective-C language runtime and object model for the Windows operating system. Its primary purpose is to enable the execution of Objective-C code and iOS APIs on Windows to support the porting of iOS applications. The project features a native API bridge that maps Objective-C system framework calls to native Windows API functions. It includes a toolchain to convert Xcode project targets and workspaces into Visual Studio formats and translates visual storyboard design files into active on-screen interface elements. The codebase covers binary interoperabili
Produces binaries for various CPU targets and applies compiler optimizations for improved performance.
edk2 ist ein Entwicklungsprojekt zur Erstellung von System-Firmware, die der UEFI-Spezifikation entspricht. Es bietet die notwendige Infrastruktur, um Hardwareplattformen zu initialisieren und Betriebssysteme über mehrere CPU-Architekturen hinweg zu booten. Das Projekt nutzt eine modulare Firmware-Architektur, die High-Level-Management-Protokolle von physischen Transportschichten entkoppelt. Es implementiert kritische Sicherheitsfunktionen, einschließlich einer Measured-Boot-Kette, kryptografischer Primitive für die Image-Authentifizierung sowie Unterstützung für Trusted-Platform-Module-Hardware und -Softwareimplementierungen. Der Funktionsumfang erstreckt sich auf Plattform-Management-Standards wie Redfish, IPMI und MCTP sowie die Generierung dynamischer ACPI-Tabellen. Das Projekt enthält zudem eine umfassende Suite an Tools für die Cross-Architektur-Kompilierung, Firmware-Simulation und virtuelle Plattform-Emulation für Hypervisoren wie KVM, Xen und QEMU. Das Projekt umfasst ein Multi-Target-Build-System und automatisierte Test-Orchestrierung zur Validierung der Firmware-Funktionalität sowohl in emulierten als auch in physischen Umgebungen.
Compiles Firmware Support Package (FSP) binaries to initialize hardware platforms according to the UEFI specification.
seL4 is a formally verified microkernel whose C implementation is backed by machine-checked mathematical proofs of correctness, confidentiality, integrity, and availability. It enforces strict isolation between processes through hardware-enforced address space separation and a capability-based access control system, where each process holds explicit rights only to the resources it has been granted. The kernel exposes hardware resources through a minimal API of system calls that manage threads, address spaces, and inter-process communication, with synchronous IPC supporting sender-identifying b
Selects the specific hardware architecture and platform to compile the kernel for, including CPU core count and FPU support.
rust-cuda ist ein GPU-Programmier-Framework und Device-Compiler, der die Entwicklung und Ausführung von High-Performance-Kernels auf NVIDIA-Hardware mit Rust ermöglicht. Es bietet einen Driver-Wrapper zur Verwaltung von Device-Speicherallokation und Kernel-Launching und fungiert effektiv als System zum Schreiben von GPU-Compute-Logik, ohne auf C++ angewiesen zu sein. Das Projekt enthält eine Compute-Bibliothek mit hardwareoptimierten Primitiven für neuronale Netzwerkbeschleunigung und hardwarebeschleunigtes Raytracing. Es nutzt eine Compilation-Toolchain, die Quellcode in eine Low-Level-Zwischendarstellung für die Ausführung auf Grafikprozessoren übersetzt. Das Framework deckt Device-Ressourcenmanagement, Kernel-Entwicklung und die Simulation hochpräziser Integer-Operationen ab. Zudem unterstützt es Device-seitige Zufallszahlengenerierung und zielspezifische Compute-Optimierungen. Vorkonfigurierte Container-Images sind verfügbar, um die Bereitstellung der Compiler-Toolchain und der Entwicklungsumgebung über verschiedene Hardware-Architekturen hinweg zu vereinfachen.
Configures compilation rules to optimize binaries for specific GPU hardware revisions and architectures.
ExpressLRS is an open-source radio control system that provides a high-performance radio link between transmitters and receivers. It primarily consists of firmware that leverages LoRa technology to enable long-range wireless communication with low latency. The system distinguishes itself through a phrase-based device binding mechanism, which uses unique text strings to pair hardware without the need for physical buttons. It also includes a joystick emulator that allows radio hardware to provide input for flight and racing simulators via Bluetooth or WiFi. The project covers a broad range of
Generates binary builds optimized for specific hardware pinouts and processor targets.
PlaidML ist ein Deep-Learning-Compiler-Framework und eine plattformübergreifende Runtime, die darauf ausgelegt ist, Machine-Learning-Modelle auf einer Vielzahl von Hardware-Zielen auszuführen. Es fungiert als hardwareunabhängige Tensor-Engine, die Tensor-Modelle in ausführbaren Code übersetzt, wodurch Deep-Learning-Netzwerke auf verschiedenen Rechengeräten ausgeführt werden können, ohne spezifische Treiberabhängigkeiten zu benötigen. Das System ermöglicht die Ausführung von Modellen auf benutzerdefinierter oder eingeschränkter Hardware durch die Verwendung von JSON-Spezifikationen zur Definition der Gerätehardware. Es verwendet eine domänenspezifische Sprache zur Beschreibung von Tensor-Berechnungen und bietet eine mittlere Schicht, um verschiedene Machine-Learning-Frameworks mit seinem hardwareorientierten Compiler zu integrieren. Die Engine unterstützt eine Reihe von Tensor-Operationen, einschließlich Tensor-Kontraktionen mit Index-Constraints, mehrdimensionalen Faltungen mit konfigurierbaren Strides und Padding sowie elementweisen Operationen unter Verwendung von Broadcasting. Zudem enthält sie eine Test-Suite, um Ausführungsgeschwindigkeit und Effizienz über verschiedene Hardwarekomponenten und Umgebungen hinweg zu benchmarken.
Translates high-level tensor networks into executable code optimized for the specific constraints of chosen hardware targets.
oneDNN is a deep learning primitive library and hardware acceleration framework designed to optimize neural network operations. It serves as an inference engine that accelerates the training and execution of computational graphs using optimized primitives for convolutions and matrix multiplications, following the oneAPI standard for cross-architecture performance. The project enables cross-architecture AI deployment by tuning workloads for specific CPU and GPU microarchitectures across different hardware vendors. It integrates with hardware runtimes and system drivers to share execution conte
Generates binaries and kernels specifically optimized for particular hardware vendors and microarchitecture revisions.