3 repository-uri
The process of writing and managing low-level logic for GPU device execution.
Distinguishing note: Candidates focus on Android kernels or multi-device launches; this is general GPU-side kernel logic development.
Explore 3 awesome GitHub repositories matching operating systems & systems programming · GPU Kernel Development. Refine with filters or upvote what's useful.
rust-cuda este un framework de programare GPU și un compilator de dispozitiv care permite dezvoltarea și execuția kernel-urilor de înaltă performanță pe hardware NVIDIA folosind Rust. Oferă un wrapper de driver pentru a gestiona alocarea memoriei dispozitivului și lansarea kernel-ului, servind efectiv ca un sistem pentru scrierea logicii de calcul GPU fără a se baza pe C++. Proiectul include o bibliotecă de calcul cu primitive optimizate hardware pentru accelerarea rețelelor neuronale și raytracing accelerat hardware. Utilizează un toolchain de compilare care traduce codul sursă într-o reprezentare intermediară low-level pentru execuția pe procesoare grafice. Framework-ul acoperă gestionarea resurselor dispozitivului, dezvoltarea kernel-ului și simularea operațiunilor cu numere întregi de înaltă precizie. Suportă, de asemenea, generarea de numere aleatorii pe dispozitiv și optimizări de calcul specifice țintei. Sunt disponibile imagini de container pre-configurate pentru a simplifica furnizarea toolchain-ului de compilare și a mediului de dezvoltare pe diferite arhitecturi hardware.
Provides a framework for managing thread indices and memory allocation to create device-side logic.
AITemplate is an ahead-of-time deep learning compiler that translates PyTorch neural networks into standalone C++ source code. It functions as a PyTorch to C++ compiler and a GPU kernel fusion engine, producing self-contained executable binaries that run inference without requiring a Python interpreter or deep learning framework runtime. The project generates optimized CUDA and HIP C++ code specifically for NVIDIA TensorCores and AMD MatrixCores. It focuses on maximizing throughput for half-precision floating-point operations through a system that combines multiple neural network operators in
Provides the ability to define new neural network primitives and map them to hardware-specific code generation templates.
HIP este un limbaj de kernel GPU C++ și un runtime cross-platform conceput pentru scrierea aplicațiilor de calcul de înaltă performanță portabile. Oferă o interfață de programare care permite unui singur codebase sursă să fie executat atât pe arhitecturi GPU AMD, cât și NVIDIA. Proiectul funcționează ca un strat de compatibilitate care permite conversia și migrarea codului sursă CUDA existent pentru a rula pe hardware AMD. Acest lucru este realizat printr-o mapare a sintaxei care oglindește CUDA și un proces de traducere source-to-source în timpul compilării. Toolkit-ul acoperă suprafața mai largă a dezvoltării GPGPU cross-platform, inclusiv optimizarea calculului eterogen și crearea de kernel-uri portabile. Utilizează o abstractizare a runtime-ului pentru a mapa apelurile API unificate către bibliotecile de drivere specifice furnizorului pentru gestionarea memoriei și a kernel-ului.
Enables the development of single-source C++ kernels that execute on multiple GPU architectures.