3 Repos
Provides highly tuned GPU kernels for standard deep learning operations like convolution, attention, matmul, pooling, and normalization.
Distinct from Deep Learning Acceleration: Distinct from Deep Learning Acceleration: focuses on the specific low-level GPU kernel primitives (convolution, attention, matmul) rather than general hardware acceleration.
Explore 3 awesome GitHub repositories matching part of an awesome list · GPU Kernel Primitives. Refine with filters or upvote what's useful.
Provides highly tuned GPU kernels for standard deep learning operations like convolution, attention, matmul, pooling, and normalization.
rust-cuda ist ein GPU-Programmier-Framework und Device-Compiler, der die Entwicklung und Ausführung von High-Performance-Kernels auf NVIDIA-Hardware mit Rust ermöglicht. Es bietet einen Driver-Wrapper zur Verwaltung von Device-Speicherallokation und Kernel-Launching und fungiert effektiv als System zum Schreiben von GPU-Compute-Logik, ohne auf C++ angewiesen zu sein. Das Projekt enthält eine Compute-Bibliothek mit hardwareoptimierten Primitiven für neuronale Netzwerkbeschleunigung und hardwarebeschleunigtes Raytracing. Es nutzt eine Compilation-Toolchain, die Quellcode in eine Low-Level-Zwischendarstellung für die Ausführung auf Grafikprozessoren übersetzt. Das Framework deckt Device-Ressourcenmanagement, Kernel-Entwicklung und die Simulation hochpräziser Integer-Operationen ab. Zudem unterstützt es Device-seitige Zufallszahlengenerierung und zielspezifische Compute-Optimierungen. Vorkonfigurierte Container-Images sind verfügbar, um die Bereitstellung der Compiler-Toolchain und der Entwicklungsumgebung über verschiedene Hardware-Architekturen hinweg zu vereinfachen.
Provides highly tuned GPU kernels for standard deep learning operations tuned for tensor cores.
oneDNN is a library for deep learning acceleration that provides optimized building blocks for neural network training and inference. It manages tensor computation across CPU and GPU hardware, enabling the execution of high-performance primitives for model training and neural network inference optimization. The project distinguishes itself through hardware-specific kernel optimization and the use of just-in-time compilation to target specific processor instruction sets. It supports quantized neural network execution using both static and dynamic quantization to reduce memory usage and increas
Implements highly tuned GPU kernels for fundamental deep learning operations like convolutions and matrix multiplications.