10 Repos
Tools for efficient multidimensional array math and linear algebra with low-level hardware control.
Distinguishing note: Focuses on performance-critical tensor math rather than general data processing.
Explore 10 awesome GitHub repositories matching data & databases · High-Performance Tensor Libraries. Refine with filters or upvote what's useful.
Tinygrad is a deep learning framework and tensor computation engine designed for building and training neural networks. It functions as a hardware abstraction layer that manages device memory, command queues, and kernel dispatching across heterogeneous computing architectures. By utilizing a lazy-evaluation approach, the framework constructs computational graphs that defer execution until data is explicitly required, allowing it to process only the necessary operations for a given result. The project distinguishes itself through a just-in-time compilation layer that transforms abstract comput
Performs efficient multidimensional array math with low-level control over memory and device synchronization.
This project is a deep learning framework designed for constructing, training, and deploying neural networks across diverse hardware environments. It functions as a high-performance tensor computation library that provides both imperative and symbolic programming interfaces, allowing developers to balance flexible, step-by-step model building with the efficiency of compiled computation graphs. The framework distinguishes itself through a hybrid execution engine that integrates declarative graph compilation with imperative runtime logic. It supports scalable, distributed training across multip
Provides a high-performance engine for manipulating multi-dimensional arrays and executing complex mathematical operations on CPUs and GPUs.
Deeplearning4j is a JVM-based deep learning framework and tensor computing library. It provides a computational graph engine for defining and executing deep learning workflows and mathematical operations within the Java Virtual Machine. The project includes a dedicated importer for loading and running pretrained models exported from Keras, TensorFlow, and ONNX formats. Its tensor computing capabilities are driven by a modular native C++ math core to execute high-performance linear algebra operations. The framework covers neural network training, deep learning model inference, and the constru
Offers high-performance tensor libraries for efficient multidimensional array math and linear algebra with low-level hardware control.
GGML is a machine learning tensor library and neural network engine written in C. It functions as a compute-focused runtime designed to execute transformer-based models and perform complex mathematical operations on multi-dimensional arrays directly on local consumer hardware. The library distinguishes itself by enabling local inference for large language models and edge machine learning deployment without reliance on external cloud infrastructure. It achieves this through a tensor-based computation graph that organizes operations for efficient execution and memory management, alongside stati
Performs complex mathematical operations on multi-dimensional arrays using hardware acceleration for high-performance data processing.
llama-rs ist eine Inferenz-Engine für lokale Large Language Models, die in Rust implementiert ist. Sie ermöglicht die Ausführung von Modellberechnungen auf lokaler Hardware, um Textantworten aus Benutzer-Prompts zu generieren. Das Projekt nutzt Rust-basierte Tensor-Operationen und Direct-Memory-Modell-Mapping, um High-Performance-Lineare-Algebra und effizientes Laden von Gewichten zu handhaben. Es integriert Weight-Quantization, um den Speicherbedarf von Modellen durch Konvertierung hochpräziser Gewichte in kleinere Formate zu reduzieren. Das System enthält ein Kommandozeilen-Interface für interaktive Chat-Sitzungen und einmalige Prompts, zusammen mit Datei-basierter Sitzungspersistenz, um Konversationsverläufe zu speichern und wiederherzustellen. Es bietet zudem Utilities zum Abrufen von Tokenizer-Konfigurationen von Remote-Hubs sowie Tools zur Berechnung von Perplexity-Scores, um die Modellleistung zu evaluieren.
Utilizes high-performance tensor operations and linear algebra implemented in Rust for speed and safety.
Flashlight ist eine eigenständige C++-Bibliothek für maschinelles Lernen und Tensor-Berechnungen, die zum Erstellen und Trainieren neuronaler Netze verwendet wird. Sie fungiert als umfassendes Framework für neuronale Netze und Engine für automatische Differenzierung und bietet Werkzeuge zur Konstruktion von Berechnungsgraphen und zur Berechnung von Gradienten via Backpropagation. Das Projekt dient als Framework für verteiltes Training und nutzt All-Reduce-Operationen zur Synchronisation von Gradienten und Parametern über mehrere Rechenknoten und Geräte hinweg. Es zeichnet sich durch eine tiefe Integration von leistungsstarker Tensor-Manipulation, nativer Interoperabilität mit Gerätespeichern und einem System zur Synchronisation von Gewichten über verteilte Worker aus, um das Training großskaliger Modelle zu beschleunigen. Das Framework deckt eine breite Palette an Deep-Learning-Funktionen ab, einschließlich modularer Schichtkomposition für den Entwurf komplexer Architekturen wie Residual-Blöcke und rekurrente Zellen. Es bietet umfangreiche Datenmanagement-Utilities für Ingestion und Prefetching sowie Serialisierungssysteme zur Persistierung von Modellzuständen. Zusätzlich enthält es eine Suite an Überwachungs- und Observability-Tools zur Verfolgung von Trainingsmetriken und zur Messung von Sequenzfehlern. Die Bibliothek ist in C++ implementiert.
Provides high-performance multi-dimensional array operations and custom memory management for hardware accelerators.
This project is a Rust interface for the PyTorch C++ library, serving as a deep learning framework and tensor computing library. It functions as a C++ API wrapper that enables the manipulation of multi-dimensional arrays and the execution of neural network architectures across CPU and GPU hardware accelerators. The library provides a TorchScript inference engine to load and execute just-in-time compiled models. It also supports Rust and Python interoperability, allowing for the creation of Python extensions that share tensor data through a common interface. The system covers deep learning mo
Provides high-performance multidimensional array mathematics with low-level hardware acceleration.
Caffe ist ein leistungsstarkes Deep-Learning-Framework und eine Bibliothek für Convolutional Neural Networks, die für das Training und Deployment neuronaler Netze entwickelt wurde. Es fungiert als GPU-beschleunigte Machine-Learning-Engine mit einem in C++ implementierten Kern, um Tensor-Operationen mit hohem Durchsatz zu ermöglichen. Das Projekt nutzt ein deklaratives Konfigurationssystem, bei dem Modellarchitekturen und Hyperparameter in externen Textdateien definiert werden, wodurch das Netzwerkdesign vom Ausführungscode getrennt wird. Es enthält ein Modell-Serialisierungssystem, um trainierte Gewichte und Topologien für ein effizientes Deployment in verschiedenen Hardwareumgebungen in Binärdateien zu exportieren. Das Framework deckt ein breites Spektrum an Funktionen ab, einschließlich des Designs neuronaler Netzwerkarchitekturen, des überwachten Modelltrainings mit gradientenbasierter Optimierung und Workflows für die Bildklassifizierung. Es bietet Tools für die Dataset-Vorverarbeitung, die Extraktion neuronaler Features und das Fine-Tuning vortrainierter Modelle. Der C++-Kern ist über eine mehrsprachige Schnittstelle mit offiziellen Bindings für Python und MATLAB zugänglich.
Performs high-performance element-wise mathematics, concatenation, and broadcasting on multi-dimensional data blobs.
TensorFlow-World ist eine Sammlung von Tutorials, Implementierungsleitfäden und Modell-Templates für das Erstellen und Trainieren von Machine-Learning-Modellen mit dem TensorFlow-Framework. Es dient als Bildungsressource für das Design von Deep-Learning-Architekturen und die Implementierung prädiktiver Modelle. Das Projekt bietet sofort einsatzbereite Beispiele für die Konstruktion neuronaler Netzwerkarchitekturen und linearer Klassifikatoren. Es enthält Anleitungen zur Durchführung von Tensor-Operationen, automatischer Differenzierung und Gradient-Descent-Optimierung. Die Materialien decken eine Reihe von Machine-Learning-Funktionen ab, einschließlich der Nutzung von High-Level-Keras-Abstraktionen für die Modellkomposition, der Implementierung von Kernel-Klassifikatoren sowie der Entwicklung von Regressions- und Klassifikationssystemen.
Provides high-performance multidimensional array math and linear algebra for processing numerical data.
This repository serves as a structured educational resource for learning to build, train, and deploy neural networks using the PyTorch framework. It provides a collection of practical code examples and tutorials designed to guide practitioners through the implementation of deep learning models. The project covers a broad range of machine learning domains, including computer vision, natural language processing, generative modeling, and reinforcement learning. By utilizing modular components and automated gradient computation, the materials demonstrate how to construct complex architectures and
Performs high-performance tensor-based linear algebra by offloading mathematical operations to hardware accelerators.