1 Repo
The sequential generation of tokens where each step processes a single token based on previous context.
Distinct from Incremental Audio Token Decoding: Distinct from audio or design token decoding; this is the standard LLM auto-regressive decoding step.
Explore 1 awesome GitHub repository matching artificial intelligence & ml · Incremental Text Decoding. Refine with filters or upvote what's useful.
tiny-llm ist eine Inferenz-Engine für große Sprachmodelle und eine Transformer-Modell-Implementierung. Sie dient als Laufzeitumgebung für quantisierte Modelle und als Paged-Key-Value-Cache-Manager und bietet einen spezialisierten Inferenz-Stack, der für Apple Silicon optimiert ist. Das System zeichnet sich durch High-Throughput-Ausführungstechniken aus, einschließlich Continuous Batching und Paged Attention. Es nutzt ein Paged-Memory-System, um Fragmentierung während der Token-Generierung zu eliminieren, und verwendet On-the-Fly-Dequantisierung komprimierter Gewichte, um den Speicherbedarf während der Matrixmultiplikation zu reduzieren. Das Projekt deckt ein breites Spektrum an Modellarchitektur- und Performance-Funktionen ab, wie Mixture-of-Experts-Routing, Grouped Query Attention und Flash Attention. Es umfasst Unterstützung für fortgeschrittene Decoding-Logik, einschließlich Greedy Decoding und Sampling via Temperature, Top-K- und Top-P-Methoden. Die Implementierung ist in Python geschrieben und enthält benutzerdefinierte Low-Level-Kernel zur Beschleunigung der Tensor-Verarbeitung auf der Hardware.
Generates tokens sequentially by processing an initial prompt followed by iterative single-token steps.