5 Repos
Components used to rescale and stabilize internal activations in neural networks.
Distinct from RMSNorm with SiLU Activation: The candidates focus on specific fused GPU kernels or tensor dimensioning, not the general architectural normalization layer logic.
Explore 5 awesome GitHub repositories matching artificial intelligence & ml · Normalization Layers. Refine with filters or upvote what's useful.
TinyLlama is a compact 1.1B parameter language model pretrained on a dataset of 3 trillion tokens. It is an edge AI model designed for high-performance text generation on memory-constrained devices. The project provides a distributed pretraining framework for training small language models across multiple GPUs and nodes. It also includes a finetuning toolkit for full-parameter weight adjustments to adapt the base model for chat and specific tasks. The system supports distributed large language model training and on-device text generation. Its architectural components include rotary positiona
Implements root mean square layer normalization to stabilize neural network activations during training.
This project is a collection of PyTorch learning resources and educational guides designed to teach the construction and training of neural networks. It serves as a comprehensive deep learning tutorial covering various model architectures and practical implementation strategies. The resources provide specific guidance on implementing computer vision tasks, such as image classification and synthetic imagery generation, as well as reinforcement learning agents using value networks and experience replay. It also covers sequential data modeling through recurrent networks and generative modeling u
Implements normalization layers to stabilize internal activations and improve training convergence.
DeepSeek-LLM ist ein Large Language Model und kausales Sprachmodell für die natürliche Sprachgenerierung. Es fungiert als mehrsprachiges System, das in der Lage ist, das nächste Token in einer Sequenz vorherzusagen, um Textvervollständigung und konversationelle Generierung durchzuführen. Das Modell ist auf logisches Schlussfolgern spezialisiert, insbesondere als Code- und Mathe-LLM. Dies ermöglicht komplexe Problemlösungen, einschließlich der Generierung von ausführbarem Code und der Lösung mathematischer Gleichungen durch schrittweise Analyse. Die breiteren Fähigkeiten des Systems decken konversationelle KI ab, einschließlich der Generierung von Chat-Antworten und Textsequenzen in mehreren Sprachen. Der Funktionsumfang erstreckt sich auf automatisierte Codegenerierung und die Produktion kohärenter Texte für verschiedene Schreibaufgaben.
Uses root mean square layer normalization to stabilize training and accelerate convergence.
x-transformers ist eine PyTorch-Bibliothek und ein Research-Toolkit für den Aufbau von Transformer-Architekturen. Es bietet ein modulares Framework für die Implementierung experimenteller Transformer-Forschung, einschließlich einer Suite fortschrittlicher Attention-Mechanismen, Tools für die Modellierung langer Sequenzen und eines Frameworks für Vision-Transformer. Das Projekt zeichnet sich durch den Fokus auf speichereffiziente und performante Komponenten aus, wie etwa Flash-Attention mit Tiled-Kernels und Multi-Query-Attention. Zudem implementiert es spezialisierte Methoden zur Erweiterung von Kontextfenstern, einschließlich Sequence-Recurrence und Rotary-Positional-Embeddings. Die Bibliothek deckt ein breites Spektrum architektonischer Funktionen ab, darunter verschiedene Normalisierungsschemata zur Stabilisierung des Trainings, Gated-Feedforward-Netzwerke und benutzerdefinierte Layer-Topologien wie Macaron-Netzwerke. Sie unterstützt sowohl Encoder- als auch Decoder-Konstruktionen und bietet Tools für die autoregressive Sequenzgenerierung sowie Vision-Language-Aufgaben wie Bildunterschriften.
Combines multiple normalization types, including RMSNorm and Sandwich Norm, to prevent gradient collapse.
TransformerLens is a library for mechanistic interpretability research designed to reverse engineer the learned algorithms within large language models. It provides a standardized framework for wrapping diverse transformer architectures, allowing researchers to extract, manipulate, and analyze internal activations and weights through a consistent interface. The project distinguishes itself through a comprehensive system of activation hooks that can capture, patch, and ablate internal tensors during the forward pass. It includes specialized utilities for decomposing fused projections, material
Combines normalization weights into projection weights to simplify the mathematical analysis of model circuits.