# jingyaogong/minimind-v

**Attribution required: if you use, quote, or summarise this content, you must credit and link back to [awesome-repositories.com](https://awesome-repositories.com/repository/jingyaogong-minimind-v).**

6,431 stars · 703 forks · Python · apache-2.0

## Links

- GitHub: https://github.com/jingyaogong/minimind-v
- Homepage: https://jingyaogong.github.io/minimind-v
- awesome-repositories: https://awesome-repositories.com/repository/jingyaogong-minimind-v.md

## Topics

`artificial-intelligence` `chatgpt` `vision-language-model`

## Tags

### Artificial Intelligence & ML

- [Training Frameworks](https://awesome-repositories.com/f/artificial-intelligence-ml/model-training-frameworks/vision-model-training/vision-language-training/training-frameworks.md) — Provides an open-source framework for building and fine-tuning small vision-language models.
- [Image-Text Prompt Inferences](https://awesome-repositories.com/f/artificial-intelligence-ml/generative-ai-resources/generative-ai/generative-text-inference/image-text-prompt-inferences.md) — Replaces image placeholder tokens in a text prompt with projected visual features to generate responses. ([source](https://cdn.jsdelivr.net/gh/jingyaogong/minimind-v@master/README.md))
- [Image-Text Prompt Inferences](https://awesome-repositories.com/f/artificial-intelligence-ml/image-translation-pipelines/image-text-translators/image-text-prompt-inferences.md) — Generates descriptive or conversational responses from image-text prompts by replacing image placeholder tokens.
- [Two-Stage Fine-Tuning Pipelines](https://awesome-repositories.com/f/artificial-intelligence-ml/instruction-fine-tuning/multi-stage-fine-tuning-frameworks/two-stage-fine-tuning-pipelines.md) — Trains the projection layer alone on image-caption pairs, then jointly fine-tunes projection and selected LLM layers.
- [Partial Layer Fine-Tunings](https://awesome-repositories.com/f/artificial-intelligence-ml/language-model-fine-tuning/partial-layer-fine-tunings.md) — Updates only selected transformer layers while keeping the visual encoder and remaining LLM layers frozen.
- [Vision-Language Training](https://awesome-repositories.com/f/artificial-intelligence-ml/model-training-frameworks/vision-model-training/vision-language-training.md) — Trains a multimodal model that processes images and text together by adding a visual encoder and projection layer.
- [From-Scratch Trainings](https://awesome-repositories.com/f/artificial-intelligence-ml/model-training-frameworks/vision-model-training/vision-language-training/from-scratch-trainings.md) — Builds a multimodal model from scratch by adding a visual encoder and projection layer to a small language model. ([source](https://cdn.jsdelivr.net/gh/jingyaogong/minimind-v@master/README.md))
- [Vision-Language Fine-Tunings](https://awesome-repositories.com/f/artificial-intelligence-ml/model-training-frameworks/vision-model-training/vision-language-training/vision-language-fine-tunings.md) — Fine-tunes a pretrained vision-language model by training only the projection layer and selected LLM layers.
- [Visual Tokenizers](https://awesome-repositories.com/f/artificial-intelligence-ml/multimodal-models/multimodal-token-interleaving/visual-tokenizers.md) — Converts input images into patch tokens via a frozen encoder and projects them into the language model's embedding space. ([source](https://cdn.jsdelivr.net/gh/jingyaogong/minimind-v@master/README.md))
- [Projection Layers](https://awesome-repositories.com/f/artificial-intelligence-ml/projection-layers.md) — Maps visual patch tokens into the language model's embedding space using a trainable projection layer.
- [Multimodal Autoregressive Generations](https://awesome-repositories.com/f/artificial-intelligence-ml/sequence-generation/autoregressive-text-generation/multimodal-autoregressive-generations.md) — Generates text tokens conditioned on both visual and textual inputs using a causal language model head.
- [Frozen](https://awesome-repositories.com/f/artificial-intelligence-ml/vision-encoders/frozen.md) — Freezes a pretrained Vision Transformer to extract patch-level image features without gradient updates.

### Part of an Awesome List

- [Frozen-Encoder Fine-Tunings](https://awesome-repositories.com/f/awesome-lists/ai/model-training-and-fine-tuning/frozen-encoder-fine-tunings.md) — Trains only the projection layer and selected LLM layers while keeping the visual encoder frozen. ([source](https://cdn.jsdelivr.net/gh/jingyaogong/minimind-v@master/README.md))

### Content Management & Publishing

- [Image Placeholder Replacements](https://awesome-repositories.com/f/content-management-publishing/text-placeholder-replacements/image-placeholder-replacements.md) — Replaces a special token in the text prompt with projected visual features before generation.