# opengvlab/internvideo

**Attribution required: if you use, quote, or summarise this content, you must credit and link back to [awesome-repositories.com](https://awesome-repositories.com/repository/opengvlab-internvideo).**

2,292 stars · 154 forks · Python · Apache-2.0

## Links

- GitHub: https://github.com/OpenGVLab/InternVideo
- awesome-repositories: https://awesome-repositories.com/repository/opengvlab-internvideo.md

## Topics

`action-recognition` `benchmark` `contrastive-learning` `foundation-models` `instruction-tuning` `masked-autoencoder` `multimodal` `open-set-recognition` `self-supervised` `spatio-temporal-action-localization` `temporal-action-localization` `video-clip` `video-data` `video-dataset` `video-question-answering` `video-retrieval` `video-understanding` `vision-transformer` `zero-shot-classification` `zero-shot-retrieval`

## Description

[ECCV2024] Video Foundation Models & Data for Multimodal Understanding

## Tags

### Part of an Awesome List

- [Pre-training Datasets](https://awesome-repositories.com/f/awesome-lists/data/pre-training-datasets.md) — Video-centric instruction dataset for chat-based understanding.