# cluebenchmark/cluecorpus2020

**Attribution required: if you use, quote, or summarise this content, you must credit and link back to [awesome-repositories.com](https://awesome-repositories.com/repository/cluebenchmark-cluecorpus2020).**

1,012 stars · 83 forks · MIT

## Links

- GitHub: https://github.com/CLUEbenchmark/CLUECorpus2020
- Homepage: https://arxiv.org/abs/2003.01355
- awesome-repositories: https://awesome-repositories.com/repository/cluebenchmark-cluecorpus2020.md

## Topics

`albert` `bert` `chinese` `chinese-corpus` `corpus` `datasets` `nlp` `pretrain` `roberta`

## Description

Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料

## Tags

### Part of an Awesome List

- [Datasets and Corpora](https://awesome-repositories.com/f/awesome-lists/data/datasets-and-corpora.md) — High-quality Chinese pre-training corpus for NLP tasks.
- [Pre-training Datasets](https://awesome-repositories.com/f/awesome-lists/data/pre-training-datasets.md) — Cleaned 100GB Chinese corpus for pre-training and NLP tasks.