# datawhalechina/all-in-rag

**Attribution required: if you use, quote, or summarise this content, you must credit and link back to [awesome-repositories.com](https://awesome-repositories.com/repository/datawhalechina-all-in-rag).**

3,989 stars · 1,940 forks · Python

## Links

- GitHub: https://github.com/datawhalechina/all-in-rag
- Homepage: https://datawhalechina.github.io/all-in-rag/
- awesome-repositories: https://awesome-repositories.com/repository/datawhalechina-all-in-rag.md

## Topics

`ai` `deepseek` `embedding` `kimi-k2` `langchain` `llama-index` `llm` `milvus` `multimodal` `neo4j` `python` `rag`

## Description

This project is a retrieval augmented generation framework designed to build pipelines that connect unstructured data and knowledge graphs with large language models. It functions as a vector database orchestrator for indexing text and multimodal content, as well as a system for translating natural language queries into structured database commands.

The framework integrates a hybrid retrieval engine that combines dense vector search with sparse keyword matching to increase the precision of retrieved contexts. It further enhances reasoning and relationship mapping through a graph-augmented retrieval system.

The system includes a toolkit for measuring the quality of retrieval and generation processes using standardized metrics. It also provides mechanisms to enforce predefined schemas and patterns on model responses to ensure consistent output for downstream applications.

The project is implemented in Python.

## Tags

### Artificial Intelligence & ML

- [RAG Pipelines](https://awesome-repositories.com/f/artificial-intelligence-ml/language-model-orchestration/retrieval-augmented-generation/rag-pipelines.md) — Provides a comprehensive framework for building retrieval-augmented generation pipelines that integrate external data sources. ([source](https://cdn.jsdelivr.net/gh/datawhalechina/all-in-rag@main/README.md))
- [Graph Knowledge Indexing](https://awesome-repositories.com/f/artificial-intelligence-ml/graph-knowledge-indexing.md) — Structures knowledge as interconnected nodes and relationships to improve reasoning and semantic retrieval. ([source](https://cdn.jsdelivr.net/gh/datawhalechina/all-in-rag@main/README.md))
- [Graph Retrieval Augmented Generation](https://awesome-repositories.com/f/artificial-intelligence-ml/graph-retrieval-augmented-generation.md) — Combines knowledge graphs with retrieval-augmented generation to enhance reasoning and relationship mapping in responses.
- [Hybrid Search Systems](https://awesome-repositories.com/f/artificial-intelligence-ml/hybrid-search-systems.md) — Provides a search system that fuses multiple retrieval methods, including dense and sparse search.
- [Knowledge Graph Retrieval Systems](https://awesome-repositories.com/f/artificial-intelligence-ml/knowledge-graph-retrieval-systems.md) — Leverages graph topology and entity relationships to provide context-aware retrieval for generated responses.
- [Knowledge Graphs](https://awesome-repositories.com/f/artificial-intelligence-ml/knowledge-graphs.md) — Integrates structured knowledge graphs to provide reasoning and context for generated model responses.
- [RAG Frameworks](https://awesome-repositories.com/f/artificial-intelligence-ml/rag-frameworks.md) — Acts as a comprehensive framework for building RAG pipelines that integrate unstructured data and knowledge graphs.
- [Hybrid Sparse-Dense Embeddings](https://awesome-repositories.com/f/artificial-intelligence-ml/vector-embeddings/hybrid-sparse-dense-embeddings.md) — Integrates dense semantic vectors with sparse keyword-based representations to increase retrieval precision.
- [Model Output Formatting](https://awesome-repositories.com/f/artificial-intelligence-ml/model-output-formatting.md) — Includes utilities for enforcing structured data schemas in language model responses. ([source](https://cdn.jsdelivr.net/gh/datawhalechina/all-in-rag@main/README.md))
- [Output Formatting Constraints](https://awesome-repositories.com/f/artificial-intelligence-ml/prompt-engineering/structural-formatting-frameworks/output-formatting-constraints.md) — Enforces specific output schemas and formats on language model responses to ensure consistency.
- [RAG Evaluation Frameworks](https://awesome-repositories.com/f/artificial-intelligence-ml/rag-evaluation-frameworks.md) — Provides a toolkit for evaluating the performance of retrieval and generation processes in RAG workflows.
- [Constrained Decoding](https://awesome-repositories.com/f/artificial-intelligence-ml/sequence-decoding-models/sequence-decoders/constrained-decoding.md) — Uses constrained decoding and validation to force model outputs into predefined structured formats.
- [Structured Output Enforcements](https://awesome-repositories.com/f/artificial-intelligence-ml/structured-output-enforcements.md) — Enforces specific patterns and predefined schemas on language model responses to ensure output consistency.
- [Text-to-SQL Translators](https://awesome-repositories.com/f/artificial-intelligence-ml/text-to-sql-translators.md) — Translates natural language queries into structured SQL commands for precise data retrieval from relational databases.

### Data & Databases

- [Document and Unstructured Extraction](https://awesome-repositories.com/f/data-databases/data-processing-pipelines/data-processing/document-unstructured-extraction.md) — Implements automated parsing and splitting of unstructured documents and web content into machine-readable formats. ([source](https://cdn.jsdelivr.net/gh/datawhalechina/all-in-rag@main/README.md))
- [Vector Store Orchestrators](https://awesome-repositories.com/f/data-databases/in-memory-data-stores/vector-stores/vector-store-orchestrators.md) — Orchestrates the indexing of text and multimodal content into vector databases for high-performance retrieval.
- [Hybrid Retrieval](https://awesome-repositories.com/f/data-databases/search-indexing-technologies/search-indexing/search-information-retrieval/hybrid-retrieval.md) — Implements a hybrid retrieval engine combining dense vector similarity and sparse keyword matching.
- [Vector Indexing](https://awesome-repositories.com/f/data-databases/vector-indexing.md) — Implements high-dimensional vector indexing for semantic retrieval of unstructured and multimodal content.
- [LLM Schema Outputs](https://awesome-repositories.com/f/data-databases/data-governance-modeling/data-modeling-schemas/data-schemas/schema-validated-data-structures/schema-enforced-output-parsers/llm-schema-outputs.md) — Enforces predefined schemas and formats on language model responses for consistent downstream data processing.
- [Multi-Stage Pipeline Processing](https://awesome-repositories.com/f/data-databases/data-processing-pipelines/document-llm-preparation/multi-stage-pipeline-processing.md) — Orchestrates multi-stage pipelines that chain data loading, text chunking, and indexing into a sequential workflow.

### System Administration & Monitoring

- [System Quality Evaluators](https://awesome-repositories.com/f/system-administration-monitoring/application-quality-monitoring/system-quality-evaluators.md) — Provides a framework for applying custom metrics to quantify the performance of RAG workflows. ([source](https://cdn.jsdelivr.net/gh/datawhalechina/all-in-rag@main/README.md))

### Testing & Quality Assurance

- [Retrieval Metrics](https://awesome-repositories.com/f/testing-quality-assurance/performance-testing-analysis/performance-diagnostics/performance-measurement/context-recall-evaluators/retrieval-metrics.md) — Provides quantitative measurement of retrieval quality using standardized metrics against ground-truth datasets.