1 dépôt
Transformations that convert raw input data into structured document formats for analysis or chunking.
Distinct from Raw Document Retrieval: The candidates focus on retrieval (fetching) or rendering, not the structural transformation of raw data into a format suitable for chunking.
Explore 1 awesome GitHub repository matching data & databases · Document Preprocessing Pipelines. Refine with filters or upvote what's useful.
Chonkie est une bibliothèque de découpage de texte conçue pour les pipelines de génération augmentée par récupération (RAG). Elle fonctionne comme un séparateur de texte sémantique et un pipeline d'ingestion RAG, transformant le texte brut en segments intégrés pour le stockage dans des bases de données vectorielles. Le projet se distingue par des stratégies de découpage spécialisées, incluant un séparateur de code basé sur AST pour préserver les limites logiques dans le code source et un séparateur de texte sémantique qui utilise des modèles d'embedding pour déterminer les limites basées sur le sens. Il fournit également un ingesteur de base de données vectorielle pour automatiser la génération d'embeddings et leur exportation vers divers magasins. La bibliothèque couvre un large éventail de capacités, incluant l'analyse de documents via OCR et l'extraction markdown, une variété de méthodes de découpage telles que le comptage de jetons et la segmentation hiérarchique, et l'orchestration de flux de travail via des pipelines réutilisables. Elle prend en charge un large éventail d'intégrations de magasins vectoriels, incluant Qdrant, Milvus, Weaviate et Elasticsearch, ainsi que l'exportation de données vers JSON et les jeux de données Hugging Face. Les utilisateurs peuvent exécuter ces opérations via une interface en ligne de commande ou déployer le système en tant que service API conteneurisé.
Transforms raw input into structured document formats to prepare data for the chunking stage.