1 dépôt
Retrieval of raw content from local filesystems and directories with support for extension filtering.
Distinct from Local File Managers: Candidates were too specific to locale files, image loading, or browser accessors; this is general RAG data ingestion.
Explore 1 awesome GitHub repository matching data & databases · Local File Loading. Refine with filters or upvote what's useful.
Chonkie est une bibliothèque de découpage de texte conçue pour les pipelines de génération augmentée par récupération (RAG). Elle fonctionne comme un séparateur de texte sémantique et un pipeline d'ingestion RAG, transformant le texte brut en segments intégrés pour le stockage dans des bases de données vectorielles. Le projet se distingue par des stratégies de découpage spécialisées, incluant un séparateur de code basé sur AST pour préserver les limites logiques dans le code source et un séparateur de texte sémantique qui utilise des modèles d'embedding pour déterminer les limites basées sur le sens. Il fournit également un ingesteur de base de données vectorielle pour automatiser la génération d'embeddings et leur exportation vers divers magasins. La bibliothèque couvre un large éventail de capacités, incluant l'analyse de documents via OCR et l'extraction markdown, une variété de méthodes de découpage telles que le comptage de jetons et la segmentation hiérarchique, et l'orchestration de flux de travail via des pipelines réutilisables. Elle prend en charge un large éventail d'intégrations de magasins vectoriels, incluant Qdrant, Milvus, Weaviate et Elasticsearch, ainsi que l'exportation de données vers JSON et les jeux de données Hugging Face. Les utilisateurs peuvent exécuter ces opérations via une interface en ligne de commande ou déployer le système en tant que service API conteneurisé.
Retrieves content from local files or directories with optional filtering by file extension.