1 repository
Transformations that convert raw input data into structured document formats for analysis or chunking.
Distinct from Raw Document Retrieval: The candidates focus on retrieval (fetching) or rendering, not the structural transformation of raw data into a format suitable for chunking.
Explore 1 awesome GitHub repository matching data & databases · Document Preprocessing Pipelines. Refine with filters or upvote what's useful.
Chonkie este o bibliotecă de chunking (segmentare) a textului concepută pentru pipeline-uri de retrieval-augmented generation (RAG). Funcționează ca un splitter semantic de text și un pipeline de ingestie RAG, transformând textul brut în segmente încorporate pentru stocare în baze de date vectoriale. Proiectul se distinge prin strategii de segmentare specializate, inclusiv un splitter de cod bazat pe AST pentru păstrarea limitelor logice în codul sursă și un splitter semantic de text care utilizează modele de embedding pentru a determina limitele bazate pe semnificație. De asemenea, oferă un ingestor pentru baze de date vectoriale pentru a automatiza generarea embedding-urilor și exportul acestora către diverse stocuri. Biblioteca acoperă o gamă largă de capabilități, inclusiv parsarea documentelor prin OCR și extragerea markdown, o varietate de metode de segmentare precum numărarea token-urilor și segmentarea ierarhică, și orchestrarea fluxului de lucru prin pipeline-uri reutilizabile. Suportă o gamă largă de integrări cu vector store-uri, inclusiv Qdrant, Milvus, Weaviate și Elasticsearch, precum și exportul datelor către JSON și seturi de date Hugging Face. Utilizatorii pot executa aceste operațiuni printr-o interfață în linie de comandă sau pot implementa sistemul ca serviciu API containerizat.
Transforms raw input into structured document formats to prepare data for the chunking stage.