1 repositorio
Transformations that convert raw input data into structured document formats for analysis or chunking.
Distinct from Raw Document Retrieval: The candidates focus on retrieval (fetching) or rendering, not the structural transformation of raw data into a format suitable for chunking.
Explore 1 awesome GitHub repository matching data & databases · Document Preprocessing Pipelines. Refine with filters or upvote what's useful.
Chonkie es una librería de fragmentación de texto (chunking) diseñada para pipelines de generación aumentada por recuperación (RAG). Funciona como un divisor de texto semántico y pipeline de ingesta RAG, transformando texto sin procesar en segmentos incrustados para su almacenamiento en bases de datos vectoriales. El proyecto se distingue por estrategias de división especializadas, incluyendo un divisor de código basado en AST para preservar límites lógicos en el código fuente y un divisor de texto semántico que utiliza modelos de embedding para determinar límites basados en el significado. También proporciona un ingestor de bases de datos vectoriales para automatizar la generación de embeddings y su exportación a varios almacenes. La librería cubre una amplia gama de capacidades, incluyendo el análisis de documentos mediante OCR y extracción de markdown, una variedad de métodos de división como conteo de tokens y segmentación jerárquica, y orquestación de flujos de trabajo a través de pipelines reutilizables. Admite una amplia gama de integraciones de almacenes vectoriales, incluyendo Qdrant, Milvus, Weaviate y Elasticsearch, así como la exportación de datos a JSON y datasets de Hugging Face. Los usuarios pueden ejecutar estas operaciones a través de una interfaz de línea de comandos o desplegar el sistema como un servicio API contenerizado.
Transforms raw input into structured document formats to prepare data for the chunking stage.