1 مستودع
Transformations that convert raw input data into structured document formats for analysis or chunking.
Distinct from Raw Document Retrieval: The candidates focus on retrieval (fetching) or rendering, not the structural transformation of raw data into a format suitable for chunking.
Explore 1 awesome GitHub repository matching data & databases · Document Preprocessing Pipelines. Refine with filters or upvote what's useful.
Chonkie هي مكتبة لتقسيم النصوص مصممة لخطوط أنابيب التوليد المعزز بالاسترجاع (RAG). تعمل كمقسم نصوص دلالي وخط أنابيب استيعاب RAG، حيث تحول النص الخام إلى أجزاء مضمنة للتخزين في قواعد بيانات المتجهات. يتميز المشروع باستراتيجيات تقسيم متخصصة، بما في ذلك مقسم كود يعتمد على AST للحفاظ على الحدود المنطقية في الكود المصدري ومقسم نص دلالي يستخدم نماذج التضمين لتحديد الحدود بناءً على المعنى. كما يوفر مستوعباً لقاعدة بيانات المتجهات لأتمتة توليد التضمينات وتصديرها إلى متاجر مختلفة. تغطي المكتبة مجموعة واسعة من الإمكانيات، بما في ذلك تحليل المستندات عبر OCR واستخراج markdown، ومجموعة متنوعة من طرق التقسيم مثل عدد الرموز والتقسيم الهرمي، وتنسيق سير العمل من خلال خطوط أنابيب قابلة لإعادة الاستخدام. تدعم مجموعة واسعة من تكاملات مخزن المتجهات، بما في ذلك Qdrant وMilvus وWeaviate وElasticsearch، بالإضافة إلى تصدير البيانات إلى JSON ومجموعات بيانات Hugging Face. يمكن للمستخدمين تنفيذ هذه العمليات عبر واجهة سطر الأوامر أو نشر النظام كخدمة API محاوية.
Transforms raw input into structured document formats to prepare data for the chunking stage.