3 مستودعات
Converting diverse dialogue and QA datasets into a consistent multi-turn conversation structure.
Distinct from Data Format Converters: Distinct from tensor or trace normalization; focuses on natural language dialogue structure.
Explore 3 awesome GitHub repositories matching data & databases · Conversation Format Normalization. Refine with filters or upvote what's useful.
This project is a collection of educational resources and technical guides focused on the development and implementation of large language models. It provides a comprehensive curriculum covering transformer architectures, training methods, and deployment strategies. The materials provide detailed instructions for building autonomous agents using reasoning loops and tool integration, as well as guides for fine-tuning models through supervised learning and preference optimization. It also includes tutorials for constructing retrieval augmented generation pipelines and implementing transformer m
Applies templates and control tokens to structure multi-turn dialogues for consistent model interaction.
AdalFlow هو إطار عمل لوكلاء الذكاء الاصطناعي المستقلين ومكتبة تطبيقات للنماذج اللغوية الكبيرة (LLM) مصممة لبناء سير عمل معياري. يعمل كواجهة محايدة للنموذج ومنسق لخط أنابيب RAG، مما يسمح للمستخدمين بتطوير وكلاء ReAct يستخدمون التفكير التكراري وتنفيذ الأدوات الخارجية لحل المهام المعقدة. يتميز المشروع بنظام تحسين المطالبة (prompt optimization) الذي يستخدم الانحدار المتدرج النصي لتحسين قوالب المطالبة وأمثلة التعلم القليل (few-shot) تلقائياً. يعامل ملاحظات النموذج كإشارة قابلة للاشتقاق، مما يتيح شكلاً من أشكال الانتشار العكسي للنماذج اللغوية الكبيرة لتحسين جودة المخرجات تكرارياً بناءً على مقاييس التقييم. يغطي إطار العمل سطح قدرات واسعاً، بما في ذلك التوليد المعزز بالاسترجاع (RAG) مع البحث الدلالي المتجه وإعادة الترتيب، وتتبع التنفيذ القائم على النطاق للمراقبة، والتحليل الهيكلي القائم على المخطط. يوفر طبقة اتصال موحدة للعديد من مزودي النماذج المملوكة والمفتوحة المصدر ويدعم تحويل وظائف Python إلى واجهات أدوات قياسية. تم تنفيذ النظام بلغة Python ويتكامل مع MLflow لتتبع وتحليل سير العمل.
Converts raw chat completion streams into a standardized format for consistent event handling.
MNBVC is a dataset pipeline and toolkit designed for the collection, cleaning, and normalization of massive text and code corpora used to train large language models. It provides specialized tools for harvesting source code, commit histories, and repository metadata from version control platforms, alongside a multilingual text corpus collector for gathering parallel text and academic papers. The project distinguishes itself through comprehensive capabilities for processing diverse document types, including a PDF-to-text converter that transforms complex layouts and formulas into structured JS
Converts specialized test data into a consistent multi-turn conversation format.