2 مستودعات
Generating hash values for serialized documents to detect changes or verify integrity.
Distinguishing note: No candidate covers general document integrity hashing; existing ones are for ZK-circuits or bytecode translation.
Explore 2 awesome GitHub repositories matching data & databases · Document Content Hashing. Refine with filters or upvote what's useful.
ArduinoJson is a C++ library for parsing and manipulating JSON data and MessagePack binary streams on microcontrollers with limited memory and processing power. It provides the core primitives necessary for embedded data serialization and parsing, enabling devices to exchange structured data over serial or network interfaces. The library is distinguished by its focus on microcontroller memory management, employing strategies such as pool-based allocation, string deduplication, and non-owning string views to minimize RAM usage. It further optimizes for constrained environments by allowing cons
Generates a hash of a serialized JSON document for integrity checks or change detection.
RedPajama-Data هي مجموعة أدوات لمعالجة مجموعات البيانات النصية واسعة النطاق المستخدمة لتدريب النماذج اللغوية الكبيرة. توفر خط أنابيب معالجة يركز على تنظيف، وإزالة التكرار، وتسجيل مجموعات ضخمة من النصوص لضمان جودة البيانات وتنوعها. يستخدم المشروع إطار عمل لتسجيل جودة المستندات يستخدم التعلم الآلي والاستدلالات الإحصائية لتقييم ما إذا كانت المستندات مناسبة للتدريب. يتضمن خط أنابيب تصفية مجموعات البيانات الذي يستخدم المصنفات والقوائم السوداء لإزالة الكلمات أو روابط URL غير المرغوب فيها. يتميز النظام بمجموعة أدوات لإزالة تكرار النصوص تقضي على المحتوى الزائد باستخدام تقنيات المطابقة الدقيقة والتقريبية. تسمح هذه القدرات بتحديد وإزالة المستندات المكررة أو المتطابقة تقريباً عبر مجموعة بيانات.
Generates unique fingerprints for documents to detect redundancy and track content across different data sources.