2 repositorios
Generating hash values for serialized documents to detect changes or verify integrity.
Distinguishing note: No candidate covers general document integrity hashing; existing ones are for ZK-circuits or bytecode translation.
Explore 2 awesome GitHub repositories matching data & databases · Document Content Hashing. Refine with filters or upvote what's useful.
ArduinoJson is a C++ library for parsing and manipulating JSON data and MessagePack binary streams on microcontrollers with limited memory and processing power. It provides the core primitives necessary for embedded data serialization and parsing, enabling devices to exchange structured data over serial or network interfaces. The library is distinguished by its focus on microcontroller memory management, employing strategies such as pool-based allocation, string deduplication, and non-owning string views to minimize RAM usage. It further optimizes for constrained environments by allowing cons
Generates a hash of a serialized JSON document for integrity checks or change detection.
RedPajama-Data es un conjunto de herramientas para el preprocesamiento de conjuntos de datos de texto a gran escala utilizados para entrenar modelos de lenguaje grandes. Proporciona una canalización de preprocesamiento centrada en la limpieza, deduplicación y puntuación de colecciones masivas de texto para garantizar la calidad y diversidad de los datos. El proyecto utiliza un framework de puntuación de calidad de documentos que emplea aprendizaje automático y heurísticas estadísticas para evaluar si los documentos son adecuados para el entrenamiento. Incluye una canalización de filtrado de conjuntos de datos que utiliza clasificadores y listas de bloqueo para eliminar palabras o URLs no deseadas. El sistema cuenta con un conjunto de herramientas de deduplicación de texto que elimina contenido redundante utilizando técnicas de coincidencia exacta y difusa. Estas capacidades permiten la identificación y eliminación de documentos duplicados o casi idénticos en un corpus.
Generates unique fingerprints for documents to detect redundancy and track content across different data sources.