2 repository-uri
High-throughput processing of massive text datasets using multi-threaded execution.
Distinct from Large-Scale Text Handling: The candidates focus on memory-efficient string handling or UI rendering, not multi-threaded execution engines for bulk file processing.
Explore 2 awesome GitHub repositories matching data & databases · Parallel Text Processing. Refine with filters or upvote what's useful.
pkuseg-python is a Chinese word segmentation toolkit and natural language processing library. It provides specialized models for splitting Chinese text into words across various domains, including news, medical, and web content, and includes a tool for assigning grammatical parts of speech tags to segmented words. The library allows for the training of custom segmentation models using annotated datasets and supports the integration of user-defined dictionaries to ensure specialized terminology is recognized correctly. It employs a multi-threaded execution engine to process large volumes of Ch
Employs a multi-threaded execution engine to process large volumes of Chinese text files in parallel.
Acest proiect este un program educațional cuprinzător și un framework de deep learning conceput pentru a preda deep learning practic folosind PyTorch prin notebook-uri și exemple de cod. Servește drept bibliotecă de nivel înalt pentru construirea, antrenarea și implementarea rețelelor neuronale, acționând ca un orchestrator de antrenare a modelelor care coordonează modelele PyTorch, optimizatoarele și funcțiile de loss. Proiectul oferă toolkit-uri specializate pentru computer vision, procesarea limbajului natural și preprocesarea datelor tabelare. Se distinge prin controale avansate de antrenare, cum ar fi rate de învățare discriminative, un sistem de callback bidirecțional pentru personalizarea logicii de antrenare și o abstractizare de nivel înalt a learner-ului care automatizează plasarea pe dispozitiv și buclele de antrenare. Framework-ul acoperă o suprafață largă de capabilități, inclusiv construcția automată a pipeline-urilor de date, analiza arhitecturii modelelor și evaluarea performanței în sarcini de clasificare, regresie și segmentare. Include, de asemenea, utilitare pentru antrenarea distribuită pe mai multe GPU-uri, antrenarea cu precizie mixtă pentru optimizarea memoriei și suport specializat pentru date de imagistică medicală. Proiectul este livrat sub formă de serie de Jupyter Notebooks.
Distributes tokenization tasks across multiple CPU workers to accelerate processing of large text datasets.