14 Repos
Libraries for parsing, formatting, and manipulating text-based data structures.
Explore 14 awesome GitHub repositories matching data & databases · Text Preprocessing. Refine with filters or upvote what's useful.
This project serves as a comprehensive language ecosystem index, functioning as a centralized, community-curated directory for the Go programming language. It organizes a vast landscape of software components, libraries, and development tools into a structured, navigable hierarchy, enabling developers to efficiently discover resources tailored to specific functional domains. The repository distinguishes itself through a decentralized contribution model, where community-driven updates ensure the index remains current with the rapidly evolving software landscape. Beyond simple resource listing,
Offers libraries for parsing, formatting, and manipulating text data.
This project is an open-source, interactive educational platform designed to teach deep learning through a comprehensive, code-first curriculum. It provides a structured learning path that covers foundational mathematics, modern neural network architectures, and practical optimization techniques, enabling practitioners to master complex artificial intelligence concepts through hands-on experimentation. The platform distinguishes itself by integrating technical explanations with executable Jupyter notebooks. This design allows readers to modify code and hyperparameters in real-time, facilitati
Demonstrates practical workflows for cleaning, tokenizing, and preparing diverse text data for downstream natural language processing tasks.
This project is an educational resource providing practical code examples and implementations of machine learning algorithms using the Python language. It serves as a guide for constructing predictive pipelines, clustering models, and dimensionality reduction within the Scikit-Learn ecosystem. The repository includes comprehensive demonstrations for supervised and unsupervised learning, as well as detailed examples for implementing neural networks and deep architectures. It also provides practical guidance on exporting model parameters to JSON and wrapping trained models in web APIs for produ
Cleans raw text and performs tokenization to prepare documents for feature extraction.
Minimal, clean code for the Byte Pair Encoding (BPE) algorithm commonly used in LLM tokenization.
Implements regex-based text splitting by category to prevent cross-category BPE merges during tokenization.
AutoGluon is an automated machine learning framework and multimodal library designed to automate the end-to-end pipeline from data preprocessing to high-accuracy model training and validation. It functions as an automated model trainer for tabular, image, text, and time series data, as well as a tool for time series forecasting and foundation model finetuning. The project is distinguished by its ability to jointly process and fuse different data types, allowing for the construction of multimodal neural networks that integrate images, text, and structured tables. It supports zero-shot inferenc
Tokenizes and concatenates multiple text fields into single sequences for model consumption.
Fuzzywuzzy is a Python library and text processing utility designed to calculate similarity scores between strings. It functions as a text similarity scoring engine and an approximate string matching tool used to identify the closest textual matches within a list of candidate strings. The library provides a suite of tools for measuring the degree of similarity between pieces of text, accounting for typos and formatting differences. These capabilities include extracting the best match from a candidate list and performing fuzzy string matching through various scoring methods. The toolset cover
Normalizes strings by removing special characters and forcing ASCII encoding to optimize fuzzy comparisons.
Smile is a comprehensive JVM machine learning library and statistical computing toolkit. It provides a suite of algorithms for classification, regression, and clustering, implemented natively for Java, Scala, and Kotlin. The project also functions as a deep learning framework, a natural language processing library, and an inference engine for large language models. The library distinguishes itself through GPU acceleration via LibTorch bindings and support for the ONNX model interchange format. It includes specialized capabilities for large language model inference, featuring Byte-Pair Encodin
Extracts meaning from text through sentence splitting, tokenization, stemming, and tagging.
Dieses Projekt ist ein Lehrplan für Machine Learning und eine Lernplattform, die über interaktive Jupyter Notebooks bereitgestellt wird. Es dient als umfassender Leitfaden zur Beherrschung des Python-Data-Science-Toolkits und bietet strukturierte Tutorials für numerisches Rechnen, Manipulation tabellarischer Daten und statistische Visualisierung. Der Lehrplan enthält spezifische Implementierungsleitfäden für Scikit-Learn und einen praktischen Kurs zu TensorFlow für den Aufbau, das Training und das Deployment neuronaler Netze und Computer-Vision-Modelle. Er deckt den End-to-End-Prozess des Aufbaus prädiktiver Modelle ab, von der anfänglichen Problemformulierung und Aufgabenkategorisierung bis hin zum Deployment der Modelle über interaktive Weboberflächen. Das Projekt deckt ein breites Funktionsspektrum ab, einschließlich numerischem Rechnen mit mehrdimensionalen Arrays, explorativer Datenanalyse und Datenvorverarbeitungsroutinen. Es bietet detaillierte Workflows für überwachtes und unüberwachtes Lernen, automatisierte Machine-Learning-Pipelines, Hyperparameter-Optimierung und Modellbewertung mittels Klassifizierungsmetriken und Kreuzvalidierung. Der Bildungsinhalt ist als eine Reihe von Notebooks strukturiert, die Python-Code mit narrativen Erklärungen verknüpfen, um Data-Science-Workflows zu dokumentieren.
Applies string transformations to standardize text formatting across data columns for preprocessing.
Accepts user-provided functions for stemming, stop-word removal, or other text preprocessing instead of imposing a built-in locale.
AiNiee is an LLM-based localization tool that automates the translation of games, books, subtitles, and documents across multiple languages. It operates as a batch processing engine, translating entire folders of files in parallel while preserving directory structure, and includes a glossary management system that enforces terminology consistency using AI-powered glossaries, forbidden terms, and user-defined text substitution rules. The tool differentiates itself through key architectural decisions: it distributes translation requests across multiple API keys to bypass rate limits and acceler
Applies user-defined substitution rules and regex patterns to modify or protect text before and after translation.
Dieses Projekt ist ein PyTorch-Tutorial für Sentiment-Analyse und eine Deep-Learning-Implementierung zur Textanalyse. Es bietet eine NLP-Pipeline (Natural Language Processing) zur Sequenzklassifizierung, die darauf ausgelegt ist, Textdaten zu bereinigen und neuronale Netze für die Kategorisierung von Wortfolgen zu trainieren. Der Fokus liegt auf der Anpassung vortrainierter Sprachmodelle für spezifische Textklassifizierungsaufgaben unter Verwendung benutzerdefinierter Datensätze. Es beinhaltet einen Prozess zum Fine-Tuning großer Sprachmodelle sowie die Implementierung rekurrenter Netze und Transformer zur Erkennung emotionaler Tonalität. Das Projekt deckt ein breites Spektrum der Textsequenzklassifizierung und PyTorch-Textverarbeitung ab. Dies beinhaltet Workflows zur Vorbereitung von Rohtext-Datensätzen mit der TorchText-Bibliothek sowie den Aufbau von Deep-Learning-Modellen zur Kategorisierung von Texten.
Provides text preprocessing routines to scrub and simplify raw datasets for sequence classification.
Dieses Projekt ist eine umfassende Lehrressource und ein Kurs zum Aufbau neuronaler Netze mit PyTorch. Es deckt die grundlegenden Bausteine des Deep Learning ab, einschließlich Tensor-Manipulation, automatischer Differenzierung und der Konstruktion modularer Komponenten für neuronale Netze. Das Repository dient als technischer Leitfaden für verschiedene spezialisierte Bereiche. Es bietet Implementierungsdetails für Computer-Vision-Aufgaben wie Bildklassifizierung, Objekterkennung und semantische Segmentierung sowie Workflows für die Verarbeitung natürlicher Sprache (NLP) mit Transformern, rekurrenten Netzen und generativen Modellen. Zudem enthält es eine Referenz für generative KI, mit Fokus auf die Synthese von Bildern mittels Diffusionsmodellen und adversarialen Netzwerken. Das Material erstreckt sich auf Modelloptimierung und Deployment-Pipelines. Es behandelt Techniken zur Reduzierung der Modellgröße und zur Erhöhung der Inferenzgeschwindigkeit durch Quantisierung und den Export von Modellen in Formate wie ONNX und TensorRT. Weitere Kompetenzbereiche umfassen Data Engineering für paralleles Laden, Modellevaluierung mittels benutzerdefinierter Metriken und das Deployment von Open-Source Large Language Models. Das Projekt wird primär als eine Reihe von Jupyter Notebooks bereitgestellt.
Converts text into indexed sequences and ensures uniform length using padding and truncation.
tts-server-android ist ein systemweiter Text-to-Speech-Dienst für Android, der Syntheseanfragen an externe Cloud-APIs oder lokale Engines weiterleitet. Er fungiert als HTTP-Sprachsynthese-Gateway, das System-Sprachanfragen in anpassbare HTTP-Anfragen für Remote-Cloud-Dienste umwandelt. Das Projekt enthält einen narrativen Dialog-Parser, der Anführungszeichen verwendet, um zwischen Erzählung und Dialog zu unterscheiden, was unterschiedliche Lesestile ermöglicht. Es verfügt zudem über einen Voice-Manager und eine Synthese-Schnittstelle, um Textersetzungsregeln und automatische Wiederholungsversuche zu implementieren, um die Genauigkeit der Sprachausgabe zu verbessern. Der Dienst deckt breitere Funktionen ab, einschließlich der Verwaltung lokaler Engines für Offline-Sprachfunktionalität, Cloud-API-Routing und die Anpassung der Aussprache durch regelbasierte Textvorverarbeitung.
Modifies raw input text using replacement rules to ensure correct pronunciation before synthesis.
CrawlerTutorial is a comprehensive Python web scraping tutorial and framework designed for extracting data from static and dynamic websites. It functions as a web data extraction pipeline and an HTTP request orchestrator, covering the full lifecycle of scraping applications from initial fetching to final data storage. The project provides specialized guidance on anti-bot bypass techniques and web API reverse engineering. It includes methods for evading browser detection through identity masking and proxy rotation, as well as techniques for identifying hidden API endpoints by analyzing network
Includes tools for cleaning raw scraped text, removing duplicate records, and transforming data into analysis-ready formats.