7 Repos
Processes and cleans text data locally to prepare it for structured analysis or AI consumption.
Distinct from Client-Side Data Processing: Distinct from Client-Side Data Processing: focuses specifically on the cleaning and extraction of text rather than general data import/export.
Explore 7 awesome GitHub repositories matching data & databases · Text Cleaning. Refine with filters or upvote what's useful.
zotero-gpt is an extension that integrates large language models with a reference management system to assist in the analysis and summarization of academic research papers. It functions as a research paper AI assistant capable of querying PDF documents and extracting insights directly from academic libraries. The tool features a contextual research search system that locates items within a library based on the semantic meaning of selected text. It includes a visual interface that renders AI-generated responses using Markdown and supports the display of complex mathematical formulas. The syst
Extracts and cleans content from academic papers locally before sending targeted segments to the AI model.
Dies ist eine Windows-Anwendung für automatische Spracherkennung, die gesprochenes Audio aus Videodateien in zeitgestempelte SRT-Untertiteldateien transkribiert. Sie dient als Untertitelgenerator und Übersetzungstool, das Medien-Sprache in synchronisierten Text umwandelt. Die Software fungiert als Batch-Medien-Transkribierer, der die gleichzeitige Verarbeitung mehrerer Audio- und Videodateien ermöglicht, um Untertitel in großen Mengen zu generieren. Sie enthält einen Übersetzungsworkflow zur Konvertierung von Transkriptionen zwischen verschiedenen Sprachen für die Erstellung zweisprachiger oder lokalisierter Dateien. Das System bietet zudem Textverfeinerungsfunktionen unter Verwendung regulärer Ausdrücke und benutzerdefinierter Filter, um Transkripte durch das Entfernen von Füllwörtern und unerwünschten Mustern zu bereinigen. Dies wird durch eine native grafische Windows-Benutzeroberfläche unterstützt.
Cleans transcription text locally using regular expressions to remove unwanted patterns.
Dieses Projekt ist eine umfassende Lehrressource und ein Kurs zum Aufbau neuronaler Netze mit PyTorch. Es deckt die grundlegenden Bausteine des Deep Learning ab, einschließlich Tensor-Manipulation, automatischer Differenzierung und der Konstruktion modularer Komponenten für neuronale Netze. Das Repository dient als technischer Leitfaden für verschiedene spezialisierte Bereiche. Es bietet Implementierungsdetails für Computer-Vision-Aufgaben wie Bildklassifizierung, Objekterkennung und semantische Segmentierung sowie Workflows für die Verarbeitung natürlicher Sprache (NLP) mit Transformern, rekurrenten Netzen und generativen Modellen. Zudem enthält es eine Referenz für generative KI, mit Fokus auf die Synthese von Bildern mittels Diffusionsmodellen und adversarialen Netzwerken. Das Material erstreckt sich auf Modelloptimierung und Deployment-Pipelines. Es behandelt Techniken zur Reduzierung der Modellgröße und zur Erhöhung der Inferenzgeschwindigkeit durch Quantisierung und den Export von Modellen in Formate wie ONNX und TensorRT. Weitere Kompetenzbereiche umfassen Data Engineering für paralleles Laden, Modellevaluierung mittels benutzerdefinierter Metriken und das Deployment von Open-Source Large Language Models. Das Projekt wird primär als eine Reihe von Jupyter Notebooks bereitgestellt.
Cleans raw text by removing irrelevant characters and stop words to create semantic sequences.
CrawlerTutorial is a comprehensive Python web scraping tutorial and framework designed for extracting data from static and dynamic websites. It functions as a web data extraction pipeline and an HTTP request orchestrator, covering the full lifecycle of scraping applications from initial fetching to final data storage. The project provides specialized guidance on anti-bot bypass techniques and web API reverse engineering. It includes methods for evading browser detection through identity masking and proxy rotation, as well as techniques for identifying hidden API endpoints by analyzing network
Cleans raw scraped text by removing HTML tags and fixing encoding for structured analysis.
Spark NLP is a toolkit for scalable text analysis and machine learning built on the Apache Spark distributed computing framework. It provides a multimodal machine learning framework and a distributed pipeline system for sequencing annotators to process large-scale linguistic data. The library includes a transformer text processor for generating contextual vector embeddings and a dedicated inference engine for managing large language models. The project distinguishes itself through its ability to process heterogeneous data types, including text, audio, and images, within a unified vision-langu
Cleans and prepares text data through tokenization and stop word removal for AI consumption.
python-ftfy ist eine Unicode-Textreparatur-Bibliothek, die entwickelt wurde, um Mojibake und Kodierungsfehler zu beheben. Sie bietet Dienstprogramme für die Erkennung von Byte-Kodierungen, die Dekodierung von HTML-Entitäten und die Wiederherstellung beschädigten Textes, um ihn in seine beabsichtigte Unicode-Form zurückzuführen. Das Projekt zeichnet sich durch eine mehrschichtige Dekodierungspipeline aus, die komplexe Kodierungsverwechslungen identifiziert und rückgängig macht. Es verwendet heuristikbasierte Erkennung, um Fälle zu lösen, in denen Text über mehrere Korruptionsebenen hinweg mit dem falschen Codec dekodiert wurde, und kann mit nicht standardmäßigen UTF-8-Varianten und unsauberen Kodierungszuordnungen umgehen. Die Bibliothek deckt zudem ein breites Spektrum an Textstandardisierungsaufgaben ab, einschließlich Unicode-Normalisierung, Zeilenumbruch-Standardisierung und der Erweiterung von lateinischen Ligaturen. Sie enthält Funktionen für die Normalisierung der Zeichenbreite sowie das Entfernen von Terminal-Escapes und Steuerzeichen. Eine Command-Line-Interface ist verfügbar, um die Erkennung und Reparatur von Unicode-Fehlern innerhalb von Dateien zu automatisieren.
Cleans Unicode data by removing terminal escapes and decomposing ligatures to prepare text for analysis.
Dieses Projekt ist ein Unicode-Textreparatur-Tool und eine Mojibake-Korrekturbibliothek, die entwickelt wurde, um Kodierungsfehler zu beheben und Originalzeichen aus verstümmelten Strings wiederherzustellen. Es fungiert als Textkodierungserkenner und Unicode-Normalisierungstool, um Probleme zu lösen, bei denen Text falsch dekodiert wurde. Die Bibliothek ist auf das Umkehren mehrschichtiger Kodierungsfehler und die Reparatur komplexer Mojibake-Muster spezialisiert. Sie enthält Funktionen zur Erkennung verlustbehafteter Kodierungssequenzen, zum Erraten von Byte-Kodierungen und zum Dekodieren nicht standardmäßiger UTF-8-Varianten. Das Toolset deckt ein breites Spektrum an Textbereinigungs- und Normalisierungsaufgaben ab, einschließlich der Dekodierung von HTML-Entitäten und Backslash-Escapes, der Erweiterung von lateinischen Ligaturen sowie der Standardisierung von Zeichenbreiten und Zeilenumbrüchen. Es bietet zudem Dienstprogramme zum Entfernen unsichtbarer Steuerzeichen und zur Inspektion von Unicode-Strings nach Codepoint. Eine Command-Line-Interface ist für die Reparatur von Unicode-Fehlern und Kodierungsfehlern innerhalb von Dateien oder Eingabeströmen verfügbar.
Cleans text data by removing invisible control characters and terminal escapes while standardizing ligatures.