7 repository-uri
Processes and cleans text data locally to prepare it for structured analysis or AI consumption.
Distinct from Client-Side Data Processing: Distinct from Client-Side Data Processing: focuses specifically on the cleaning and extraction of text rather than general data import/export.
Explore 7 awesome GitHub repositories matching data & databases · Text Cleaning. Refine with filters or upvote what's useful.
zotero-gpt is an extension that integrates large language models with a reference management system to assist in the analysis and summarization of academic research papers. It functions as a research paper AI assistant capable of querying PDF documents and extracting insights directly from academic libraries. The tool features a contextual research search system that locates items within a library based on the semantic meaning of selected text. It includes a visual interface that renders AI-generated responses using Markdown and supports the display of complex mathematical formulas. The syst
Extracts and cleans content from academic papers locally before sending targeted segments to the AI model.
Aceasta este o aplicație Windows pentru recunoașterea automată a vorbirii care transcrie audio-ul vorbit din fișiere video în fișiere de subtitrare SRT cu timestamp. Servește ca un generator de subtitrări și instrument de traducere care convertește vorbirea media în text sincronizat. Software-ul funcționează ca un transcriitor media batch, permițând procesarea simultană a mai multor fișiere audio și video pentru a genera subtitrări în masă. Include un flux de lucru de traducere pentru a converti transcrierile între diferite limbi pentru crearea de fișiere bilingve sau localizate. Sistemul oferă, de asemenea, capabilități de rafinare a textului, folosind expresii regulate și filtre personalizate pentru a curăța transcrierile prin eliminarea cuvintelor de umplutură și a tiparelor nedorite. Acest lucru este susținut de o interfață grafică nativă Windows.
Cleans transcription text locally using regular expressions to remove unwanted patterns.
Acest proiect este o resursă educațională cuprinzătoare și un curs pentru construirea de rețele neuronale folosind PyTorch. Acoperă elementele fundamentale ale deep learning-ului, inclusiv manipularea tensorilor, diferențierea automată și construcția componentelor modulare de rețele neuronale. Repository-ul servește drept ghid tehnic pentru mai multe domenii specializate. Oferă detalii de implementare pentru sarcini de computer vision, cum ar fi clasificarea imaginilor, detecția obiectelor și segmentarea semantică, precum și fluxuri de lucru de procesare a limbajului natural (NLP) care implică transformatoare, rețele recurente și modele generative. În plus, include o referință pentru AI generativ, concentrându-se în mod specific pe sinteza de imagini prin modele de difuzie și rețele adversariale. Materialul se extinde către optimizarea modelelor și pipeline-uri de deployment. Acoperă tehnici pentru reducerea dimensiunii modelelor și creșterea vitezei de inferență prin cuantizare și exportul modelelor în formate precum ONNX și TensorRT. Alte domenii de capabilitate includ ingineria datelor pentru încărcarea paralelă, evaluarea modelelor folosind metrici personalizate și deployment-ul modelelor de limbaj mari (LLM) open-source. Proiectul este livrat în principal sub formă de serie de Jupyter Notebooks.
Cleans raw text by removing irrelevant characters and stop words to create semantic sequences.
CrawlerTutorial este un tutorial cuprinzător de web scraping în Python și un framework conceput pentru extragerea datelor de pe site-uri web statice și dinamice. Acesta funcționează ca o conductă de extracție a datelor web și un orchestrator de cereri HTTP, acoperind întregul ciclu de viață al aplicațiilor de scraping, de la preluarea inițială până la stocarea finală a datelor. Proiectul oferă îndrumări specializate privind tehnicile de evitare a sistemelor anti-bot și ingineria inversă a API-urilor web. Include metode pentru evitarea detectării browserului prin mascarea identității și rotația proxy-urilor, precum și tehnici pentru identificarea endpoint-urilor API ascunse prin analizarea traficului de rețea și a semnăturilor cererilor. Framework-ul cuprinde un set larg de capabilități, inclusiv automatizarea browserului pentru pagini cu conținut JavaScript intens, autentificarea automată a utilizatorilor prin coduri QR sau SMS și gestionarea persistenței sesiunii. De asemenea, dispune de instrumente de preprocesare a datelor pentru curățarea textului brut, eliminarea înregistrărilor duplicate și persistența informațiilor colectate în fișiere plate sau baze de date relaționale.
Cleans raw scraped text by removing HTML tags and fixing encoding for structured analysis.
Spark NLP este un toolkit pentru analiza scalabilă a textului și machine learning, construit pe framework-ul de calcul distribuit Apache Spark. Oferă un framework de machine learning multimodal și un sistem de pipeline distribuit pentru secvențierea adnotatoarelor în vederea procesării datelor lingvistice la scară largă. Biblioteca include un procesor de text de tip transformer pentru generarea de embedding-uri vectoriale contextuale și un motor de inferență dedicat pentru gestionarea modelelor de limbaj mari (LLM). Proiectul se distinge prin capacitatea sa de a procesa tipuri de date eterogene, inclusiv text, audio și imagini, într-o arhitectură unificată vision-language. Suportă capabilități avansate de AI generativ, cum ar fi prompt engineering, extracția structurată a entităților cu output JSON constrâns și inferența locală pentru a elimina latența rețelei. În plus, oferă instrumente pentru traducerea între limbi și clasificare zero-shot pe modalități de text și imagine. Framework-ul acoperă o gamă largă de capabilități, inclusiv antrenarea modelelor supervizate pentru recunoașterea entităților și analiza sentimentelor, precum și răspunsul extractiv la întrebări și sumarizarea documentelor. Integrează suport pentru baze de date vectoriale pentru căutarea de similaritate și oferă infrastructură pentru accelerare GPU și gestionarea ciclului de viață al modelelor printr-un registru centralizat. Toolkit-ul permite distribuirea modelelor și pipeline-urilor personalizate printr-un repository public și suportă implementarea modelelor prin API-uri REST.
Cleans and prepares text data through tokenization and stop word removal for AI consumption.
python-ftfy este o bibliotecă de reparare a textului Unicode concepută pentru a remedia mojibake-ul și erorile de codare. Oferă utilitare pentru detectarea codării octeților, decodarea entităților HTML și recuperarea textului corupt pentru a-l restaura la forma Unicode dorită. Proiectul se distinge printr-un pipeline de decodare pe mai multe straturi care identifică și inversează amestecurile complexe de codare. Utilizează detectarea bazată pe euristică pentru a rezolva cazurile în care textul a fost decodat folosind codec-ul greșit pe mai multe straturi de corupere și poate gestiona variante UTF-8 non-standard și mapări de codare neglijente. Biblioteca acoperă, de asemenea, o gamă largă de sarcini de standardizare a textului, inclusiv normalizarea Unicode, standardizarea întreruperilor de linie și expansiunea ligaturilor latine. Include capabilități pentru normalizarea lățimii caracterelor și eliminarea escape-urilor de terminal și a caracterelor de control. O interfață în linie de comandă este disponibilă pentru a automatiza detectarea și repararea erorilor Unicode din fișiere.
Cleans Unicode data by removing terminal escapes and decomposing ligatures to prepare text for analysis.
Acest proiect este un instrument de reparare a textului Unicode și o bibliotecă de corecție a mojibake-ului concepută pentru a remedia erorile de codare și a restaura caracterele originale din șiruri corupte. Acesta funcționează ca un detector de codare a textului și un instrument de normalizare Unicode pentru a rezolva problemele în care textul a fost decodat incorect. Biblioteca se specializează în inversarea erorilor de codare pe mai multe straturi și repararea tiparelor complexe de mojibake. Include capabilități pentru detectarea secvențelor de codare cu pierderi, ghicirea codărilor de octeți și decodarea variantelor UTF-8 non-standard. Setul de instrumente acoperă o gamă largă de sarcini de curățare și normalizare a textului, inclusiv decodarea entităților HTML și a escape-urilor cu backslash, expansiunea ligaturilor latine și standardizarea lățimii caracterelor și a întreruperilor de linie. De asemenea, oferă utilitare pentru eliminarea caracterelor de control invizibile și inspectarea șirurilor Unicode după codepoint. O interfață în linie de comandă este disponibilă pentru repararea erorilor Unicode și a erorilor de codare din fișiere sau fluxuri de intrare.
Cleans text data by removing invisible control characters and terminal escapes while standardizing ligatures.