7 مستودعات
Processes and cleans text data locally to prepare it for structured analysis or AI consumption.
Distinct from Client-Side Data Processing: Distinct from Client-Side Data Processing: focuses specifically on the cleaning and extraction of text rather than general data import/export.
Explore 7 awesome GitHub repositories matching data & databases · Text Cleaning. Refine with filters or upvote what's useful.
zotero-gpt is an extension that integrates large language models with a reference management system to assist in the analysis and summarization of academic research papers. It functions as a research paper AI assistant capable of querying PDF documents and extracting insights directly from academic libraries. The tool features a contextual research search system that locates items within a library based on the semantic meaning of selected text. It includes a visual interface that renders AI-generated responses using Markdown and supports the display of complex mathematical formulas. The syst
Extracts and cleans content from academic papers locally before sending targeted segments to the AI model.
هذا تطبيق Windows للتعرف التلقائي على الكلام يقوم بنسخ الصوت المنطوق من ملفات الفيديو إلى ملفات ترجمة SRT ذات طابع زمني. يعمل كمولد ترجمة وأداة ترجمة تحول كلام الوسائط إلى نص متزامن. يعمل البرنامج كناسخ وسائط دفعي، مما يسمح بالمعالجة المتزامنة لملفات صوت وفيديو متعددة لتوليد ترجمات بشكل جماعي. يتضمن سير عمل ترجمة لتحويل النسخ بين لغات مختلفة لإنشاء ملفات ثنائية اللغة أو مترجمة محلياً. يوفر النظام أيضاً قدرات تنقيح النصوص، باستخدام التعبيرات النمطية وفلاتر مخصصة لتنظيف النسخ عن طريق إزالة كلمات الحشو والأنماط غير المرغوب فيها. يتم دعم ذلك من خلال واجهة مستخدم رسومية أصلية لـ Windows.
Cleans transcription text locally using regular expressions to remove unwanted patterns.
هذا المشروع عبارة عن مورد تعليمي شامل ودورة تدريبية لبناء الشبكات العصبية باستخدام PyTorch. يغطي اللبنات الأساسية للتعلم العميق، بما في ذلك معالجة الموترات (tensors)، والتمايز التلقائي، وبناء مكونات الشبكة العصبية المعيارية. يعمل المستودع كدليل تقني للعديد من المجالات المتخصصة. يوفر تفاصيل تنفيذ لمهام رؤية الكمبيوتر مثل تصنيف الصور، واكتشاف الكائنات، والتجزئة الدلالية، بالإضافة إلى سير عمل معالجة اللغات الطبيعية التي تتضمن المحولات (transformers)، والشبكات المتكررة، والنماذج التوليدية. بالإضافة إلى ذلك، يتضمن مرجعاً للذكاء الاصطناعي التوليدي، مع التركيز بشكل خاص على تركيب الصور عبر نماذج الانتشار (diffusion models) والشبكات التنافسية. تمتد المادة إلى تحسين النماذج وخطوط أنابيب النشر. تغطي تقنيات لتقليل حجم النموذج وزيادة سرعة الاستنتاج من خلال التكميم (quantization) وتصدير النماذج إلى تنسيقات مثل ONNX وTensorRT. تشمل مجالات القدرة الأخرى هندسة البيانات للتحميل المتوازي، وتقييم النموذج باستخدام مقاييس مخصصة، ونشر نماذج اللغات الكبيرة مفتوحة المصدر. يتم تقديم المشروع بشكل أساسي كسلسلة من دفاتر Jupyter.
Cleans raw text by removing irrelevant characters and stop words to create semantic sequences.
CrawlerTutorial is a comprehensive Python web scraping tutorial and framework designed for extracting data from static and dynamic websites. It functions as a web data extraction pipeline and an HTTP request orchestrator, covering the full lifecycle of scraping applications from initial fetching to final data storage. The project provides specialized guidance on anti-bot bypass techniques and web API reverse engineering. It includes methods for evading browser detection through identity masking and proxy rotation, as well as techniques for identifying hidden API endpoints by analyzing network
Cleans raw scraped text by removing HTML tags and fixing encoding for structured analysis.
Spark NLP هي مجموعة أدوات لتحليل النصوص القابل للتوسع والتعلم الآلي مبنية على إطار عمل الحوسبة الموزعة Apache Spark. توفر إطار عمل للتعلم الآلي متعدد الوسائط ونظام خط أنابيب موزع لتسلسل أدوات التعليق لمعالجة البيانات اللغوية على نطاق واسع. تتضمن المكتبة معالج نصوص محولاً (transformer) لتوليد تضمينات متجهات سياقية ومحرك استدلال مخصص لإدارة نماذج اللغة الكبيرة. يتميز المشروع بقدرته على معالجة أنواع البيانات غير المتجانسة، بما في ذلك النصوص والصوت والصور، ضمن بنية رؤية-لغة موحدة. ويدعم إمكانيات الذكاء الاصطناعي التوليدي المتقدمة مثل هندسة الأوامر (prompt engineering)، واستخراج الكيانات المهيكلة مع مخرجات JSON مقيدة، والاستدلال المحلي للقضاء على زمن انتقال الشبكة. بالإضافة إلى ذلك، يوفر أدوات للترجمة عبر اللغات والتصنيف بدون تدريب عبر كل من وسائط النص والصورة. يغطي إطار العمل مجموعة واسعة من الإمكانيات، بما في ذلك تدريب النماذج الخاضعة للإشراف للتعرف على الكيانات وتحليل المشاعر، بالإضافة إلى الإجابة على الأسئلة الاستخراجية وتلخيص المستندات. ويدمج دعم قاعدة بيانات المتجهات للبحث عن التشابه ويوفر بنية تحتية لتسريع GPU وإدارة دورة حياة النموذج عبر سجل مركزي. تسمح مجموعة الأدوات بتوزيع النماذج وخطوط الأنابيب المخصصة عبر مستودع عام وتدعم نشر النماذج عبر واجهات برمجة تطبيقات REST.
Cleans and prepares text data through tokenization and stop word removal for AI consumption.
python-ftfy is a Unicode text repair library designed to fix mojibake and encoding glitches. It provides utilities for byte encoding detection, HTML entity decoding, and the recovery of corrupted text to restore it to its intended Unicode form. The project distinguishes itself through a multi-layered decoding pipeline that identifies and reverts complex encoding mix-ups. It uses heuristic-based detection to resolve instances where text was decoded using the wrong codec across multiple layers of corruption, and it can handle non-standard UTF-8 variants and sloppy encoding mappings. The librar
Cleans Unicode data by removing terminal escapes and decomposing ligatures to prepare text for analysis.
This project is a Unicode text repair tool and mojibake correction library designed to fix encoding glitches and restore original characters from mangled strings. It functions as a text encoding detector and a Unicode normalization tool to resolve issues where text has been incorrectly decoded. The library specializes in reversing multi-layered encoding errors and repairing complex mojibake patterns. It includes capabilities for detecting lossy encoding sequences, guessing byte encodings, and decoding non-standard UTF-8 variants. The toolset covers a broad range of text cleaning and normaliz
Cleans text data by removing invisible control characters and terminal escapes while standardizing ligatures.