2 مستودعات
Identifying recurring structural patterns on webpages to automate data capture across multiple URLs.
Distinguishing note: Candidates focus on ID generation or URL rewriting, not structural HTML pattern recognition for scraping.
Explore 2 awesome GitHub repositories matching data & databases · Pattern-Based Scraping. Refine with filters or upvote what's useful.
Autoscraper هي مكتبة كشط ويب تلقائية ومستخرج بيانات قائم على الأنماط يتعلم قواعد الاستخراج من بيانات العينة. يحدد ويسترجع النصوص وعناوين URL وعناصر HTML من صفحات الويب عن طريق تحليل قيم العينة لتكرار أنماط البيانات عبر عناوين URL مختلفة. يعمل النظام كمدير نموذج كشط ويب، مما يسمح للمستخدمين بحفظ وإعادة تحميل القواعد المستفادة للحفاظ على استخراج بيانات متسق. يدعم تصدير واستيراد قواعد الكشط إلى نظام ملفات محلي لتجنب تكرار عملية التدريب لنفس الموقع. تغطي المكتبة استخراج بيانات الويب المؤتمت وحصاد محتوى الويب من خلال تعلم الأنماط القائم على العينة واسترجاع العناصر الموضعية. يمكنها استرجاع كل من نقاط بيانات محددة وجميع العناصر الموجودة على صفحة تطابق الأنماط المحددة من بيانات العينة الأولية.
Identifies recurring elements on a webpage to automatically capture data across multiple similar URLs.
snscrape هو أداة كشط وزحف ويب لوسائل التواصل الاجتماعي تعتمد على Python مصممة لاستخراج المنشورات العامة، والملفات الشخصية، والوسوم من الشبكات الاجتماعية دون استخدام واجهات برمجة التطبيقات الرسمية. تعمل كأداة أرشفة وأداة لجمع بيانات الاستخبارات مفتوحة المصدر، مما يسمح بجمع المعلومات المتاحة علناً للتحقيق في الاتجاهات والأشخاص. تسهل الأداة استخراج بيانات وسائل التواصل الاجتماعي لأغراض البحث والأرشفة، مما يتيح إنشاء سجلات تاريخية للمحادثات ونشاط المستخدم. تدعم سير العمل للتحليل الاجتماعي الأكاديمي وتصدير مجموعات كبيرة من البيانات الوصفية والرسائل إلى ملفات محلية. تشمل القدرات القدرة على كشط منصات التواصل الاجتماعي المختلفة وتحديد حجم النتائج المستخرجة. يمكن للنظام تصدير العناصر المكتشفة كقوائم من عناوين URL أو ملفات مفصلة تحتوي على المحتوى والطوابع الزمنية.
Uses recurring structural URL patterns to route requested data types to specific scraping logic.