5 مستودعات
Retrieval of structured data from service endpoints using authenticated requests.
Distinct from Structured Data Extraction: Focuses on API endpoint retrieval rather than schema-based extraction from documents.
Explore 5 awesome GitHub repositories matching data & databases · API-Based Extractions. Refine with filters or upvote what's useful.
GHunt is a Google account investigator and open-source intelligence framework designed to retrieve publicly available information and metadata associated with Google accounts. It functions as an OSINT data extractor and offensive security framework used to identify user identities and uncover hidden metadata. The tool extracts public profile data from various Google services and exports the findings into structured JSON formats. This allows for the collection and analysis of digital footprints to support security research and reconnaissance.
Retrieves structured account metadata by making authenticated requests to internal Google service endpoints.
Open Deep Research is an AI-powered web research agent that combines a reasoning model with live web search and data extraction to perform deep, multi-source investigations on any topic. It operates through a dual interface, offering both a command-line tool and a Model Context Protocol server, allowing developers to integrate web capabilities directly into AI agents and coding assistants. The project distinguishes itself by orchestrating an iterative research loop where a reasoning model plans steps, interprets search results, and guides subsequent web interactions. It uses Firecrawl for scr
Uses Firecrawl's API to extract structured data from multiple web pages simultaneously for LLM consumption.
iScript هي مجموعة من نصوص Python البرمجية للأتمتة مصممة لتنزيلات الملفات واستخراج البيانات من خدمات ويب ومنصات سحابية مختلفة. يوفر المشروع أدوات متخصصة لإدارة التخزين السحابي، وتحويل روابط التورنت، واسترجاع الموسيقى، وإصلاح أخطاء ترميز الأرشيف. تتضمن مجموعة الأدوات أداة تنزيل موسيقى تجلب مسارات صوتية عالية الجودة وتطبق علامات بيانات تعريف ID3، بالإضافة إلى محول روابط مغناطيسية يحول ملفات التورنت ويصفي النتائج حسب الكلمة الرئيسية. كما تتميز بأداة لتصحيح تناقضات ترميز الأحرف في أرشيفات zip التي تم إنشاؤها على Windows للاستخراج على Linux. تغطي الإمكانيات الإضافية استخراج وسائل التواصل الاجتماعي للصور ومقاطع الفيديو، والبحث عن ملفات الشبكة عبر شبكة eMule، وإدارة التخزين السحابي للتنزيلات المتكررة والتشغيل عن بعد. لتحسين الأداء، يستخدم المشروع التنزيل المجزأ متعدد الخيوط وجلب المحتوى متعدد العمليات.
Retrieves structured data from service endpoints using authenticated requests to fetch hidden content and metadata.
CrawlerTutorial is a comprehensive Python web scraping tutorial and framework designed for extracting data from static and dynamic websites. It functions as a web data extraction pipeline and an HTTP request orchestrator, covering the full lifecycle of scraping applications from initial fetching to final data storage. The project provides specialized guidance on anti-bot bypass techniques and web API reverse engineering. It includes methods for evading browser detection through identity masking and proxy rotation, as well as techniques for identifying hidden API endpoints by analyzing network
Retrieves structured data by constructing authenticated HTTP requests to identified API endpoints.
WeiboSpider هو أداة كشط (scraper) لوسائل التواصل الاجتماعي مصممة لاستخراج ملفات تعريف المستخدمين والمنشورات وبيانات التفاعل من منصة Sina Weibo. يعمل كزاحف بيانات ويب يسترجع المعلومات عبر واجهات خارجية بدلاً من تحليل الواجهة الأمامية المرئية. تتضمن الأداة متتبعاً لسلسلة المحتوى لمتابعة المنشورات المشتركة وصولاً إلى مصادرها الأصلية. كما تتميز بمحلل تفاعل اجتماعي لجمع عدد المشاهدات وسلاسل التعليقات المتداخلة لقياس مقاييس تفاعل المستخدمين. يوفر النظام إمكانيات للمراقبة الاجتماعية القائمة على الكلمات المفتاحية وتصفية نتائج البحث لتتبع مواضيع محددة بمرور الوقت. كما يدير مجموعات البيانات الكبيرة من خلال التكرار القائم على الترقيم (pagination) والاجتياز العودي لسلاسل التفاعل.
Retrieves raw social media content by making direct requests to platform interfaces instead of parsing the visual frontend.