5 Repos
Retrieval of structured data from service endpoints using authenticated requests.
Distinct from Structured Data Extraction: Focuses on API endpoint retrieval rather than schema-based extraction from documents.
Explore 5 awesome GitHub repositories matching data & databases · API-Based Extractions. Refine with filters or upvote what's useful.
GHunt is a Google account investigator and open-source intelligence framework designed to retrieve publicly available information and metadata associated with Google accounts. It functions as an OSINT data extractor and offensive security framework used to identify user identities and uncover hidden metadata. The tool extracts public profile data from various Google services and exports the findings into structured JSON formats. This allows for the collection and analysis of digital footprints to support security research and reconnaissance.
Retrieves structured account metadata by making authenticated requests to internal Google service endpoints.
Open Deep Research is an AI-powered web research agent that combines a reasoning model with live web search and data extraction to perform deep, multi-source investigations on any topic. It operates through a dual interface, offering both a command-line tool and a Model Context Protocol server, allowing developers to integrate web capabilities directly into AI agents and coding assistants. The project distinguishes itself by orchestrating an iterative research loop where a reasoning model plans steps, interprets search results, and guides subsequent web interactions. It uses Firecrawl for scr
Uses Firecrawl's API to extract structured data from multiple web pages simultaneously for LLM consumption.
iScript ist eine Sammlung von Python-Automatisierungsskripten, die für Dateidownloads und Datenextraktion von verschiedenen Webdiensten und Cloud-Plattformen entwickelt wurden. Das Projekt bietet spezialisierte Tools für die Verwaltung von Cloud-Speicher, die Konvertierung von Torrent-Links, das Abrufen von Musik und das Beheben von Archiv-Kodierungsfehlern. Das Toolkit enthält einen Musik-Downloader, der hochwertige Audiotracks abruft und ID3-Metadaten-Tags anwendet, sowie einen Magnet-Link-Konverter, der Torrent-Dateien transformiert und Ergebnisse nach Keywords filtert. Es enthält zudem ein Utility zur Korrektur von Zeichenkodierungsdiskrepanzen in ZIP-Archiven, die unter Windows erstellt wurden, für die Extraktion unter Linux. Zusätzliche Funktionen decken Social-Media-Scraping für Bilder und Videos, Netzwerk-Dateisuche über das eMule-Netzwerk und Cloud-Speicher-Management für rekursive Downloads und Remote-Wiedergabe ab. Zur Verbesserung der Performance verwendet das Projekt Multi-Threaded-Segmented-Downloading und Multi-Process-Content-Fetching.
Retrieves structured data from service endpoints using authenticated requests to fetch hidden content and metadata.
CrawlerTutorial is a comprehensive Python web scraping tutorial and framework designed for extracting data from static and dynamic websites. It functions as a web data extraction pipeline and an HTTP request orchestrator, covering the full lifecycle of scraping applications from initial fetching to final data storage. The project provides specialized guidance on anti-bot bypass techniques and web API reverse engineering. It includes methods for evading browser detection through identity masking and proxy rotation, as well as techniques for identifying hidden API endpoints by analyzing network
Retrieves structured data by constructing authenticated HTTP requests to identified API endpoints.
WeiboSpider ist ein Social-Media-Scraper, der darauf ausgelegt ist, Benutzerprofile, Beiträge und Interaktionsdaten von der Sina Weibo-Plattform zu extrahieren. Er fungiert als webbasierter Daten-Crawler, der Informationen über externe Schnittstellen abruft, anstatt das visuelle Frontend zu parsen. Das Tool enthält einen Content-Lineage-Tracer, um geteilte Beiträge bis zu ihren ursprünglichen Quellen zurückzuverfolgen. Es bietet zudem einen Social-Engagement-Analyzer, um Aufrufzahlen und verschachtelte Kommentar-Threads zu erfassen und Interaktionsmetriken zu messen. Das System bietet Funktionen für schlüsselwortbasiertes Social-Monitoring und die Filterung von Suchergebnissen, um spezifische Themen im Zeitverlauf zu verfolgen. Es verwaltet große Datensätze durch paginierungsbasierte Iteration und rekursive Durchquerung von Engagement-Threads.
Retrieves raw social media content by making direct requests to platform interfaces instead of parsing the visual frontend.