5 repositorios
Retrieval of structured data from service endpoints using authenticated requests.
Distinct from Structured Data Extraction: Focuses on API endpoint retrieval rather than schema-based extraction from documents.
Explore 5 awesome GitHub repositories matching data & databases · API-Based Extractions. Refine with filters or upvote what's useful.
GHunt is a Google account investigator and open-source intelligence framework designed to retrieve publicly available information and metadata associated with Google accounts. It functions as an OSINT data extractor and offensive security framework used to identify user identities and uncover hidden metadata. The tool extracts public profile data from various Google services and exports the findings into structured JSON formats. This allows for the collection and analysis of digital footprints to support security research and reconnaissance.
Retrieves structured account metadata by making authenticated requests to internal Google service endpoints.
Open Deep Research is an AI-powered web research agent that combines a reasoning model with live web search and data extraction to perform deep, multi-source investigations on any topic. It operates through a dual interface, offering both a command-line tool and a Model Context Protocol server, allowing developers to integrate web capabilities directly into AI agents and coding assistants. The project distinguishes itself by orchestrating an iterative research loop where a reasoning model plans steps, interprets search results, and guides subsequent web interactions. It uses Firecrawl for scr
Uses Firecrawl's API to extract structured data from multiple web pages simultaneously for LLM consumption.
iScript es una colección de scripts de automatización en Python diseñados para descargas de archivos y extracción de datos de diversos servicios web y plataformas en la nube. El proyecto proporciona herramientas especializadas para gestionar almacenamiento en la nube, convertir enlaces torrent, recuperar música y corregir errores de codificación de archivos comprimidos. El kit de herramientas incluye un descargador de música que obtiene pistas de audio de alta calidad y aplica etiquetas de metadatos ID3, así como un convertidor de enlaces magnet que transforma archivos torrent y filtra resultados por palabra clave. También cuenta con una utilidad para corregir discrepancias de codificación de caracteres en archivos zip creados en Windows para su extracción en Linux. Las capacidades adicionales cubren el scraping de redes sociales para imágenes y videos, búsqueda de archivos de red a través de la red eMule y gestión de almacenamiento en la nube para descargas recursivas y reproducción remota. Para mejorar el rendimiento, el proyecto emplea descargas segmentadas multihilo y obtención de contenido multiproceso.
Retrieves structured data from service endpoints using authenticated requests to fetch hidden content and metadata.
CrawlerTutorial is a comprehensive Python web scraping tutorial and framework designed for extracting data from static and dynamic websites. It functions as a web data extraction pipeline and an HTTP request orchestrator, covering the full lifecycle of scraping applications from initial fetching to final data storage. The project provides specialized guidance on anti-bot bypass techniques and web API reverse engineering. It includes methods for evading browser detection through identity masking and proxy rotation, as well as techniques for identifying hidden API endpoints by analyzing network
Retrieves structured data by constructing authenticated HTTP requests to identified API endpoints.
WeiboSpider es un scraper de redes sociales diseñado para extraer perfiles de usuario, publicaciones y datos de interacción de la plataforma Sina Weibo. Funciona como un crawler de datos basado en web que recupera información a través de interfaces externas en lugar de analizar el frontend visual. La herramienta incluye un rastreador de linaje de contenido para seguir publicaciones compartidas hasta sus fuentes originales. También cuenta con un analizador de engagement social para recopilar conteos de visualizaciones e hilos de comentarios anidados para medir métricas de interacción del usuario. El sistema proporciona capacidades para el monitoreo social basado en palabras clave y filtrado de resultados de búsqueda para rastrear temas específicos a lo largo del tiempo. Gestiona grandes conjuntos de datos mediante iteración basada en paginación y recorrido recursivo de hilos de interacción.
Retrieves raw social media content by making direct requests to platform interfaces instead of parsing the visual frontend.