5 dépôts
Retrieval of structured data from service endpoints using authenticated requests.
Distinct from Structured Data Extraction: Focuses on API endpoint retrieval rather than schema-based extraction from documents.
Explore 5 awesome GitHub repositories matching data & databases · API-Based Extractions. Refine with filters or upvote what's useful.
GHunt is a Google account investigator and open-source intelligence framework designed to retrieve publicly available information and metadata associated with Google accounts. It functions as an OSINT data extractor and offensive security framework used to identify user identities and uncover hidden metadata. The tool extracts public profile data from various Google services and exports the findings into structured JSON formats. This allows for the collection and analysis of digital footprints to support security research and reconnaissance.
Retrieves structured account metadata by making authenticated requests to internal Google service endpoints.
Open Deep Research is an AI-powered web research agent that combines a reasoning model with live web search and data extraction to perform deep, multi-source investigations on any topic. It operates through a dual interface, offering both a command-line tool and a Model Context Protocol server, allowing developers to integrate web capabilities directly into AI agents and coding assistants. The project distinguishes itself by orchestrating an iterative research loop where a reasoning model plans steps, interprets search results, and guides subsequent web interactions. It uses Firecrawl for scr
Uses Firecrawl's API to extract structured data from multiple web pages simultaneously for LLM consumption.
iScript est une collection de scripts d'automatisation Python conçus pour les téléchargements de fichiers et l'extraction de données à partir de divers services web et plateformes cloud. Le projet fournit des outils spécialisés pour gérer le stockage cloud, convertir des liens torrent, récupérer de la musique et corriger les erreurs d'encodage d'archives. La boîte à outils inclut un téléchargeur de musique qui récupère des pistes audio de haute qualité et applique des tags de métadonnées ID3, ainsi qu'un convertisseur de liens magnet qui transforme les fichiers torrent et filtre les résultats par mot-clé. Il dispose également d'un utilitaire pour corriger les écarts d'encodage de caractères dans les archives zip créées sur Windows pour une extraction sur Linux. Les capacités supplémentaires couvrent le scraping de réseaux sociaux pour les images et vidéos, la recherche de fichiers réseau sur le réseau eMule, et la gestion du stockage cloud pour les téléchargements récursifs et la lecture à distance. Pour améliorer les performances, le projet utilise le téléchargement segmenté multi-thread et l'extraction de contenu multi-processus.
Retrieves structured data from service endpoints using authenticated requests to fetch hidden content and metadata.
CrawlerTutorial est un tutoriel complet de web scraping en Python et un framework conçu pour extraire des données de sites web statiques et dynamiques. Il fonctionne comme un pipeline d'extraction de données web et un orchestrateur de requêtes HTTP, couvrant tout le cycle de vie des applications de scraping, de la récupération initiale au stockage final des données. Le projet fournit des conseils spécialisés sur les techniques de contournement anti-bot et l'ingénierie inverse d'API web. Il inclut des méthodes pour échapper à la détection par navigateur via le masquage d'identité et la rotation de proxies, ainsi que des techniques pour identifier les points de terminaison d'API cachés en analysant le trafic réseau et les signatures de requêtes. Le framework englobe un large ensemble de capacités, incluant l'automatisation de navigateur pour les pages riches en JavaScript, l'authentification utilisateur automatisée via codes QR ou SMS, et la gestion de la persistance de session. Il dispose également d'outils de prétraitement de données pour nettoyer le texte brut, supprimer les enregistrements en double et persister les informations recueillies dans des fichiers plats ou des bases de données relationnelles.
Retrieves structured data by constructing authenticated HTTP requests to identified API endpoints.
WeiboSpider est un scraper de réseaux sociaux conçu pour extraire les profils d'utilisateurs, les publications et les données d'interaction de la plateforme Sina Weibo. Il fonctionne comme un crawler de données web qui récupère les informations via des interfaces externes plutôt qu'en analysant le frontend visuel. L'outil inclut un traceur de lignée de contenu pour suivre les publications partagées jusqu'à leurs sources originales. Il dispose également d'un analyseur d'engagement social pour collecter le nombre de vues et les fils de commentaires imbriqués afin de mesurer les métriques d'interaction des utilisateurs. Le système fournit des capacités de surveillance sociale par mots-clés et de filtrage des résultats de recherche pour suivre des sujets spécifiques au fil du temps. Il gère de grands ensembles de données via une itération basée sur la pagination et une traversée récursive des fils d'engagement.
Retrieves raw social media content by making direct requests to platform interfaces instead of parsing the visual frontend.