Why is mxrch/ghunt a recommended API-Based Extractions GitHub Repositories repository?

Retrieves structured account metadata by making authenticated requests to internal Google service endpoints.

Why is nickscamara/open-deep-research a recommended API-Based Extractions GitHub Repositories repository?

Uses Firecrawl's API to extract structured data from multiple web pages simultaneously for LLM consumption.

Why is peterding/iscript a recommended API-Based Extractions GitHub Repositories repository?

Retrieves structured data from service endpoints using authenticated requests to fetch hidden content and metadata.

Why is nanmicoder/crawlertutorial a recommended API-Based Extractions GitHub Repositories repository?

Retrieves structured data by constructing authenticated HTTP requests to identified API endpoints.

Why is nghuyong/weibospider a recommended API-Based Extractions GitHub Repositories repository?

Retrieves raw social media content by making direct requests to platform interfaces instead of parsing the visual frontend.

5 dépôts

Awesome GitHub RepositoriesAPI-Based Extractions

Retrieval of structured data from service endpoints using authenticated requests.

Distinct from Structured Data Extraction: Focuses on API endpoint retrieval rather than schema-based extraction from documents.

Explore 5 awesome GitHub repositories matching data & databases · API-Based Extractions. Refine with filters or upvote what's useful.

Trouvez les meilleurs dépôts grâce à l'IA.Nous recherchons les dépôts les plus pertinents grâce à l'IA.

mxrch/ghunt
mxrch/GHunt
19,089Voir sur GitHub
GHunt is a Google account investigator and open-source intelligence framework designed to retrieve publicly available information and metadata associated with Google accounts. It functions as an OSINT data extractor and offensive security framework used to identify user identities and uncover hidden metadata. The tool extracts public profile data from various Google services and exports the findings into structured JSON formats. This allows for the collection and analysis of digital footprints to support security research and reconnaissance.
Retrieves structured account metadata by making authenticated requests to internal Google service endpoints.
Python
Voir sur GitHub19,089
nickscamara/open-deep-research
nickscamara/open-deep-research
6,173Voir sur GitHub
Open Deep Research is an AI-powered web research agent that combines a reasoning model with live web search and data extraction to perform deep, multi-source investigations on any topic. It operates through a dual interface, offering both a command-line tool and a Model Context Protocol server, allowing developers to integrate web capabilities directly into AI agents and coding assistants. The project distinguishes itself by orchestrating an iterative research loop where a reasoning model plans steps, interprets search results, and guides subsequent web interactions. It uses Firecrawl for scr
Uses Firecrawl's API to extract structured data from multiple web pages simultaneously for LLM consumption.
TypeScript
Voir sur GitHub6,173
peterding/iscript
PeterDing/iScript
5,106Voir sur GitHub
iScript est une collection de scripts d'automatisation Python conçus pour les téléchargements de fichiers et l'extraction de données à partir de divers services web et plateformes cloud. Le projet fournit des outils spécialisés pour gérer le stockage cloud, convertir des liens torrent, récupérer de la musique et corriger les erreurs d'encodage d'archives. La boîte à outils inclut un téléchargeur de musique qui récupère des pistes audio de haute qualité et applique des tags de métadonnées ID3, ainsi qu'un convertisseur de liens magnet qui transforme les fichiers torrent et filtre les résultats par mot-clé. Il dispose également d'un utilitaire pour corriger les écarts d'encodage de caractères dans les archives zip créées sur Windows pour une extraction sur Linux. Les capacités supplémentaires couvrent le scraping de réseaux sociaux pour les images et vidéos, la recherche de fichiers réseau sur le réseau eMule, et la gestion du stockage cloud pour les téléchargements récursifs et la lecture à distance. Pour améliorer les performances, le projet utilise le téléchargement segmenté multi-thread et l'extraction de contenu multi-processus.
Retrieves structured data from service endpoints using authenticated requests to fetch hidden content and metadata.
Pythonbaiduyuniscriptmagnet-torrent
Voir sur GitHub5,106
nanmicoder/crawlertutorial
NanmiCoder/CrawlerTutorial
4,262Voir sur GitHub
CrawlerTutorial est un tutoriel complet de web scraping en Python et un framework conçu pour extraire des données de sites web statiques et dynamiques. Il fonctionne comme un pipeline d'extraction de données web et un orchestrateur de requêtes HTTP, couvrant tout le cycle de vie des applications de scraping, de la récupération initiale au stockage final des données. Le projet fournit des conseils spécialisés sur les techniques de contournement anti-bot et l'ingénierie inverse d'API web. Il inclut des méthodes pour échapper à la détection par navigateur via le masquage d'identité et la rotation de proxies, ainsi que des techniques pour identifier les points de terminaison d'API cachés en analysant le trafic réseau et les signatures de requêtes. Le framework englobe un large ensemble de capacités, incluant l'automatisation de navigateur pour les pages riches en JavaScript, l'authentification utilisateur automatisée via codes QR ou SMS, et la gestion de la persistance de session. Il dispose également d'outils de prétraitement de données pour nettoyer le texte brut, supprimer les enregistrements en double et persister les informations recueillies dans des fichiers plats ou des bases de données relationnelles.
Retrieves structured data by constructing authenticated HTTP requests to identified API endpoints.
Python
Voir sur GitHub4,262
nghuyong/weibospider
nghuyong/WeiboSpider
4,086Voir sur GitHub
WeiboSpider est un scraper de réseaux sociaux conçu pour extraire les profils d'utilisateurs, les publications et les données d'interaction de la plateforme Sina Weibo. Il fonctionne comme un crawler de données web qui récupère les informations via des interfaces externes plutôt qu'en analysant le frontend visuel. L'outil inclut un traceur de lignée de contenu pour suivre les publications partagées jusqu'à leurs sources originales. Il dispose également d'un analyseur d'engagement social pour collecter le nombre de vues et les fils de commentaires imbriqués afin de mesurer les métriques d'interaction des utilisateurs. Le système fournit des capacités de surveillance sociale par mots-clés et de filtrage des résultats de recherche pour suivre des sujets spécifiques au fil du temps. Il gère de grands ensembles de données via une itération basée sur la pagination et une traversée récursive des fils d'engagement.
Retrieves raw social media content by making direct requests to platform interfaces instead of parsing the visual frontend.
Pythonpythonscrapyweibo
Voir sur GitHub4,086

Awesome API-Based Extractions GitHub Repositories

mxrch/GHunt

nickscamara/open-deep-research

PeterDing/iScript

NanmiCoder/CrawlerTutorial

nghuyong/WeiboSpider