5 个仓库
Retrieval of structured data from service endpoints using authenticated requests.
Distinct from Structured Data Extraction: Focuses on API endpoint retrieval rather than schema-based extraction from documents.
Explore 5 awesome GitHub repositories matching data & databases · API-Based Extractions. Refine with filters or upvote what's useful.
GHunt is a Google account investigator and open-source intelligence framework designed to retrieve publicly available information and metadata associated with Google accounts. It functions as an OSINT data extractor and offensive security framework used to identify user identities and uncover hidden metadata. The tool extracts public profile data from various Google services and exports the findings into structured JSON formats. This allows for the collection and analysis of digital footprints to support security research and reconnaissance.
Retrieves structured account metadata by making authenticated requests to internal Google service endpoints.
Open Deep Research is an AI-powered web research agent that combines a reasoning model with live web search and data extraction to perform deep, multi-source investigations on any topic. It operates through a dual interface, offering both a command-line tool and a Model Context Protocol server, allowing developers to integrate web capabilities directly into AI agents and coding assistants. The project distinguishes itself by orchestrating an iterative research loop where a reasoning model plans steps, interprets search results, and guides subsequent web interactions. It uses Firecrawl for scr
Uses Firecrawl's API to extract structured data from multiple web pages simultaneously for LLM consumption.
iScript 是一系列 Python 自动化脚本集合,专为从各种 Web 服务和云平台进行文件下载和数据提取而设计。该项目提供用于管理云存储、转换种子链接、检索音乐和修复存档编码错误的专用工具。 该工具包包括一个获取高质量音轨并应用 ID3 元数据标签的音乐下载器,以及一个转换种子文件并按关键词过滤结果的磁力链接转换器。它还具有一个纠正 Windows 上创建的 Zip 存档在 Linux 上提取时的字符编码差异的实用工具。 其他功能涵盖用于图像和视频的社交媒体抓取、跨 eMule 网络的网络文件搜索,以及用于递归下载和远程播放的云存储管理。为了提高性能,该项目采用了多线程分段下载和多进程内容获取。
Retrieves structured data from service endpoints using authenticated requests to fetch hidden content and metadata.
CrawlerTutorial 是一个全面的 Python 网络爬虫教程和框架,旨在从静态和动态网站中提取数据。它作为一个网络数据提取管道和 HTTP 请求编排器,涵盖了从初始获取到最终数据存储的爬虫应用程序全生命周期。 该项目提供了关于反机器人绕过技术和 Web API 逆向工程的专业指导。它包括通过身份掩码和代理轮换规避浏览器检测的方法,以及通过分析网络流量和请求签名识别隐藏 API 端点的技术。 该框架包含广泛的功能,包括针对 JavaScript 重度页面的浏览器自动化、通过 QR 码或短信的自动用户身份验证以及会话持久性管理。它还具有用于清理原始文本、删除重复记录并将收集到的信息持久化到平面文件或关系数据库中的数据预处理工具。
Retrieves structured data by constructing authenticated HTTP requests to identified API endpoints.
WeiboSpider 是一个社交媒体爬虫,旨在从新浪微博平台提取用户资料、帖子和交互数据。它作为一个基于 Web 的数据爬虫,通过外部接口检索信息,而不是解析可视化前端。 该工具包括一个内容血缘追踪器,用于将分享的帖子追溯到其原始来源。它还具有一个社交参与度分析器,用于收集浏览量和嵌套评论线程,以衡量用户交互指标。 该系统提供了基于关键字的社交监控和搜索结果过滤功能,以跟踪特定主题随时间的变化。它通过基于分页的迭代和参与线程的递归遍历来管理大数据集。
Retrieves raw social media content by making direct requests to platform interfaces instead of parsing the visual frontend.