7 repositorios
Tools that wait for JavaScript-rendered content to fully load before extracting structured data from single-page applications.
Distinct from Data Extraction: Distinct from Data Extraction: focuses specifically on waiting for JavaScript rendering in SPAs before extraction, not general web page data extraction.
Explore 7 awesome GitHub repositories matching web development · JavaScript-Rendered Content Extractors. Refine with filters or upvote what's useful.
Pholcus es un framework de web crawler distribuido escrito en Go, diseñado para la extracción de datos de alta concurrencia. Funciona como un orquestador de rastreo distribuido y un motor de extracción de datos dinámicos, utilizando una arquitectura servidor-cliente para coordinar tareas a través de múltiples nodos. El sistema integra un motor de navegador headless para renderizar contenido dinámico y ejecutar JavaScript, permitiéndole extraer datos de aplicaciones de una sola página (SPA). Cuenta con una interfaz de gestión basada en web para configurar parámetros de arañas y monitorear el progreso de la ejecución, junto con la capacidad de actualizar reglas de extracción mediante archivos de configuración con recarga en caliente (hot-reloading) sin reiniciar el sistema. La gestión del tráfico se maneja mediante la rotación de pools de proxies y la aleatorización de solicitudes para evadir la detección de bots y evitar límites de tasa. El framework incluye recuperación de puntos de control basada en estado para reanudar tareas tras fallos y proporciona adaptadores de almacenamiento conectables para exportar datos extraídos a bases de datos, colas de mensajes o archivos.
Executes JavaScript via a headless browser engine to extract structured data from dynamic single-page applications.
Steel is a cloud browser automation platform that provides a REST API for launching and controlling remote Chrome browser sessions. It enables programmatic browsing and web scraping using standard automation tools like Puppeteer, Playwright, and Selenium, connecting to cloud-hosted browser instances via WebSocket and the Chrome DevTools Protocol. The platform supports both headless and headful browser sessions, with language-specific SDKs for TypeScript and Python. The service distinguishes itself through comprehensive anti-detection capabilities, including residential proxy rotation, CAPTCHA
Waits for JavaScript-rendered content to fully load before extracting structured data from single-page applications.
Open Deep Research is an AI-powered web research agent that combines a reasoning model with live web search and data extraction to perform deep, multi-source investigations on any topic. It operates through a dual interface, offering both a command-line tool and a Model Context Protocol server, allowing developers to integrate web capabilities directly into AI agents and coding assistants. The project distinguishes itself by orchestrating an iterative research loop where a reasoning model plans steps, interprets search results, and guides subsequent web interactions. It uses Firecrawl for scr
Waits for JavaScript-rendered content to fully load before extracting data from single-page applications.
X-Ray es un framework de scraping web y crawler web asíncrono diseñado para extraer datos estructurados de sitios web. Funciona como un extractor de datos HTML que transforma el contenido de páginas sin formato en un esquema definido utilizando selectores de estilo CSS. El proyecto implementa un crawler de navegador headless capaz de ejecutar JavaScript para renderizar contenido dinámico. Maneja el descubrimiento de contenido de sitios web a través de una estrategia de rastreo en anchura y descubrimiento automático de paginación para recorrer conjuntos de resultados de múltiples páginas. El framework gestiona tuberías de datos web utilizando una cola de solicitudes con concurrencia limitada y control de tasa de solicitudes para regular las llamadas de red salientes. Los resultados extraídos se manejan mediante persistencia de datos basada en flujos para procesar grandes conjuntos de datos sin sobrecargar la memoria del sistema.
Captures data from JavaScript-heavy websites by rendering pages via browser drivers before parsing.
Este proyecto es un framework de rastreo web (web crawler) distribuido y headless Chrome para la extracción de datos. Funciona como un motor de renderizado de JavaScript que utiliza un navegador headless para procesar páginas dinámicas, extrayendo datos estructurados de sitios web que requieren ejecución de JavaScript. El sistema está diseñado para la recolección de datos escalable a través de múltiples nodos, utilizando sincronización de tareas distribuida y cachés compartidas para evitar el trabajo duplicado. Se distingue por la capacidad de emular entornos de cliente específicos configurando user agents y dimensiones de viewport, mientras captura evidencia visual como capturas de pantalla de la página. El framework cubre una gestión integral del rastreo, incluyendo programación de solicitudes con cola de prioridad, recorrido en profundidad y en anchura, y cumplimiento de archivos robots.txt y sitemap.xml. Proporciona herramientas para limitar la concurrencia, monitoreo de eventos y streaming de datos extraídos en formatos CSV o JSON.
Extracts structured data from heavy pages by waiting for JavaScript-rendered content to load.
CrawlerTutorial is a comprehensive Python web scraping tutorial and framework designed for extracting data from static and dynamic websites. It functions as a web data extraction pipeline and an HTTP request orchestrator, covering the full lifecycle of scraping applications from initial fetching to final data storage. The project provides specialized guidance on anti-bot bypass techniques and web API reverse engineering. It includes methods for evading browser detection through identity masking and proxy rotation, as well as techniques for identifying hidden API endpoints by analyzing network
Includes capabilities to wait for JavaScript execution and ensure dynamic content is fully rendered before extraction.
Scylla is a system for managing HTTP proxy pools and automating web extraction. It provides a specialized data acquisition pipeline designed for gathering large-scale internet datasets for training and fine-tuning large language models. The project features a proxy rotation gateway that assigns fresh proxy addresses to incoming requests to mask origin traffic and avoid IP blocking. It includes a proxy pool manager that handles the collection, functional validation, and orchestration of proxy servers, complemented by a web dashboard for monitoring the health and geographic distribution of the
Uses headless browsers to extract structured data from websites that rely on JavaScript rendering.