2 repositorios
Identifying recurring structural patterns on webpages to automate data capture across multiple URLs.
Distinguishing note: Candidates focus on ID generation or URL rewriting, not structural HTML pattern recognition for scraping.
Explore 2 awesome GitHub repositories matching data & databases · Pattern-Based Scraping. Refine with filters or upvote what's useful.
Autoscraper es una biblioteca de web scraping automático y extractor de datos basado en patrones que aprende reglas de extracción a partir de datos de muestra. Identifica y recupera texto, URLs y elementos HTML de páginas web analizando valores de muestra para replicar patrones de datos a través de diferentes URLs. El sistema funciona como un gestor de modelos de web scraping, permitiendo a los usuarios guardar y recargar reglas aprendidas para mantener una extracción de datos consistente. Admite la exportación e importación de reglas de scraping a un sistema de archivos local para evitar repetir el proceso de entrenamiento para el mismo sitio web. La biblioteca cubre la extracción automatizada de datos web y la recolección de contenido web mediante el aprendizaje de patrones basado en muestras y la recuperación de elementos posicionales. Puede recuperar tanto puntos de datos específicos como todos los elementos en una página que coincidan con los patrones identificados a partir de los datos de muestra iniciales.
Identifies recurring elements on a webpage to automatically capture data across multiple similar URLs.
snscrape es un scraper y crawler de redes sociales basado en Python diseñado para extraer publicaciones públicas, perfiles y hashtags de redes sociales sin el uso de APIs oficiales. Funciona como una herramienta de archivo y una utilidad para la recopilación de datos de inteligencia de fuentes abiertas (OSINT), permitiendo la recopilación de información disponible públicamente para investigar tendencias y personas. La herramienta facilita la extracción de datos de redes sociales con fines de investigación y archivo, permitiendo la creación de registros históricos de conversaciones y actividad de los usuarios. Soporta flujos de trabajo para el análisis social académico y la exportación de grandes conjuntos de metadatos y mensajes a archivos locales. Las capacidades incluyen la capacidad de scrapear varias plataformas de redes sociales y limitar el volumen de resultados extraídos. El sistema puede exportar elementos descubiertos como listas de URLs o archivos detallados que contienen contenido y marcas de tiempo.
Uses recurring structural URL patterns to route requested data types to specific scraping logic.