3 repository-uri
Tools that use CSS or XPath selectors to retrieve structured data from HTML documents.
Distinct from Structured Data Extractors: Distinct from general structured data extractors by focusing specifically on HTML selector-based retrieval rather than general document-to-schema transformation.
Explore 3 awesome GitHub repositories matching data & databases · HTML Selector Extractors. Refine with filters or upvote what's useful.
X-ray este un scraper web cu browser headless și un crawler de conținut HTML conceput pentru a extrage date structurate de pe site-uri web. Funcționează ca un scraper de date bazat pe flux și un extractor de date structurate, utilizând selectori pentru a prelua text și atribute din HTML sub formă de obiecte sau array-uri imbricate. Proiectul include un controler de rată a cererilor pentru a gestiona traficul de rețea prin limite de concurență, throttle-uri și timeout-uri. Gestionează scraping-ul site-urilor dinamice prin randarea JavaScript-ului via un browser headless și efectuează crawling automat al site-urilor folosind parcurgerea link-urilor în lățime (breadth-first) și gestionarea paginării. Sistemul oferă un pipeline de date care aplică transformări funcționale de valori asupra șirurilor brute și scrie rezultatele într-un flux (stream) lizibil pentru a preveni depășirea memoriei în timpul sarcinilor de scraping web la scară largă.
Provides a selector-based parser to retrieve text and attributes from HTML as structured nested objects or arrays.
Acest proiect este un framework de web scraping Node.js conceput pentru a automatiza extragerea datelor printr-un flux de lucru programatic de cereri, parsare și interacțiune cu documentele. Acesta funcționează ca un crawler web headless, un manager de cereri HTTP și un parser și extractor DOM. Framework-ul se distinge prin combinarea unui motor de execuție JavaScript pentru a interacționa cu conținutul dinamic și a unui sistem hibrid de selecție care utilizează atât selectori CSS, cât și XPath. Include middleware specializat pentru rotația proxy-urilor și gestionarea sesiunilor cookie-jar pentru a menține stările autentificate și a gestiona traficul automatizat. Capabilitățile sale mai largi acoperă crawling-ul recursiv al link-urilor, gestionarea paginării și automatizarea formularelor web. Instrumentul oferă, de asemenea, funcții de gestionare a traficului, cum ar fi limitarea ratei cererilor prin întârzieri temporizate și configurarea antetelor HTTP personalizate.
Implements CSS and XPath selectors to extract structured data from HTML and XML documents.
Jodd este o suită de extensii Java lightweight și utilitare de bibliotecă standard concepute pentru configurarea aplicațiilor, maparea bazelor de date, injecția de dependențe și parsarea HTML. Oferă un set consolidat de instrumente de bază pentru a facilita dezvoltarea în Java, cu un nucleu fără dependențe pentru a asigura compatibilitatea și o amprentă redusă în diverse medii. Proiectul dispune de un container pragmatic de injecție a dependențelor pentru gestionarea ciclului de viață al obiectelor și un mapper de baze de date care utilizează template-uri SQL pentru a mapa seturile de rezultate direct în obiecte Java. Include un manager de configurare specializat care suportă profiluri, secțiuni și macro-uri, precum și un parser HTML care extrage elemente folosind selectori CSS3. Capabilitățile suplimentare acoperă comunicarea în rețea printr-un client HTTP lightweight, serializarea JSON și transmiterea/recepționarea de e-mailuri. Toolkit-ul oferă, de asemenea, utilitare pentru validarea datelor, conversia tipurilor, gestionarea tranzacțiilor și generarea de proxy-uri dinamice pentru interceptarea comportamentală.
Provides an HTML parser that allows element extraction using CSS3 selector patterns.