What are the best Awesome Java Crawling Frameworks GitHub Repositories?

Question 1

Accepted Answer

Scalable and extensible web crawling solutions for the Java ecosystem.

Explore 13 awesome GitHub repositories matching part of an awesome list · Java Crawling Frameworks. Refine with filters or upvote what's useful. Top picks: code4craft/webmagic, ssssssss-team/spider-flow, yasserg/crawler4j, internetarchive/heritrix3, crawlscript/webcollector, yahoo/anthelion, xtuhcy/gecco, zhegexiaohuozi/seimicrawler, digitalpebble/storm-crawler, vida-nyu/ache.

Question 2

Why is code4craft/webmagic a recommended Java Crawling Frameworks GitHub Repositories repository?

Accepted Answer

Scalable crawler framework for Java.

Question 3

Why is ssssssss-team/spider-flow a recommended Java Crawling Frameworks GitHub Repositories repository?

Accepted Answer

Visual spider framework requiring no coding.

Question 4

Why is yasserg/crawler4j a recommended Java Crawling Frameworks GitHub Repositories repository?

Accepted Answer

Simple and lightweight web crawler.

Question 5

Why is internetarchive/heritrix3 a recommended Java Crawling Frameworks GitHub Repositories repository?

Accepted Answer

Extensible, web-scale, archival-quality crawler.

Question 6

Why is crawlscript/webcollector a recommended Java Crawling Frameworks GitHub Repositories repository?

Accepted Answer

Multi-threaded crawler with simple interfaces.

Question 7

Why is yahoo/anthelion a recommended Java Crawling Frameworks GitHub Repositories repository?

Accepted Answer

Plugin for Nutch to crawl semantic HTML annotations.

Question 8

Why is xtuhcy/gecco a recommended Java Crawling Frameworks GitHub Repositories repository?

Accepted Answer

Easy-to-use lightweight web crawler.

Question 9

Why is zhegexiaohuozi/seimicrawler a recommended Java Crawling Frameworks GitHub Repositories repository?

Accepted Answer

Agile, distributed crawler framework.

Question 10

Why is digitalpebble/storm-crawler a recommended Java Crawling Frameworks GitHub Repositories repository?

Accepted Answer

Low-latency, scalable crawler built on Apache Storm.

Question 11

Why is vida-nyu/ache a recommended Java Crawling Frameworks GitHub Repositories repository?

Accepted Answer

Domain-specific web crawler for focused search.

Awesome GitHub RepositoriesJava Crawling Frameworks

code4craft/webmagic

ssssssss-team/spider-flow

yasserg/crawler4j

internetarchive/heritrix3

CrawlScript/WebCollector

yahoo/anthelion

xtuhcy/gecco

zhegexiaohuozi/SeimiCrawler

DigitalPebble/storm-crawler

ViDA-NYU/ache

USCDataScience/sparkler

Norconex/collector-http

pkwenda/webBee