StormCrawler

StormCrawler to pakiet SDK o otwartym kodzie źródłowym do tworzenia rozproszonych robotów indeksujących za pomocą Apache Storm.Projekt jest objęty licencją Apache v2 i składa się z zestawu zasobów i komponentów wielokrotnego użytku, napisanych głównie w Javie.Celem StormCrawler jest pomoc w tworzeniu przeszukiwaczy internetowych, które są: skalowalne, odporne na małe opóźnienia, łatwe w rozbudowie, uprzejme, ale wydajne StormCrawler to biblioteka i zbiór zasobów, które programiści mogą wykorzystać do budowy własnych przeszukiwaczy.Dobra wiadomość jest taka, że może to być bardzo proste.Często wszystko, co musisz zrobić, to zadeklarować robota burzowego jako zależność od Maven, napisać własną klasę topologii (wskazówka: możesz rozszerzyć ConfigurableTopology), ponownie użyć komponentów dostarczonych przez projekt i być może napisać kilka niestandardowychdo własnego tajnego sosu.Trochę dostrajania do konfiguracji i gotowe! ... Oprócz podstawowych komponentów, zapewniamy pewne zasoby zewnętrzne, które możesz ponownie wykorzystać w swoim projekcie, takie jak na przykład nasza wylewka i śruby do ElasticSearch lub ParserBolt, który używa Apache Tikaparsować różne formaty dokumentów.StormCrawler doskonale nadaje się do użycia w przypadkach, w których adres URL do pobrania i parsowania występuje w postaci strumieni, ale jest również odpowiednim rozwiązaniem dla indeksowania rekurencyjnego na dużą skalę, szczególnie tam, gdzie wymagane jest małe opóźnienie.Projekt jest wykorzystywany w produkcji przez kilka firm i jest aktywnie rozwijany i utrzymywany.

Stronie internetowej:

http://stormcrawler.net

Kategorie

Alternatywy dla StormCrawler dla Linux

StormCrawler

Stronie internetowej:

Kategorie

Alternatywy dla StormCrawler dla Linux

Heritrix

Apache Nutch

Scrapy

ACHE Crawler