StormCrawler

StormCrawler

StormCrawler to pakiet SDK o otwartym kodzie źródłowym do tworzenia rozproszonych robotów indeksujących za pomocą Apache Storm.Projekt jest objęty licencją Apache v2 i składa się z zestawu zasobów i komponentów wielokrotnego użytku, napisanych głównie w Javie.Celem StormCrawler jest pomoc w tworzeniu przeszukiwaczy internetowych, które są: skalowalne, odporne na małe opóźnienia, łatwe w rozbudowie, uprzejme, ale wydajne StormCrawler to biblioteka i zbiór zasobów, które programiści mogą wykorzystać do budowy własnych przeszukiwaczy.Dobra wiadomość jest taka, że ​​może to być bardzo proste.Często wszystko, co musisz zrobić, to zadeklarować robota burzowego jako zależność od Maven, napisać własną klasę topologii (wskazówka: możesz rozszerzyć ConfigurableTopology), ponownie użyć komponentów dostarczonych przez projekt i być może napisać kilka niestandardowychdo własnego tajnego sosu.Trochę dostrajania do konfiguracji i gotowe! ... Oprócz podstawowych komponentów, zapewniamy pewne zasoby zewnętrzne, które możesz ponownie wykorzystać w swoim projekcie, takie jak na przykład nasza wylewka i śruby do ElasticSearch lub ParserBolt, który używa Apache Tikaparsować różne formaty dokumentów.StormCrawler doskonale nadaje się do użycia w przypadkach, w których adres URL do pobrania i parsowania występuje w postaci strumieni, ale jest również odpowiednim rozwiązaniem dla indeksowania rekurencyjnego na dużą skalę, szczególnie tam, gdzie wymagane jest małe opóźnienie.Projekt jest wykorzystywany w produkcji przez kilka firm i jest aktywnie rozwijany i utrzymywany.
stormcrawler

Stronie internetowej:

Kategorie

Alternatywy dla StormCrawler'a dla wszystkich platform z dowolną licencją