Apache Nutch jest wysoce rozszerzalnym i skalowalnym projektem oprogramowania do przeszukiwania stron internetowych typu open source.Nutch jest całkowicie zakodowany w języku programowania Java, ale dane zapisywane są w formatach niezależnych od języka.Ma wysoce modułową architekturę, umożliwiającą programistom tworzenie wtyczek do analizowania typu mediów, pobierania danych, zapytań i klastrowania.Program pobierający („robot” lub „robot indeksujący”) został napisany od zera specjalnie dla tego projektu.
apache-nutch