Nutch

Apache Nutch
Lucene Nutch Logo
Типпошуковий рушій
РозробникApache Software Foundation
Стабільний випуск2.0 (9 липня 2012; 12 років тому (2012-07-09))
Платформавіртуальна машина Java Редагувати інформацію у Вікіданих
Операційна системакрос-платформовий
Мова програмуванняJava
Стан розробкиактивний
ЛіцензіяApache License 2.0
Репозиторійhttps://github.com/apache/nutch, https://gitbox.apache.org/repos/asf/nutch.git, https://github.com/apache/nutch.git
Вебсайтnutch.apache.org

Apache Nutch — модульний фреймворк для побудови пошукових систем, написаний на мові Java і заснований на технологіях Lucene, Solr, Tika, Hadoop і Gora, адаптованих для специфіки пошуку у вебі (наприклад, підтримується crawler, база посилального зв'язку, парсинг HTML і інших форматів). Архітектура Nutch дозволяє розробникам створювати плагіни для обробки нового медіа-контенту, отримання даних через нестандартні канали, для формування типових запитів або організації пошукового кластера.

Система надає засоби для побудови високомасштабованих систем індексації, абстрагованих від типу сховища, що дозволяє використовувати такі сховища для великих обсягів даних, як Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase і HDFS, так і SQL-бази і розміщені в пам'яті NoSQL БД.

Використання

На базі Nutch 2.0, запущеного поверх 34-вузлового Hadoop-кластера, побудований пошуковий сервіс компанії Kalooga, в індексі якого перебуває більше мільярда сторінок.[1]

На основі Nutch побудовані такі пошукові системи

Виноски

  1. Реліз пошукового рушія Apache Nutch 2.0 [Архівовано 14 липня 2012 у Wayback Machine.] (рос.)
  2. Our Updated Search. Creative Commons. 3 вересня 2004. Архів оригіналу за 7 вересня 2011. Процитовано 10 липня 2012.
  3. Creative Commons Unique Search Tool Now Integrated into Firefox 1.0. Creative Commons. 22 листопада 2004. Архів оригіналу за 22 липня 2013. Процитовано 10 липня 2012. [Архівовано 2013-05-31 у Wayback Machine.]
  4. New CC search UI. Creative Commons. 2 серпня 2006. Архів оригіналу за 7 листопада 2011. Процитовано 10 липня 2012.
  5. DiscoverEd home page. Архів оригіналу за 25 квітня 2015. Процитовано 19 червня 2019. [Архівовано 2015-04-25 у Wayback Machine.]
  6. Where can I get the source code for Wikia Search?. Архів оригіналу за 4 листопада 2011. Процитовано 10 липня 2012. [Архівовано 2011-11-04 у Wayback Machine.]
  7. Update on Wikia – doing more of what’s working. Архів оригіналу за 3 травня 2009. Процитовано 10 липня 2012.

Посилання