Cloudera
Cloudera — американская компания, разработчик дистрибутивов Apache Hadoop и ряда программных продуктов экосистемы Hadoop. Деловую модель компании сравнивают с бизнесом Red Hat — Cloudera создаёт дистрибутивы программных продуктов для организаций на основе свободного программного обеспечения и извлекает прибыль, оказывая техническую поддержку поставляемых решений[2][3]. С бумом технологий «больших данных», Cloudera неоднократно отмечена как одна из самых многообещающих компаний, способных решать задачи соответствующего класса[4][5]. В 2018 году поглотила основного конкурента на рынке Hadoop-дистрибутивов — американскую компанию Hortonworks[англ.]. ИсторияКомпания была основана в октябре 2008 года в Бёрлингейме (штат Калифорния) со стартовым капиталом $5 млн, основной целью бизнеса выбрана коммерциализация проекта Hadoop. Основатели компании — Кристофе Бишилья (англ. Chirstophe Bischiglia), ранее работавший в Google, Амр Авадалла (Amr Awadallah, вице-президент корпорации Yahoo, отвечавший за системы анализа и хранилища данных), Джеффри Хаммербахер (Jeff Hammerbacher, менеджер проекта Hive в компании Facebook) и Майкл Ольсон (Michael Olson), вице-президент корпорации Oracle, ранее генеральный директор Sleepecat, разрабатывавшей и развивавшей Berkeley DB и поглощённой в 2006 году Oracle)[6]. Хаммербахер организовал начальное финансирование проекта фондом Accel Partners, а Ольсон возглавил компанию. Суммарно на начальной стадии было привлечено $11 млн, а кроме Accel среди инвесторов указывается Greylock Partners и бизнес-ангелы Гидеон Ю (Gideon Yu) и Катерина Фейк (Caterina Fake)[7]. Среди нанятых в первые месяцы сотрудников были создатели Hadoop Дуг Каттинг и Майкл Кафарелла (Mike Cafarella), бывшие руководители компаний VMware (Дайен Грин, Diane Green) и MySQL AB (Мартен Микос, Marten Mikos)[8]. Благодаря факту перехода Каттинга в Cloudera, компания была охарактеризована как «новый знаменосец Hadoop»[9]. В 2009 году Бишилья вошёл пятым в список из 22-х лучших молодых технологических предпринимателей еженедельника Businessweek[10], а Хаммербахер попал в этот список на седьмую (из 15) позицию в 2010 году. При номинации Бишильи Cloudera была охарактеризована как сервисная компания, оказывающая технические консультации по Hadoop, тогда как вклад Хаммербахера в 2010 году отмечен как трансформация бизнеса компании, сделавшая её поставщиком тиражируемого программного обеспечения для организаций[11]. В ноябре 2011 года компания получила дополнительное финансирование в размере $40 млн[12], в декабре 2012 года — ещё $65 млн[13], среди инвесторов очередных раундов указываются Ignition Partners, Greylock, Accel, Meritech Capital Partners и In-Q-Tel[14][13]. В октябре 2012 года компания представила продукт ImpalaSQL к данным в кластере под управлением Hadoop, появление такого продукта было встречено как неожиданность, так как преобладающей риторикой компаний, сфокусированных на технологиях «больших данных», являлся отказ от традиционных технологий, имеющих в основе SQL (англ. old SQL, по созвучию со «старой школой» — old school)[15]. , обеспечивающий доступ на языкеВ июне 2013 года на должность генерального директора приглашён Том Райли (Tom Reilly), ранее приведший две технологические компании к поглощению крупными игроками (компания-производитель MDM-системы Trigo была куплена IBM в 2004 году, а фирма ArcSight[англ.] была выведена на IPO и вскоре поглощена Hewlett-Packard в 2010 году), событие оценено как подготовка либо к первичному размещению, либо продаже бизнеса[16]. Ольсон перешёл на пост стратегического директора и председателя правления. В июле 2013 года фирма поглотила британскую компанию Myrryx, основанную Шоном Оуэном (Sean Owen), одним из основных авторов входящего в экосистему Hadoop масштабируемого фреймворка для машинного обучения Apache Mahout, объявлено о назначении Оуэна на должность «директора по науке о данных» (англ. director of data science)[17]. К середине 2013 года за пять раундов инвестиций компания получила в общей сумме $141 млн[16], а в очередном раунде в марте 2014 года компания привлекла ещё $160 млн[18]. В марте 2014 года, после шестого раунда инвестиций, Intel за $740 млн приобрела долю в компании в размере 18 %, таким образом, оценив бизнес Cloudera приблизительно в $4 млрд[19]; при этом Intel отказалась от развития созданного годом ранее собственного дистрибутива Hadoop в пользу продвижения решений от Cloudera[18]. В июне 2014 году компания приобрела фирму-разработчика технологии шифрования данных Gazzang[20]. В апреле 2017 года компания провела первичное размещение на Нью-Йоркской фондовой бирже, в результате которого привлекла $215 млн[21]. Осенью 2017 года поглощена нью-йоркская фирма-разработчик алгоритмов машинного обучения Fast Forward Labs, сделка была отмечена как ответ на тесную интеграцию Hortonworks с IBM, делающим упор на развитие систем искусственного интеллекта в рамках программы Watson, и отказавшимся от своего дистрибутива Hadoop в пользу Hortonworks[22]. В октябре 2018 года объявлено о слиянии с Hortonworks, притом структура сохранила наименование Cloudera, листинг на бирже и генерального директора, а акционеры Hortonworks получили 40 % акций объединённой компании[23]. Сделка завершена 3 января 2019 года, несмотря на суммарную оценку двух компаний в момент объявления в $5,2 млрд, по её завершении капитализация объединённого бизнеса составила около $3 млрд[24]. Поглощение фактически завершило этап консолидации на рынке коммерческих дистрибутивов Hadoop (из сколь-либо заметных других участников рынка осталась только компания MapR[англ.] с годовым оборотом около $175 млн за 2018 год), сместив фокус конкуренции на более широкие сегменты — инструментов больших данных и аналитических платформ[25]. В конце 2020 года компания совершила обратный выкуп акций у Intel за $314 млн (что на $426 млн дешевле инвестиций 2014 года)[26]. Осенью 2021 года компания выкуплена инвестиционными фондами Clayton, Dubilier & Rice и KKR за $5,3 млрд и был проведён делистинг акций с фондовой биржи. CDHCDH (англ. Cloudera’s Distribution including Apache Hadoop) — дистрибутив Apache Hadoop, включающий ряд смежных программ и библиотек и собственных утилит разработки Cloudera, бесплатно распространяемый и коммерчески поддерживаемый для определённых дистрибутивов Linux (Red Hat Enterprise Linux, CentOS, Ubuntu, SuSE SLES, Debian). Среди смежных с Hadoop программных проектов Apache в дистрибутив включены: Flume, HBase, Hive, Mahout, Oozie, Pig, Sqoop, Whirr, Zookeeper. Кроме того, в дистрибутив входит собственная подсистема управления кластером Cloudera Manager , включающая сценарии развёртывания Hadoop-инфраструктуры как в локальных, так и в облачных средах (Rackspace, Amazon EC2, Softlayer[англ.]), а также утилиты и конфигурации для поддержки автоматизации сборки средствами Apache Maven. К началу 2012 года поставлялись две версии CDH — CDH2 (на основе Hadoop 0.20.1) и CDH3 (на основе Hadoop 0.20.2). Дистрибутив CDH3 включён в поставку аппаратно-программного комплекса Oracle Big Data appliance[27], притом первую линию поддержки заказчиков по Hadoop обеспечивает корпорация Oracle, а Cloudera предоставляет техническое сопровождение по более сложным проблемам. В середине 2012 года вышла версия CDH4 на основе Hadoop 2.0 (включающей модуль YARN), в состав CDH4 включены также три собственных продукта фирмы — Hue[англ.] (браузерный интерфейс управления Hadoop-кластером), Impala и Search (полнотекстовый и фасетный поиск в средах HDFS и HBase). В 2014 году выпущена версия CDH5; версия CDH6, вышедшая весной 2018 года, создана на основе Hadoop 3.0 (ключевым новшеством которой стала поддержка помехоустойчивого кодирования для HDFS, позволяющая существенно снизить физические размеры кластеров)[28]. ImpalaCloudera Impala[англ.] — массово-параллельный механизм интерактивного выполнения запросов на языке SQL к данным, хранимым в HDFS и HBase, распространяется по лицензии Apache 2.0. В отличие от Hive, обеспечивающего трансляцию запросов на SQL-подобном языке (HiveQL) в MapReduce-задания, выполняемые в пакетном режиме, Impala выполняет запросы в распределённой среде интерактивно, распределяя запрос по узлам обработки на основе собственного механизма, не прибегая к MapReduce. Cloudera ManagerCloudera Manager — специализированный компонент, позволяющий автоматизировать создание и модификацию Hadoop-сред, отслеживать и анализировать эффективность выполнения заданий на обработку, настраивать оповещения по наступлению тех или иных событий, связанных с эксплуатацией инфраструктуры распределённой обработки. Годовая стоимость технического сопровождения составляет около $4 тыс. за узел кластера[29]. Для Cloudera Manager существует бесплатная редакция (англ. free edition), работающая только на кластерах, состоящих из менее, чем 50-ти узлов и лишённая ряда свойств, доступных коммерческим подписчикам (таких, как мониторинг производительности, управление версиями конфигурации, поддержка Kerberos). Тематические продуктыВслед за прогнозом Garnter в цикле хайпа технологий управления данными 2017 года, предполагающим устаревание самой концепции «дистрибутива Hadoop» в скором времени, компания сместила акцент в продуктовом предложении на тематические комплекты, составленные фактически из тех же компонентов, что собираются в CDH, но нацеленные на те или иные специфические задачи. Так, в 2018 году появились продукты под наименованиями Data Warehouse (сборка для хранилищ данных, с фокусом на Impala), Operational DB (для операционных баз данных, вокруг HBase, Kudu[англ.] и Spark), Data Engineering (для ETL и интерактивного доступа к данным), Data Science (для задач «науки о данных»), Enterprise Data Hub (для платформ данных корпоративного уровня — фактически полная сборка дистрибутива Hadoop плюс каталог данных на основе собственного компонента SDX). Стоимостная политика с 2018 года формируется вокруг тематических продуктов; в зависимости от комплектации, подписчики ежегодно платят от $4 тыс. за поддержку каждого узла продуктов Data Engineering и Data Science до $10 тыс. за узел продукта Enterprise Data Hub. Примечания
Ссылки
|
Portal di Ensiklopedia Dunia