データブリックス
Databricksは、Apache Sparkの生みの親であるマテイ・ザハリアと共に、アリ・ゴディシが2013年に設立した企業である[1] 。 AI/機械学習をはじめとするビッグデータを扱うためのクラウド型の統合データ分析基盤である「レイクハウス・プラットフォーム」を提供しており、データエンジニアリング、データサイエンス/機械学習、データ分析の領域に強みがある。 2022年に上場予定と言われているユニコーン企業であり、2021年8月に発表したシリーズHの資金調達後の市場価値は約4兆円となっている。[2]。2021年12月現在、世界で7,000社を超える企業に利用されており[3]、テクノロジー販売パートナーは約450社となっている[4]。 2021年ガートナー「マジッククアドラント」において、データサイエンスおよび機械学習プラットフォーム部門のリーダーとして評価されている[5]。また、2021年9月、ガートナー社のTechnology Hype Cycleのチャートには、「レイクハウス」が、Innovation Triggerのカテゴリーに分類された。 Apache SparkやDelta Lake、MLflow、Redashといった自社ソフト(もしくは創業メンバーが過去に開発したソフト)を組み合わせ、大規模なデータエンジニアリングとコラボレーション型データサイエンスのためのクラウドプラットフォームを開発しており、開発したソフトウェアの多くをオープンソース化し、オープンソースコミュニティとして維持していることもDatabricksの特徴。
日本法人はデータブリックス・ジャパン株式会社。 創業メンバー
沿革2013年9月、DatabricksはAndreessen Horowitzから1390万ドルを調達したことを発表し、GoogleのMapReduceシステムに代わるものを提供することを目指していると述べた[6][7] 同社は2014年に3300万ドル、2016年に6000万ドル、2017年に1億4000万ドル、2019年2月に2億5000万ドル[8]、2019年10月に4億ドルを追加調達した[9]。2021年2月に、シリーズGとして、Capital G(Goole)、Microsoft、AWS、SalesforceのクラウドBig4からの10億ドルの資金調達を発表し[10]、2021年9月には、16億ドルのシリーズHの資金調達を実施、市場価値が約4兆円に到達した。[11] 関連ソフトウェアApache SparkApache Sparkは、ビッグデータと機械学習のための非常に高速なオープンソースのクラスタコンピューティングフレームワークである。Sparkのインタフェースを使うと、暗黙のデータ並列性と耐故障性を備えたクラスタ全体をプログラミングできる。Scala, Java, Python, R用のハイレベルなAPIや、データ分析用の一般的なコンピュテーショングラフをサポートする最適化エンジンを提供する。SQLやDataFrames向けのSpark SQL, 機械学習向けのMLlib, グラフ処理向けのGraphX, ストリーミング処理向けの Structured Streamingも提供する。 Delta Lakeオープンソースのストレージレイヤー。非構造化、構造化、半構造化データも全て一括して格納する次世代型のデータレイク・データウェアハウスである。Apache Sparkや他ビッグデータエンジンに対して、拡張性やACIDトランザクション機能を提供する。 MLflowオープンソースのプラットフォーム。実験、再現性確認、デプロイメント、一元的なモデルのレジストリーなどの機械学習のライフサイクルの管理を容易にする。 Koalasオープンソースプロジェクト。pandas DataFrame APIをApache Spark上に実装することで、データサイエンティストがビッグデータを扱う際の生産性を向上する。 Pandasプログラミング言語Pythonにおいて、データ解析を支援する機能を提供するライブラリである。特に、数表および時系列データを操作するためのデータ構造と演算を提供する。 脚注
|
Portal di Ensiklopedia Dunia