ActiveloopがAIデータベースソリューション向上のために1100万ドルを調達
カリフォルニアを拠点とするスタートアップのActiveloopは、Streamlined Ventures、Y Combinator、Samsung Nextなどの投資家から1100万ドルのSiriーズA資金を調達しました。プリンストン大学中退のダビト・ブニアティアンによって共同設立された同社は、AIプロジェクトの開発を迅速化するための専用データベースを専門としています。
Deep LakeでAIの可能性を開放
Activeloopは、企業が抱える課題、特に非構造化のマルチモーダルデータを活用してAIモデルをトレーニングするための重要なソリューションを提供することで、データプラットフォーム市場の中で際立っています。同社の革新的な技術「Deep Lake」は、競合他社と比べて開発コストを最大75%削減し、エンジニアリングの生産性を最大5倍向上させることが可能です。
マッキンゼーの調査によると、企業が複雑なデータセットを活用することで、生成AIは年間2.6兆ドルから4.4兆ドルのグローバルな企業利益を生み出す可能性があります。この影響は、顧客インタラクションやマーケティングコンテンツの生成、自然言語からのソフトウェアコード生成など、さまざまな分野に及びます。
Deep Lakeの仕組み
高性能な基盤となるAIモデルのトレーニングには、テキスト、オーディオ、ビデオのペタバイト規模の非構造化データを管理する必要があります。従来の方法では、データの非効率なサイロを整理するために多大な労力がかかり、プロジェクトコストが増大していました。
Activeloopは、データの標準化を通じてこの非効率を解消します。Deep Lakeは、画像や動画などの複雑なデータを機械学習に最適化された数学的表現(テンソル)で保存し、SQLライクなテンソルクエリ言語、ブラウザ内での可視化、PyTorchやTensorFlowなどの深層学習フレームワークとの統合を可能にします。
これにより、開発者はマルチモーダルデータを効率的にフィルタリング、検索し、バージョン管理を行い、特定のアプリケーションに合わせたAIモデルのトレーニングに必要なデータをストリーミングできます。
AIにおけるデータ管理の変革
ブニアティアンは、Deep Lakeが従来のデータレイクの利点を組み合わせながら、すべてのデータを深層学習アルゴリズムが要求するテンソル形式に変換している点を強調しています。テンソルはAWS S3などのクラウドやローカルソリューションに保存され、効率的なトレーニングが可能になります。これにより、以前はアイドル状態だったGPU時間を削減します。
2018年の設立以来、プリンストン神経科学ラボでの課題を原動力に、Activeloopはオープンソースと独自要素を兼ね備えた包括的なデータベース機能を開発してきました。オープンソース部分にはデータセットフォーマット、バージョン管理、データ処理を合理化するための様々なAPIが含まれます。独自機能には高度な可視化ツールと強力なストリーミングエンジンがあります。
具体的な顧客数は公表されていませんが、このオープンソースプロジェクトは100万回以上ダウンロードされており、企業市場でのActiveloopの立ち位置を強化しています。エンタープライズ向けのサービスは使用ベースの価格モデルを採用し、バイオファーマ、ライフサイエンス、メドテック、自動車、法務などの規制の厳しい分野でFortune 500企業に利用されています。
例えば、バイエル放射線科はDeep Lakeを導入し、さまざまなデータモダリティを一元化し、データ前処理の時間を大幅に短縮しています。また、「X線との会話」機能を導入し、データサイエンティストが自然言語でスキャンにクエリをかけられるようにしています。
成長に向けた将来の計画
Activeloopはエンタープライズソリューションを強化し、AIデータベースの追加顧客を獲得することを目指しています。特に、複雑な非構造化データの整理と取得の簡略化に重点を置いています。最近の資金調達を背景に、エンジニアリングチームを拡大する計画です。
ブニアティアンは、Deep Lake v4の発表が近づいていることにも期待を寄せており、このバージョンでは高速な同時I/O、高度なトレーニング用データローダー、包括的なデータの系譜管理が可能になります。そして、外部データソースとの統合も行われます。多くの顧客がいるものの、直接の競合は現れていないと彼は強調しています。
最終的にActiveloopは、企業が社内でのデータ管理と取得に伴うコストの大幅な削減を実現し、エンジニアが生産性に注力できるようサポートすることを目指しています。