Activeloop获得1100万美元融资,提升AI数据库解决方案
位于加利福尼亚的初创公司Activeloop刚刚完成了由Streamlined Ventures、Y Combinator和Samsung Next等投资者提供的1100万美元A轮融资。该公司由普林斯顿大学辍学生Davit Buniatyan共同创办,专注于提供专用数据库以加速AI项目开发。
Activeloop在竞争激烈的数据平台市场中脱颖而出,专注于企业面临的核心挑战:利用非结构化的多模态数据训练AI模型。其创新技术“Deep Lake”使团队能够以低至竞争对手75%的成本开发AI应用,并能将工程生产率提升高达五倍。
利用Deep Lake释放AI潜力
随着企业寻求利用复杂数据集开发多样化AI应用,麦肯锡的研究指出,生成性AI具备可观的潜力,可能为全球企业每年创造2.6万亿至4.4万亿的利润。这一影响覆盖客户互动、市场内容创作和基于自然语言提示生成软件代码等多个领域。
Activeloop Deep Lake的工作原理
训练高性能基础AI模型通常涉及管理PB级的非结构化数据,包括文本、音频与视频。传统方法要求团队整理混乱的数据孤岛,需耗费大量时间进行总体编码和集成,导致项目成本上涨。
通过标准化Deep Lake,Activeloop解决了这一低效问题。这个系统将图像和视频等复杂数据存储为机器学习所需的数学表示(张量),并可通过类似SQL的张量查询语言、浏览器内可视化或与深度学习框架(如PyTorch和TensorFlow)集成,轻松检索数据。
使用Deep Lake,开发人员可以高效地过滤和搜索多模态数据,跟踪版本,并实时流式传输数据,训练针对特定应用的AI模型。
转变AI中的数据管理
Buniatyan强调,Deep Lake结合了传统数据湖的优点,同时将所有数据转换为深度学习算法所需的张量格式。张量存储在云端或本地解决方案(如AWS S3)中,并实时传输至GPU进行高效训练,消除了以往导致GPU空闲的批量复制方法。
自2018年成立以来,受Buniatyan在普林斯顿神经科学实验室面临的挑战启发,Activeloop已开发出涵盖开源与专有元素的全面数据库功能。开源部分包括数据集格式、版本控制和各种API,以简化数据处理。而专有功能则提供先进的可视化工具和稳定的流媒体引擎。
虽然具体客户数量未披露,但开源项目的下载量已超过100万次,进一步巩固了Activeloop在企业市场的立足之地。其企业解决方案采用基于使用量的定价模式,已被生物制药、生命科学、医疗技术、汽车和法律等受监管行业的财富500强企业采用。
例如,拜耳放射学采用Deep Lake将多种数据模式整合成一个解决方案,显著缩短了数据预处理时间,并引入“与X光对话”功能,使数据科学家能够使用自然语言查询扫描结果。
未来发展计划
Activeloop致力于提升其企业解决方案,吸引更多客户使用其AI数据库,重点在于简化复杂非结构化数据的组织与检索。公司计划扩大工程团队,以支持近期获得的融资。
Buniatyan还预见Deep Lake v4的即将推出,它将引入更快的并发I/O、用于模型训练的高级流媒体数据加载器及全面的数据血统追踪能力,并与外部数据源整合。他强调,这一领域虽然客户众多,但尚未出现直接竞争对手。
最终,Activeloop期望为企业节省大量内部数据组织与检索的成本,使工程师们能够专注于提高生产力,而不是重复的编码工作。