上周,我讨论了马克·扎克伯格对Meta人工智能战略的见解,强调了一个显著的优势:拥有庞大且不断扩展的内部数据集来训练其Llama模型。扎克伯格表示,Facebook和Instagram上有“数百亿张公开共享的图像和数十亿段公共视频”,其规模超过了Common Crawl数据集。用户在这些平台上还分享了大量的公共文本帖子。
AI对数据的无尽需求
然而,用于训练Meta、OpenAI或Anthropic等公司的模型的数据仅是理解现代大型语言模型(LLMs)数据需求的起点。对推理的持续需求——即将LLMs应用于各种短期需求,形成了一个数据消耗的无尽循环。这就像经典游戏“贪吃小海马”,AI模型不断收集数据以确保有效运行。
有效推理所需的特定数据集
Nomad Data的创始人兼首席执行官布拉德·施奈德强调:“[推理是]更大的市场,人们未必意识到这一点。”Nomad Data作为一个数据发现平台,将2500多个数据供应商与有特定数据需求的公司连接起来。
Nomad并不是单纯的数据中介,而是让公司能够用自然语言搜索所需的数据。例如,用户可能会请求“每个月在美国建设中的所有屋顶的数据源”。施奈德解释说,许多用户并不知道自己需要的数据集的准确名称,Nomad的LLMs帮助识别能提供这些数据的相关供应商。
实时数据匹配
需求和供应的快速匹配展示了该平台的有效性。施奈德回忆起一家保险公司在Nomad上列出了自己的数据,几乎立刻,另一家公司在寻找详细的汽车事故数据时并不知道该信息属于“保险数据”的范畴。“这就是魔力所在,”施奈德说道。
持续的数据供给
虽然训练数据至关重要,施奈德强调,模型训练的频率低,而推理却是持续的,往往每分钟达数千次。对于利用生成式AI的公司而言,持续获取新数据至关重要,尤其是在创建有价值的洞察时。“你需要给它提供数据,以便它能产生有趣的结果。”他解释道。
识别合适的数据来源对大型企业依然是个挑战。初期利用内部数据是关键,但将高质量的外部数据集纳入主体历史上也一直难以实现。组织通常难以从庞大的档案中提取有用信息,比如数百万个PDF文件。幸运的是,LLMs现在可以快速分析来自各种来源的文本数据,包括消费者记录和政府文件。
解锁未开发数据的价值
施奈德比喻这种转变为发现“埋藏的宝藏”。曾被视为无用的数据如今变得极具价值。此外,数据对于定制LLM的训练至关重要。例如,要开发一个识别日本收据的模型,就需要相关收据的数据集。同样,创建一个识别足球场图像中广告的模型也需要相关视频的数据集。
媒体公司利用数据获利
大型媒体公司也开始将其数据授权给LLM公司。OpenAI近期与Axel Springer建立了合作关系,而与纽约时报的谈判则以诉讼告终。Nomad Data正在与媒体机构及其他公司积极合作,扩展其数据供应商网络。施奈德透露,Nomad已经与多家企业合作——涵盖汽车制造商和保险公司的范围——这些公司正在该平台上列出他们的数据。
对LLM数据的持续需求
本质上,LLM数据供应链是一个自我加强的循环。Nomad Data利用LLMs识别新的数据供应商,随后帮助用户找到他们所需的数据。这些数据再与LLM API结合,用于训练和推理。“LLMs对我们的业务至关重要,”施奈德强调。“随着我们收集更多的文本数据,我们不断学习如何利用这些多样化的数据集。”
AI训练数据在整体市场中只是一个小部分,而LLM推理和定制训练则呈现出最激动人心的机会。施奈德说道:“现在我可以获取那些曾经毫无价值的数据,这将对我的业务发展起到重要作用,感谢这些新技术。”