喂养巨兽：蓬勃数据市场如何驱动对大型语言模型的无尽需求

Home AI News CN 喂养巨兽：蓬勃数据市场如何驱动对大型语言模型的无尽需求

上周，我讨论了马克·扎克伯格对Meta人工智能战略的见解，强调了一个显著的优势：拥有庞大且不断扩展的内部数据集来训练其Llama模型。扎克伯格表示，Facebook和Instagram上有“数百亿张公开共享的图像和数十亿段公共视频”，其规模超过了Common Crawl数据集。用户在这些平台上还分享了大量的公共文本帖子。

AI对数据的无尽需求

然而，用于训练Meta、OpenAI或Anthropic等公司的模型的数据仅是理解现代大型语言模型（LLMs）数据需求的起点。对推理的持续需求——即将LLMs应用于各种短期需求，形成了一个数据消耗的无尽循环。这就像经典游戏“贪吃小海马”，AI模型不断收集数据以确保有效运行。

有效推理所需的特定数据集

Nomad Data的创始人兼首席执行官布拉德·施奈德强调：“[推理是]更大的市场，人们未必意识到这一点。”Nomad Data作为一个数据发现平台，将2500多个数据供应商与有特定数据需求的公司连接起来。

Nomad并不是单纯的数据中介，而是让公司能够用自然语言搜索所需的数据。例如，用户可能会请求“每个月在美国建设中的所有屋顶的数据源”。施奈德解释说，许多用户并不知道自己需要的数据集的准确名称，Nomad的LLMs帮助识别能提供这些数据的相关供应商。

实时数据匹配

需求和供应的快速匹配展示了该平台的有效性。施奈德回忆起一家保险公司在Nomad上列出了自己的数据，几乎立刻，另一家公司在寻找详细的汽车事故数据时并不知道该信息属于“保险数据”的范畴。“这就是魔力所在，”施奈德说道。

持续的数据供给

虽然训练数据至关重要，施奈德强调，模型训练的频率低，而推理却是持续的，往往每分钟达数千次。对于利用生成式AI的公司而言，持续获取新数据至关重要，尤其是在创建有价值的洞察时。“你需要给它提供数据，以便它能产生有趣的结果。”他解释道。

识别合适的数据来源对大型企业依然是个挑战。初期利用内部数据是关键，但将高质量的外部数据集纳入主体历史上也一直难以实现。组织通常难以从庞大的档案中提取有用信息，比如数百万个PDF文件。幸运的是，LLMs现在可以快速分析来自各种来源的文本数据，包括消费者记录和政府文件。

解锁未开发数据的价值

施奈德比喻这种转变为发现“埋藏的宝藏”。曾被视为无用的数据如今变得极具价值。此外，数据对于定制LLM的训练至关重要。例如，要开发一个识别日本收据的模型，就需要相关收据的数据集。同样，创建一个识别足球场图像中广告的模型也需要相关视频的数据集。

媒体公司利用数据获利

大型媒体公司也开始将其数据授权给LLM公司。OpenAI近期与Axel Springer建立了合作关系，而与纽约时报的谈判则以诉讼告终。Nomad Data正在与媒体机构及其他公司积极合作，扩展其数据供应商网络。施奈德透露，Nomad已经与多家企业合作——涵盖汽车制造商和保险公司的范围——这些公司正在该平台上列出他们的数据。

对LLM数据的持续需求

本质上，LLM数据供应链是一个自我加强的循环。Nomad Data利用LLMs识别新的数据供应商，随后帮助用户找到他们所需的数据。这些数据再与LLM API结合，用于训练和推理。“LLMs对我们的业务至关重要，”施奈德强调。“随着我们收集更多的文本数据，我们不断学习如何利用这些多样化的数据集。”

AI训练数据在整体市场中只是一个小部分，而LLM推理和定制训练则呈现出最激动人心的机会。施奈德说道：“现在我可以获取那些曾经毫无价值的数据，这将对我的业务发展起到重要作用，感谢这些新技术。”

人力资源转型：ADP Assist 引领AI创新

Roblox借助AI实时聊天翻译突破语言障碍

Most people like

Simple Analytics

161.7K

隐私优先的Google Analytics替代方案探索在数字时代，数据隐私变得尤为重要。许多企业和网站运营者正在寻找更安全的选择来替代Google Analytics，以保护用户数据并遵循合规要求。本文将深入探讨多个隐私优先的Google Analytics替代品，帮助您在收集和分析数据的同时，维护用户的信任和隐私。

隐私优先 AI Analytics助手

Enhancer App

99.3K

一款易于使用的人工智能工具，能够轻松增强和放大图像质量。

AI图像增强 AI照片增强

getimg.ai

2.3M

一种强大的AI工具套件，可以帮助用户生成、修改和扩展图像，轻松提升创意表现力。

AI艺术工具 AI艺术生成器

Open Data Science

76.5K

数据科学家和人工智能爱好者的专属社区平台，让您与志同道合的专业人士互动交流，分享知识与经验。

数据科学 AI课程

Find AI tools in YBX