向成功迈进：克服闪亮物体综合症，发掘向量数据库中的独角兽潜力

Home AI News CN 向成功迈进：克服闪亮物体综合症，发掘向量数据库中的独角兽潜力

欢迎来到2024年：在快速发展的人工智能领域，如果你还没有利用生成式人工智能的力量，那么你就可能落后于时代。各行各业的组织都已经制定了人工智能的发展蓝图，从健康科技到日常家居用品。如果你还没有制定出战略，以下是一个简明的三步计划：

第一步：组建团队 - 组建一支技术精湛的团队，理想中包括完成过类似Andrew Ng课程的成员。获取认证意味着你已具备前沿人工智能技术的准备。

第二步：确保API访问 - 从OpenAI获取API密钥。请记住，ChatGPT不能直接调用；它并不是为此而设计的。

第三步：利用向量数据库 - 利用嵌入和向量数据库，这将是你在人工智能工具箱中的秘密武器。一旦你将数据收集到向量数据库中，并集成一些检索增强生成（RAG）架构，再加上提示工程的运用，你就成功将生成式人工智能嵌入到组织中。现在期待变革性的结果吧——不过，耐心是等待成果显现的关键。

随着各组织竞相采用生成式人工智能和探索大型语言模型（LLMs），许多组织往往忽视了实际的应用案例，而一味追逐技术趋势。这常常导致误导性的期待：当人工智能成为你唯一的工具时，每个挑战似乎都是可解决的。

了解人工智能的根源：尽管大型语言模型和向量数据库备受关注，讲述自然语言处理中的向量表示却有着深厚的历史根基。著名的乔治·米勒在1951年的研究中首次提出，处于相似上下文中的词汇往往具有相关含义，这一基础思想为现代向量表示奠定了基础。1997年，托马斯·K·兰道尔的研究进一步阐述了如何利用数学技术创建词语的向量空间，增强语义相关性以实现高效的信息检索。随后，约书亚·本吉奥等人的开创性工作又引入了支撑今日嵌入技术（如word2vec和BERT）的神经网络模型。

向量数据库的现状：向量数据库领域竞争愈演愈烈，各个厂商在性能、可扩展性和集成能力等方面展开激烈竞争。然而，关键仍在于相关性——能迅速提供准确结果要比以快速的方式提供无关答案更为重要。

向量数据库利用近似最近邻（ANN）算法，这些算法可以分为几种方法：

- 基于哈希的方法（局部敏感哈希、深度哈希）

- 基于树的方法（K均值树、Annoy）

- 基于图形的技术（层级可导航小世界）

随着这些复杂性的增加，大型语言模型的初始简单性可能会让人感到不知所措。然而，如果你通过OpenAI的API生成数据的嵌入，并利用像HSNW这样的ANN来检索，那么相关性仍然是重中之重。

管理期望：在使用向量系统时，确保数据对齐满足用户意图至关重要。例如，查询“错误221”可能会返回关于“错误222”的文档，这对寻求特定解决方案的用户来说非常令人沮丧。

向量数据库的叙事：向量数据库承诺改善信息检索，但它们并非全新概念。传统数据库、SQL和NoSQL解决方案，以及像Apache Solr和Elasticsearch这样的全文搜索应用，早已提供了强大的检索能力。虽然向量数据库便于语义搜索，但在某些文本处理功能上仍显不足。因此，向量数据库不能完全取代传统数据库，也不会如一些人预期的那样主导市场。在Weaviate、Vespa和Elasticsearch等竞争者的压力下，市场竞争激烈而不断发展，但要在这个领域中生存，需要凸显特点。

炒作的危险：追逐最新趋势可能导致“闪亮物品综合症。”有效的企业搜索不仅仅是集成一个向量存储；它需要从数据结构到正确的访问控制进行全面的规划与执行。组织必须仔细评估，是否其用例真正受益于采用向量技术。

最终，用户更重视准确性而非技术细节。他们寻求可靠的答案，无论其基本搜索方法是基于向量、关键词搜索还是其他方法。专注于你的用例并验证结果，将带来更有效的解决方案。

马斯克的Grok AI正式发布为开源软件

苹果研究人员在公司加大投资的背景下，破解多模态AI的突破性进展