欢迎来到2024年:在快速发展的人工智能领域,如果你还没有利用生成式人工智能的力量,那么你就可能落后于时代。各行各业的组织都已经制定了人工智能的发展蓝图,从健康科技到日常家居用品。如果你还没有制定出战略,以下是一个简明的三步计划:
第一步:组建团队 - 组建一支技术精湛的团队,理想中包括完成过类似Andrew Ng课程的成员。获取认证意味着你已具备前沿人工智能技术的准备。
第二步:确保API访问 - 从OpenAI获取API密钥。请记住,ChatGPT不能直接调用;它并不是为此而设计的。
第三步:利用向量数据库 - 利用嵌入和向量数据库,这将是你在人工智能工具箱中的秘密武器。一旦你将数据收集到向量数据库中,并集成一些检索增强生成(RAG)架构,再加上提示工程的运用,你就成功将生成式人工智能嵌入到组织中。现在期待变革性的结果吧——不过,耐心是等待成果显现的关键。
随着各组织竞相采用生成式人工智能和探索大型语言模型(LLMs),许多组织往往忽视了实际的应用案例,而一味追逐技术趋势。这常常导致误导性的期待:当人工智能成为你唯一的工具时,每个挑战似乎都是可解决的。
了解人工智能的根源:尽管大型语言模型和向量数据库备受关注,讲述自然语言处理中的向量表示却有着深厚的历史根基。著名的乔治·米勒在1951年的研究中首次提出,处于相似上下文中的词汇往往具有相关含义,这一基础思想为现代向量表示奠定了基础。1997年,托马斯·K·兰道尔的研究进一步阐述了如何利用数学技术创建词语的向量空间,增强语义相关性以实现高效的信息检索。随后,约书亚·本吉奥等人的开创性工作又引入了支撑今日嵌入技术(如word2vec和BERT)的神经网络模型。
向量数据库的现状:向量数据库领域竞争愈演愈烈,各个厂商在性能、可扩展性和集成能力等方面展开激烈竞争。然而,关键仍在于相关性——能迅速提供准确结果要比以快速的方式提供无关答案更为重要。
向量数据库利用近似最近邻(ANN)算法,这些算法可以分为几种方法:
- 基于哈希的方法(局部敏感哈希、深度哈希)
- 基于树的方法(K均值树、Annoy)
- 基于图形的技术(层级可导航小世界)
随着这些复杂性的增加,大型语言模型的初始简单性可能会让人感到不知所措。然而,如果你通过OpenAI的API生成数据的嵌入,并利用像HSNW这样的ANN来检索,那么相关性仍然是重中之重。
管理期望:在使用向量系统时,确保数据对齐满足用户意图至关重要。例如,查询“错误221”可能会返回关于“错误222”的文档,这对寻求特定解决方案的用户来说非常令人沮丧。
向量数据库的叙事:向量数据库承诺改善信息检索,但它们并非全新概念。传统数据库、SQL和NoSQL解决方案,以及像Apache Solr和Elasticsearch这样的全文搜索应用,早已提供了强大的检索能力。虽然向量数据库便于语义搜索,但在某些文本处理功能上仍显不足。因此,向量数据库不能完全取代传统数据库,也不会如一些人预期的那样主导市场。在Weaviate、Vespa和Elasticsearch等竞争者的压力下,市场竞争激烈而不断发展,但要在这个领域中生存,需要凸显特点。
炒作的危险:追逐最新趋势可能导致“闪亮物品综合症。”有效的企业搜索不仅仅是集成一个向量存储;它需要从数据结构到正确的访问控制进行全面的规划与执行。组织必须仔细评估,是否其用例真正受益于采用向量技术。
最终,用户更重视准确性而非技术细节。他们寻求可靠的答案,无论其基本搜索方法是基于向量、关键词搜索还是其他方法。专注于你的用例并验证结果,将带来更有效的解决方案。