向量数据库
Score
⭐️⭐️⭐️
Introduction
存储、索引和搜索来自机器学习模型嵌入的海量非结构化数据集
将图片、音视频、文本等非结构化数据,通过人工智能技术提取其数据特征,并将其转换为特征向量,再对这些特征向量进行分析和检索。这种能存储,分析和检索特征向量的数据库成为向量数据库。
产品/服务
相关资料
为什么各大 VC 最近都在投向量数据库
从技术栈的角度来看,AI 时代的技术栈是 CVP( ChatGPT-Vector Database-Prompt ),这里的 C 是指以 ChatGPT 为代表的大模型,Vector Database 就是向量数据库,Prompt 也就是提示词。在实际应用过程中,真正需要用到向量数据库的并不是这些大模型本身或者说它们的需求量很小,而是基于大模型做开发的开发者。
如果我们将其对应到移动互联网时代,开发者平台 iOS 和 Android 就相当于 CVP 里的 C,而 mongoDB和 Firebase 这样的数据库就对应于 CVP 里的 V,各种前端应用对应于 CVP 里的 Prompt。
AnalyticDB(ADB)+LLM:构建AIGC时代下企业专属Chatbot
如果把满腹经纶的Chatbot比喻成人,那么大语言模型可以看成是Chatbot在大学毕业前从所有书本和各领域公开资料所获得的知识和学习推理能力。所以基于大语言模型,Chatbot能够回答截止到其毕业前相关的问题,但如果问题涉及到特定专业领域(相关资料为企业组织专有,非公开)或者是新出现的物种概念(大学毕业时尚未诞生),仅靠在学校的知识所得(对应预训练的大语言模型)则无法从容应对,需要具备毕业后持续获得新知识的渠道(如工作相关专业学习资料库),结合本身的学习推理能力,来做出专业应对。同样的Chatbot需要结合大语言模型的学习推理能力,和像ADB-PG这样包含向量检索和全文检索能力的一站式数据库(存储了企业组织专有的以及最新的知识文档和向量特征),在应对问题时具备基于该数据库中的知识内容来提供更专业更具时效性的回答。
向量数据库?不要投资!不要投资!不要投资!
为什么我不推荐现在入场投资向量数据库呢?这是因为向量数据库已经拥有了足够多的产品,而向量数据库的用户几乎总是能够在现有的市场中找到合适的产品,这使得新入场的玩家变得机会渺茫。
市场上主流的特化向量数据库与支持向量检索的数据库

Zilliz创始人兼首席执行官星爵演讲实录 | 向量数据库:大模型的记忆体
为什么我们要把私域数据和公域数据用向量数据库来做?这里有一个数据归属权的问题,我们并不愿意把这些数据交给大模型,希望可以在保留用户使用权的情况下,可以不用私人的数据进行训练,同时可以得到大语言提供的更好的知识生成、辅助解决问题的能力。
大语言模型本质上就是向量嵌入的处理器,归根结底,向量数据库负责的是向量嵌入语义数据的存储与检索。我们要把大语言模型和向量数据库分为两个模块,就是存储与计算分离,正如冯诺伊曼架构一样。
向量数据库应该会成为大语言片外存储的标配,传统的数据库之所以不适合为大模型做存储,因为没有语义表达,不能提供语义存储。