21世纪经济报道记者白杨 北京报道
在AI大模型时代,任何能推动大模型发展的技术和产品都备受关注,向量数据库便是其中之一。
今年3月,英伟达创始人兼CEO 黄仁勋首次提及向量数据库,并强调对于构建专有大型语言模型的组织而言,向量数据库至关重要。而资本市场则用真金白银表达了对向量数据库的关注,近两个月以来,Qdrant、Chroma、Weaviate、Pinecone等海外向量数据库公司纷纷获得融资,其中Pinecone在4月份完成了1亿美元的B轮融资,估值达到7.5亿美元。
东北证券预测,到2030年,全球向量数据库市场规模有望达到500亿美元,国内向量数据库市场规模有望超过600亿人民币。
在此背景下,国内企业也在加速对向量数据库的布局。7月4日下午,腾讯云对外正式了发布AI 原生(AI Native)向量数据库——Tencent Cloud VectorDB。据介绍,该数据库是国内首个从接入层、计算层、到存储层提供全生命周期AI化的向量数据库,将于8月份登陆腾讯云官网。
那么究竟什么是向量数据库?在机器学习和数据科学中,向量通常表示为一组数字,它们构成了一个多维的数值空间。向量的每个维度代表该空间的一个不同的特征或属性,例如图像中不同像素点的颜色值、文本中每个词的出现频率等。通过对向量进行数学运算,可以实现各种机器学习算法和数据分析技术。而向量数据库是一种专门用于存储和管理向量数据的数据库。
在许多人工智能和机器学习任务中,数据都需要转换为向量形式,以便模型能够理解和处理。在自然语言处理任务中,文本数据可以通过词嵌入(word embedding)等方法转换为向量。目前,大语言模型(LLM)往往包含数十亿个参数,嵌入则已广泛作用于这些模型的训练和微调过程,使其获得执行各种NLP任务的能力。
腾讯云数据库副总经理罗云表示,向量数据库具有高效的查询和相似性搜索能力,这使得大模型可以快速地从数据库中检索相关的知识和信息。例如,在问答系统中,大模型可以根据输入问题的向量表示,在向量数据库中查找与问题相关的答案或信息。
同时,向量数据库还可以作为大模型训练过程中的数据来源。在训练过程中,大模型需要从数据库中抽取大量的向量数据进行学习。向量数据库的高效查询能力可以加速训练过程,提高模型的学习效率。
统计显示,将腾讯云向量数据库用于大模型预训练数据的分类、去重和清洗相比传统方式可以实现10倍效率的提升,如果将向量数据库作为外部知识库用于模型推理,则可以将成本降低2-4个数量级。在实际案例中,企业原先接入一个大模型需要花1个月左右时间,使用腾讯云向量数据库后,3天即可完成。
值得关注的是,在正式发布之前,腾讯云向量数据库已经经过腾讯内部海量场景的实践,并应用在腾讯视频、QQ浏览器、QQ音乐等30多款软件中。数据显示,使用腾讯云向量数据库后,QQ音乐人均听歌时长提升3.2%、腾讯视频有效曝光人均时长提升1.74%、QQ浏览器成本降低37.9%。
罗云提到,大模型的存储空间有限,目前的大模型都是预训练模型,对于训练截止日之后发生的事情一无所知。向量数据库可以通过存储最新信息后给大模型访问来弥补这点不足。此外,通过向量数据的本地存储,向量数据库能够协助解决目前企业界最担忧的大模型泄露隐私的问题。
因此,当算法和模型无法突破数据在时空纬度的限制时,LLM+外部知识库也成为一种必然的架构。业内也达成的共识是,在相似性检索方案中,向量检索是目前最成熟和有效的方案。