DATA·AI CON收官!向量數(shù)據(jù)庫(kù)龍頭Zilliz引領(lǐng)AI Infra新趨勢(shì)

轉(zhuǎn)載 新聞稿 | 2023年12月07日
DATA·AI CON收官!向量數(shù)據(jù)庫(kù)龍頭Zilliz引領(lǐng)AI Infra新趨勢(shì) ......

大數(shù)據(jù)和人工智能技術(shù)熱度依舊!從概念驗(yàn)證到可持續(xù)的商業(yè)模式落地,數(shù)據(jù)價(jià)值的輸出,仍需要大量的基礎(chǔ)工程研究和開發(fā)。近期,DATA · AI CON 2023 在上海拉開帷幕,包括 Zilliz 在內(nèi)的數(shù)據(jù)庫(kù)龍頭廠商受邀參加,共話行業(yè)新趨勢(shì)。

據(jù)悉,本次會(huì)議由上海白玉蘭開源開放研究院和人工智能開源軟件發(fā)展聯(lián)盟聯(lián)合主辦,并獲得了 Milvus、Ampere Computing、火山引擎、Cloudera、Apache Software Foundation、LF AI & Data Foundation 等企業(yè)和社區(qū)的強(qiáng)力支持,旨在共同推動(dòng)數(shù)據(jù)與人工智能技術(shù)的進(jìn)步與應(yīng)用領(lǐng)域的拓展。

本次會(huì)議論壇涵蓋現(xiàn)代數(shù)據(jù)架構(gòu)、數(shù)據(jù)工程與大模型落地、AI 存儲(chǔ)基礎(chǔ)設(shè)施、生成式 AI、超大規(guī)模計(jì)算、云原生等主題技術(shù)論壇。Zilliz 資深開發(fā)者關(guān)系布道師李成龍?jiān)?【AI 存儲(chǔ)基礎(chǔ)設(shè)施】論壇進(jìn)行了主題分享。

李成龍?jiān)诂F(xiàn)場(chǎng)分享

李成龍表示,當(dāng)前對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的處理主要面臨四大挑戰(zhàn):

數(shù)據(jù)體量巨大,未來(lái)超過(guò)80%的數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),AIGC 時(shí)代多模態(tài)數(shù)據(jù)的生成速度遠(yuǎn)遠(yuǎn)超過(guò)結(jié)構(gòu)化數(shù)據(jù),系統(tǒng)擴(kuò)展性性能至關(guān)重要

非結(jié)構(gòu)化數(shù)據(jù)理解困難,雖然 LLM 已經(jīng)大幅降低了非結(jié)構(gòu)化數(shù)據(jù)理解的成本,但由于數(shù)據(jù)質(zhì)量、多模態(tài),成本性能等問(wèn)題,單一大模型并不能完全解決

非結(jié)構(gòu)化數(shù)據(jù)理解的問(wèn)題,很多場(chǎng)景下依然需要多模型組合,搜索與生成結(jié)合等方法

對(duì)算力的要求巨大,推理、向量數(shù)據(jù)庫(kù)存儲(chǔ)檢索等都是算力密集型應(yīng)用。算力的需求和成本往往成為挖掘非結(jié)構(gòu)化數(shù)據(jù)的一大阻礙。 而處理非結(jié)構(gòu)化的工具卻極其短缺,雖然傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)處理并不簡(jiǎn)單,但由于 ETL、數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)等工具在過(guò)去30年的發(fā)展,已經(jīng)變得相對(duì)成熟。然而,非結(jié)構(gòu)化數(shù)據(jù)處理的工具鏈剛剛開始構(gòu)建,這就使得非結(jié)構(gòu)化數(shù)據(jù)的處理相比結(jié)構(gòu)化數(shù)據(jù)更具挑戰(zhàn)性。

在此背景下,向量數(shù)據(jù)庫(kù)應(yīng)運(yùn)而生。向量數(shù)據(jù)庫(kù)具有快速計(jì)算向量相似度的優(yōu)勢(shì),能在 N 個(gè)向量中找出與目標(biāo)向量在高維空間中最相似的前 K 個(gè)向量。目前,向量數(shù)據(jù)庫(kù)主要分為四個(gè)類別:

基于 PostgreSQL、ClickHouse 等進(jìn)行魔改或者插件化實(shí)現(xiàn)的向量數(shù)據(jù)庫(kù)。這類解決方案以現(xiàn)有的關(guān)系型數(shù)據(jù)庫(kù)或列存數(shù)據(jù)庫(kù)作為基礎(chǔ),通過(guò)修改或插件擴(kuò)展的方式添加向量搜索功能,PG Vector是這類解決方案的代表產(chǎn)品。

基于傳統(tǒng)倒排搜索添加稠密向量索引支持的向量數(shù)據(jù)庫(kù)。這類解決方案以倒排索引搜索引擎作為基礎(chǔ),通過(guò)擴(kuò)展索引機(jī)制以支持向量搜索,ElasticSearch是這類解決方案的代表產(chǎn)品。

基于向量檢索庫(kù)實(shí)現(xiàn)的輕量級(jí)向量數(shù)據(jù)庫(kù)。這類解決方案以向量搜索庫(kù)(如 Faiss)為核心,圍繞其構(gòu)建數(shù)據(jù)庫(kù)功能。這些產(chǎn)品通常具有較小的體積和較高的運(yùn)行效率,Chroma 是這類解決方案的代表產(chǎn)品。

基于原生向量設(shè)計(jì)的云原生分布式向量數(shù)據(jù)庫(kù)。這類解決方案從零開始設(shè)計(jì)和實(shí)現(xiàn)向量數(shù)據(jù)庫(kù),整個(gè)系統(tǒng)從底層到頂層都針對(duì)向量搜索進(jìn)行了優(yōu)化,通常提供了更完整和高級(jí)的功能,包括分布式計(jì)算、容災(zāi)備份、數(shù)據(jù)持久化等,Zilliz Cloud/Milvus 是這類解決方案的代表產(chǎn)品。

向量數(shù)據(jù)庫(kù)適用的業(yè)務(wù)場(chǎng)景

李成龍強(qiáng)調(diào),Milvus 經(jīng)歷了從 1.0 架構(gòu)到 2.0 架構(gòu)的升級(jí),無(wú)論在性能、成本、功能還是易用性等方面都處于行業(yè)領(lǐng)先位置,被全球超過(guò) 1000家 企業(yè)用戶所信賴,擁有超過(guò) 700 萬(wàn)次下載和安裝,最大庫(kù)規(guī)模超過(guò)20億條向量。Milvus 是為云而生的向量數(shù)據(jù)庫(kù),具備以下特性:

分布式云原生,基于 K8s 進(jìn)行微服務(wù)化設(shè)計(jì);

存儲(chǔ)計(jì)算分離,彈性擴(kuò)縮容;

高可用,故障分鐘級(jí)恢復(fù);

百億級(jí)向量的擴(kuò)展能力;

基于消息隊(duì)列實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)增刪;

集成 OpenAI、LangChain、Huggingface、Pytorch 等 AI 生態(tài);

強(qiáng)大的生態(tài)工具 - GUI、CLI、監(jiān)控,備份。

值得一提的是 Zilliz Cloud,它是 Zilliz 公司基于開源向量數(shù)據(jù)庫(kù)打造的全托管企業(yè)級(jí)向量檢索服務(wù),分為 SaaS 和 PaaS 兩個(gè)版本,面向不同需求和不同部署環(huán)境。李成龍?zhí)岬剑琙illiz Cloud 基于 Zilliz 自研的向量檢索引擎 Cardinal,性能成本相比于開源提升3 倍。此外,Zilliz Cloud 提供大量企業(yè)級(jí)功能,助力用戶聚焦業(yè)務(wù)邏輯,Zilliz Cloud目前已經(jīng)登陸 AWS、GCP、Azure 和阿里云,即將登陸金山云。

標(biāo)簽:Zilliz Cloud

用戶名:  密碼:  沒(méi)有注冊(cè)?
網(wǎng)友評(píng)論:(請(qǐng)各位網(wǎng)友遵紀(jì)守法并注意語(yǔ)言文明,評(píng)論僅供參考不代表本站立場(chǎng))