DATA·AI CON收官!向量數(shù)據(jù)庫(kù)龍頭Zilliz引領(lǐng)AI Infra新趨勢(shì)
大數(shù)據(jù)和人工智能技術(shù)熱度依舊!從概念驗(yàn)證到可持續(xù)的商業(yè)模式落地,數(shù)據(jù)價(jià)值的輸出,仍需要大量的基礎(chǔ)工程研究和開發(fā)。近期,DATA · AI CON 2023 在上海拉開帷幕,包括 Zilliz 在內(nèi)的數(shù)據(jù)庫(kù)龍頭廠商受邀參加,共話行業(yè)新趨勢(shì)。
據(jù)悉,本次會(huì)議由上海白玉蘭開源開放研究院和人工智能開源軟件發(fā)展聯(lián)盟聯(lián)合主辦,并獲得了 Milvus、Ampere Computing、火山引擎、Cloudera、Apache Software Foundation、LF AI & Data Foundation 等企業(yè)和社區(qū)的強(qiáng)力支持,旨在共同推動(dòng)數(shù)據(jù)與人工智能技術(shù)的進(jìn)步與應(yīng)用領(lǐng)域的拓展。
本次會(huì)議論壇涵蓋現(xiàn)代數(shù)據(jù)架構(gòu)、數(shù)據(jù)工程與大模型落地、AI 存儲(chǔ)基礎(chǔ)設(shè)施、生成式 AI、超大規(guī)模計(jì)算、云原生等主題技術(shù)論壇。Zilliz 資深開發(fā)者關(guān)系布道師李成龍?jiān)?【AI 存儲(chǔ)基礎(chǔ)設(shè)施】論壇進(jìn)行了主題分享。

李成龍表示,當(dāng)前對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的處理主要面臨四大挑戰(zhàn):
數(shù)據(jù)體量巨大,未來(lái)超過(guò)80%的數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),AIGC 時(shí)代多模態(tài)數(shù)據(jù)的生成速度遠(yuǎn)遠(yuǎn)超過(guò)結(jié)構(gòu)化數(shù)據(jù),系統(tǒng)擴(kuò)展性性能至關(guān)重要
非結(jié)構(gòu)化數(shù)據(jù)理解困難,雖然 LLM 已經(jīng)大幅降低了非結(jié)構(gòu)化數(shù)據(jù)理解的成本,但由于數(shù)據(jù)質(zhì)量、多模態(tài),成本性能等問(wèn)題,單一大模型并不能完全解決
非結(jié)構(gòu)化數(shù)據(jù)理解的問(wèn)題,很多場(chǎng)景下依然需要多模型組合,搜索與生成結(jié)合等方法
對(duì)算力的要求巨大,推理、向量數(shù)據(jù)庫(kù)存儲(chǔ)檢索等都是算力密集型應(yīng)用。算力的需求和成本往往成為挖掘非結(jié)構(gòu)化數(shù)據(jù)的一大阻礙。 而處理非結(jié)構(gòu)化的工具卻極其短缺,雖然傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)處理并不簡(jiǎn)單,但由于 ETL、數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)等工具在過(guò)去30年的發(fā)展,已經(jīng)變得相對(duì)成熟。然而,非結(jié)構(gòu)化數(shù)據(jù)處理的工具鏈剛剛開始構(gòu)建,這就使得非結(jié)構(gòu)化數(shù)據(jù)的處理相比結(jié)構(gòu)化數(shù)據(jù)更具挑戰(zhàn)性。
在此背景下,向量數(shù)據(jù)庫(kù)應(yīng)運(yùn)而生。向量數(shù)據(jù)庫(kù)具有快速計(jì)算向量相似度的優(yōu)勢(shì),能在 N 個(gè)向量中找出與目標(biāo)向量在高維空間中最相似的前 K 個(gè)向量。目前,向量數(shù)據(jù)庫(kù)主要分為四個(gè)類別:
基于 PostgreSQL、ClickHouse 等進(jìn)行魔改或者插件化實(shí)現(xiàn)的向量數(shù)據(jù)庫(kù)。這類解決方案以現(xiàn)有的關(guān)系型數(shù)據(jù)庫(kù)或列存數(shù)據(jù)庫(kù)作為基礎(chǔ),通過(guò)修改或插件擴(kuò)展的方式添加向量搜索功能,PG Vector是這類解決方案的代表產(chǎn)品。
基于傳統(tǒng)倒排搜索添加稠密向量索引支持的向量數(shù)據(jù)庫(kù)。這類解決方案以倒排索引搜索引擎作為基礎(chǔ),通過(guò)擴(kuò)展索引機(jī)制以支持向量搜索,ElasticSearch是這類解決方案的代表產(chǎn)品。
基于向量檢索庫(kù)實(shí)現(xiàn)的輕量級(jí)向量數(shù)據(jù)庫(kù)。這類解決方案以向量搜索庫(kù)(如 Faiss)為核心,圍繞其構(gòu)建數(shù)據(jù)庫(kù)功能。這些產(chǎn)品通常具有較小的體積和較高的運(yùn)行效率,Chroma 是這類解決方案的代表產(chǎn)品。
基于原生向量設(shè)計(jì)的云原生分布式向量數(shù)據(jù)庫(kù)。這類解決方案從零開始設(shè)計(jì)和實(shí)現(xiàn)向量數(shù)據(jù)庫(kù),整個(gè)系統(tǒng)從底層到頂層都針對(duì)向量搜索進(jìn)行了優(yōu)化,通常提供了更完整和高級(jí)的功能,包括分布式計(jì)算、容災(zāi)備份、數(shù)據(jù)持久化等,Zilliz Cloud/Milvus 是這類解決方案的代表產(chǎn)品。

向量數(shù)據(jù)庫(kù)適用的業(yè)務(wù)場(chǎng)景
李成龍強(qiáng)調(diào),Milvus 經(jīng)歷了從 1.0 架構(gòu)到 2.0 架構(gòu)的升級(jí),無(wú)論在性能、成本、功能還是易用性等方面都處于行業(yè)領(lǐng)先位置,被全球超過(guò) 1000家 企業(yè)用戶所信賴,擁有超過(guò) 700 萬(wàn)次下載和安裝,最大庫(kù)規(guī)模超過(guò)20億條向量。Milvus 是為云而生的向量數(shù)據(jù)庫(kù),具備以下特性:
分布式云原生,基于 K8s 進(jìn)行微服務(wù)化設(shè)計(jì);
存儲(chǔ)計(jì)算分離,彈性擴(kuò)縮容;
高可用,故障分鐘級(jí)恢復(fù);
百億級(jí)向量的擴(kuò)展能力;
基于消息隊(duì)列實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)增刪;
集成 OpenAI、LangChain、Huggingface、Pytorch 等 AI 生態(tài);
強(qiáng)大的生態(tài)工具 - GUI、CLI、監(jiān)控,備份。
值得一提的是 Zilliz Cloud,它是 Zilliz 公司基于開源向量數(shù)據(jù)庫(kù)打造的全托管企業(yè)級(jí)向量檢索服務(wù),分為 SaaS 和 PaaS 兩個(gè)版本,面向不同需求和不同部署環(huán)境。李成龍?zhí)岬剑琙illiz Cloud 基于 Zilliz 自研的向量檢索引擎 Cardinal,性能成本相比于開源提升3 倍。此外,Zilliz Cloud 提供大量企業(yè)級(jí)功能,助力用戶聚焦業(yè)務(wù)邏輯,Zilliz Cloud目前已經(jīng)登陸 AWS、GCP、Azure 和阿里云,即將登陸金山云。
大家都在看

重磅推薦
Redmi十周年迎來(lái)“全面進(jìn)化”時(shí)刻,K70系列三杯齊發(fā)、引領(lǐng)“性能AI革命”
先鋒移動(dòng)技術(shù)融合解構(gòu)美學(xué)設(shè)計(jì) 三星Galaxy Z Flip5 Maison Margiela限量版亮相
聯(lián)發(fā)科天璣9300 AI性能大爆發(fā),1秒內(nèi)極速生成高質(zhì)量圖片
阿里安全參展世界互聯(lián)網(wǎng)大會(huì) 為“負(fù)責(zé)任的人工智能”保駕護(hù)航
赫力昂攜手阿里云及埃森哲探討如何利用負(fù)責(zé)任的AI推進(jìn)健康可及性
天璣9300率先成功在端側(cè)運(yùn)行130億參數(shù)AI大語(yǔ)言模型,讓生成式AI觸手可及
構(gòu)建系統(tǒng)安全“堡壘” OpenHarmony技術(shù)大會(huì)OS安全分論壇意義深遠(yuǎn)
vivo發(fā)布自研藍(lán)心大模型及藍(lán)河操作系統(tǒng) OriginOS 4同期亮相