智能涌現(xiàn)獲悉,「卓印智能」獲得千萬(wàn)級(jí)天使輪融資,由天使灣創(chuàng)投獨(dú)家投資。
如今,隨著通用大模型規(guī)模的迅速擴(kuò)大,數(shù)據(jù)短缺已經(jīng)成為一個(gè)更現(xiàn)實(shí)而迫切的問(wèn)題。早在2022年11月,就有MIT等研究人員發(fā)布相關(guān)論文,指機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)在2026年之前耗盡所有“高質(zhì)量數(shù)據(jù)”。
AI模型需要大量高質(zhì)量的訓(xùn)練數(shù)據(jù),才能生成準(zhǔn)確、多樣、無(wú)偏見(jiàn)的輸出,但獲取這種數(shù)據(jù)的成本和難度都很高——因此,合成數(shù)據(jù)成為一個(gè)有效解決手段?,F(xiàn)在,包括微軟、OpenAI、Cohere在內(nèi)的公司都已經(jīng)開(kāi)始使用合成數(shù)據(jù)來(lái)訓(xùn)練AI模型。
Gartner表示,在2021年,所有人工智能訓(xùn)練數(shù)據(jù)中只有1%是合成數(shù)據(jù),但到2024年底,合成數(shù)據(jù)可能會(huì)達(dá)到60%。而據(jù)plug and play預(yù)測(cè),到2030年全球合成數(shù)據(jù)市場(chǎng)將會(huì)達(dá)到千億美元。
「卓印智能」(Join AI)正是基于這樣的背景,于2022年成立。團(tuán)隊(duì)先從自動(dòng)駕駛賽道切入,為客戶(hù)提供高質(zhì)量的合成數(shù)據(jù)服務(wù)。截至2024年5月,團(tuán)隊(duì)已經(jīng)獲得自動(dòng)駕駛、機(jī)器人領(lǐng)域多個(gè)頭部客戶(hù)超2000萬(wàn)的訂單。
和傳統(tǒng)的訓(xùn)練數(shù)據(jù)獲取方式相比,卓印智能選擇了“全自動(dòng)”路線——端到端地生成訓(xùn)練數(shù)據(jù)。2023年,卓印智能基于自研擴(kuò)散模型和世界模型技術(shù)路線,推出了AI訓(xùn)練數(shù)據(jù)生成模型“Simulaix”。
Simulaix可以生成媲美真實(shí)采集效果的生成數(shù)據(jù),并可以在生成圖像過(guò)程中直接根據(jù)生成邏輯自動(dòng)提取同步生成標(biāo)注區(qū)域,供企業(yè)客戶(hù)直接使用。截至2023年Q4,Simulaix已經(jīng)成功幫助企業(yè)客戶(hù)提升了 10%以上的模型效果。
創(chuàng)始人俞開(kāi)文博士有多年AI算法、技術(shù)架構(gòu)經(jīng)驗(yàn),曾經(jīng)歷任螞蟻、百度等大廠中的資深A(yù)I架構(gòu)師,有豐富的大型To B項(xiàng)目落地經(jīng)驗(yàn)。他告訴智能涌現(xiàn),從數(shù)據(jù)角度,優(yōu)質(zhì)數(shù)據(jù)的短缺一直是困擾AI賽道的難題。
“在各式各樣的AI算法研究上,訓(xùn)練數(shù)據(jù)的獲取都需要大量時(shí)間和金錢(qián)成本,AI工程師總是為數(shù)據(jù)所困。在很多項(xiàng)目里甚至?xí)贸^(guò)一半的時(shí)間來(lái)處理訓(xùn)練數(shù)據(jù)。”俞開(kāi)文博士表示。但他認(rèn)為生成式AI技術(shù)的出現(xiàn)會(huì)為這個(gè)行業(yè)帶來(lái)質(zhì)的飛躍。
此前,在以識(shí)別為主的AI 1.0時(shí)代,訓(xùn)練數(shù)據(jù)的獲取已經(jīng)是一個(gè)較為成熟的“勞動(dòng)密集型”行業(yè):企業(yè)將需求外包給數(shù)據(jù)采集、標(biāo)注公司,這些公司需要用帶有傳感器的設(shè)備采集原始數(shù)據(jù),經(jīng)過(guò)清洗、篩選后再交給標(biāo)注員對(duì)數(shù)據(jù)進(jìn)行切割和標(biāo)注——指出圖上A部分是紅綠燈、B部分是車(chē)輛等等。AI模型則通過(guò)對(duì)「帶有標(biāo)注信息的訓(xùn)練數(shù)據(jù)集」進(jìn)行“學(xué)習(xí)”,才會(huì)越來(lái)越智能。
而合成數(shù)據(jù)解決方案的出現(xiàn)會(huì)對(duì)這一現(xiàn)狀產(chǎn)生根本性影響。
首先,在成本側(cè),數(shù)據(jù)采集的成本將會(huì)逼近于0,數(shù)據(jù)標(biāo)注的成本也會(huì)迎來(lái)大幅下降。“從我們已經(jīng)落地的客戶(hù)案例來(lái)看,使用合成數(shù)據(jù)后,客戶(hù)的數(shù)據(jù)成本能夠下降80%-90%,”俞開(kāi)文博士表示。
不過(guò),合成數(shù)據(jù)能發(fā)揮更大作用之處,在于能夠增加高質(zhì)量數(shù)據(jù)的供給,從而撬動(dòng)更多數(shù)據(jù)需求。
以數(shù)據(jù)需求為高質(zhì)量圖像數(shù)據(jù)的自動(dòng)駕駛為例,相比大語(yǔ)言模型需要的文本數(shù)據(jù),高質(zhì)量圖像數(shù)據(jù)的獲取受限于更多的技術(shù)和法律障礙。數(shù)字化圖像的采集不僅依賴(lài)于高級(jí)的傳感器技術(shù),還必須應(yīng)對(duì)版權(quán)、隱私以及跨國(guó)法規(guī)等問(wèn)題。
譬如目前廣泛被用戶(hù)所詬病的低矮障礙物識(shí)別問(wèn)題——對(duì)路面低矮的石墩、倒地的自行車(chē)等識(shí)別不準(zhǔn)等問(wèn)題,就是因?yàn)橛?xùn)練數(shù)據(jù)中corner case(罕見(jiàn)案例,即低頻遇到的現(xiàn)場(chǎng)情況)大量不足所導(dǎo)致的。這樣的數(shù)據(jù)很難通過(guò)傳統(tǒng)的數(shù)據(jù)采集和標(biāo)注來(lái)獲得。
合成數(shù)據(jù)則能很好地解決這些“稀缺但重要”的場(chǎng)景訴求。
從技術(shù)路線上看,卓印選擇了端到端生成的技術(shù)方案。簡(jiǎn)單而言,卓印智能相當(dāng)于是訓(xùn)練了一個(gè)專(zhuān)用的AI大模型,用以端到端地生成合成數(shù)據(jù),省去大部分的人工成本。
事實(shí)上,合成數(shù)據(jù)賽道在AI出現(xiàn)時(shí)就已經(jīng)存在,主流技術(shù)路線有數(shù)據(jù)增強(qiáng)、仿真、數(shù)據(jù)生成等。以數(shù)據(jù)仿真的合成方式為例,此前是通過(guò)類(lèi)似3D圖形的引擎,構(gòu)建一個(gè)虛擬的世界,在“世界”中生成自己需要的數(shù)據(jù)。
但構(gòu)建這樣的虛擬世界,通常需要詳細(xì)的領(lǐng)域知識(shí)和物理模型,來(lái)確保生成數(shù)據(jù)的真實(shí)性和有效性。反映到實(shí)際使用上,現(xiàn)在數(shù)據(jù)仿真的方式成本還是較高,并且受限于引擎的基礎(chǔ)能力,數(shù)據(jù)真實(shí)性也有局限。
俞開(kāi)文博士表示,雖然通過(guò)生成式AI來(lái)獲取合成數(shù)據(jù)的技術(shù)路線還有不少挑戰(zhàn),但在成本和真實(shí)性上具有獨(dú)特的優(yōu)越性,且隨著AI技術(shù)的發(fā)展,優(yōu)勢(shì)將會(huì)進(jìn)一步放大。
目前,卓印智能選擇先在場(chǎng)景復(fù)雜、數(shù)據(jù)需求大的領(lǐng)域切入市場(chǎng),來(lái)完成早期的商業(yè)拓展,比如自動(dòng)駕駛、工業(yè)等賽道。俞開(kāi)文博士認(rèn)為,比如在具身智能等其他大模型領(lǐng)域,客戶(hù)也會(huì)有大量高質(zhì)量數(shù)據(jù)的需求,這些都是卓印所看重的方向。
本輪融資后,卓印智能將著重投入到以Simulaix為核心的交付能力提升,以及自研世界模型“Terra-1”的商業(yè)落地驗(yàn)證上。
卓印智能希望,能夠通過(guò)模擬各式各樣的圖像傳感器“看到的”真實(shí)世界來(lái)助力AI對(duì)現(xiàn)實(shí)世界的理解,用技術(shù)創(chuàng)新推動(dòng)AI行業(yè)前進(jìn)。“未來(lái),數(shù)據(jù)將像電力一樣,變得便宜、易于獲取,成為推動(dòng)AI發(fā)展的基石。”俞開(kāi)文博士表示。
電話:0571-89939639
郵箱:fh@fenghuizixun.com
地址:浙江省杭州市濱江區(qū)浦沿街道六和路368號(hào)一幢(北)三樓B3288室