智能涌現(xiàn)獲悉,「卓印智能」獲得千萬級(jí)天使輪融資,由天使灣創(chuàng)投獨(dú)家投資。
如今,隨著通用大模型規(guī)模的迅速擴(kuò)大,數(shù)據(jù)短缺已經(jīng)成為一個(gè)更現(xiàn)實(shí)而迫切的問題。早在2022年11月,就有MIT等研究人員發(fā)布相關(guān)論文,指機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)在2026年之前耗盡所有“高質(zhì)量數(shù)據(jù)”。
AI模型需要大量高質(zhì)量的訓(xùn)練數(shù)據(jù),才能生成準(zhǔn)確、多樣、無偏見的輸出,但獲取這種數(shù)據(jù)的成本和難度都很高——因此,合成數(shù)據(jù)成為一個(gè)有效解決手段。現(xiàn)在,包括微軟、OpenAI、Cohere在內(nèi)的公司都已經(jīng)開始使用合成數(shù)據(jù)來訓(xùn)練AI模型。
Gartner表示,在2021年,所有人工智能訓(xùn)練數(shù)據(jù)中只有1%是合成數(shù)據(jù),但到2024年底,合成數(shù)據(jù)可能會(huì)達(dá)到60%。而據(jù)plug and play預(yù)測(cè),到2030年全球合成數(shù)據(jù)市場將會(huì)達(dá)到千億美元。
「卓印智能」(Join AI)正是基于這樣的背景,于2022年成立。團(tuán)隊(duì)先從自動(dòng)駕駛賽道切入,為客戶提供高質(zhì)量的合成數(shù)據(jù)服務(wù)。截至2024年5月,團(tuán)隊(duì)已經(jīng)獲得自動(dòng)駕駛、機(jī)器人領(lǐng)域多個(gè)頭部客戶超2000萬的訂單。
和傳統(tǒng)的訓(xùn)練數(shù)據(jù)獲取方式相比,卓印智能選擇了“全自動(dòng)”路線——端到端地生成訓(xùn)練數(shù)據(jù)。2023年,卓印智能基于自研擴(kuò)散模型和世界模型技術(shù)路線,推出了AI訓(xùn)練數(shù)據(jù)生成模型“Simulaix”。
Simulaix可以生成媲美真實(shí)采集效果的生成數(shù)據(jù),并可以在生成圖像過程中直接根據(jù)生成邏輯自動(dòng)提取同步生成標(biāo)注區(qū)域,供企業(yè)客戶直接使用。截至2023年Q4,Simulaix已經(jīng)成功幫助企業(yè)客戶提升了 10%以上的模型效果。
創(chuàng)始人俞開文博士有多年AI算法、技術(shù)架構(gòu)經(jīng)驗(yàn),曾經(jīng)歷任螞蟻、百度等大廠中的資深A(yù)I架構(gòu)師,有豐富的大型To B項(xiàng)目落地經(jīng)驗(yàn)。他告訴智能涌現(xiàn),從數(shù)據(jù)角度,優(yōu)質(zhì)數(shù)據(jù)的短缺一直是困擾AI賽道的難題。
“在各式各樣的AI算法研究上,訓(xùn)練數(shù)據(jù)的獲取都需要大量時(shí)間和金錢成本,AI工程師總是為數(shù)據(jù)所困。在很多項(xiàng)目里甚至?xí)贸^一半的時(shí)間來處理訓(xùn)練數(shù)據(jù)。”俞開文博士表示。但他認(rèn)為生成式AI技術(shù)的出現(xiàn)會(huì)為這個(gè)行業(yè)帶來質(zhì)的飛躍。
此前,在以識(shí)別為主的AI 1.0時(shí)代,訓(xùn)練數(shù)據(jù)的獲取已經(jīng)是一個(gè)較為成熟的“勞動(dòng)密集型”行業(yè):企業(yè)將需求外包給數(shù)據(jù)采集、標(biāo)注公司,這些公司需要用帶有傳感器的設(shè)備采集原始數(shù)據(jù),經(jīng)過清洗、篩選后再交給標(biāo)注員對(duì)數(shù)據(jù)進(jìn)行切割和標(biāo)注——指出圖上A部分是紅綠燈、B部分是車輛等等。AI模型則通過對(duì)「帶有標(biāo)注信息的訓(xùn)練數(shù)據(jù)集」進(jìn)行“學(xué)習(xí)”,才會(huì)越來越智能。
而合成數(shù)據(jù)解決方案的出現(xiàn)會(huì)對(duì)這一現(xiàn)狀產(chǎn)生根本性影響。
首先,在成本側(cè),數(shù)據(jù)采集的成本將會(huì)逼近于0,數(shù)據(jù)標(biāo)注的成本也會(huì)迎來大幅下降。“從我們已經(jīng)落地的客戶案例來看,使用合成數(shù)據(jù)后,客戶的數(shù)據(jù)成本能夠下降80%-90%,”俞開文博士表示。
不過,合成數(shù)據(jù)能發(fā)揮更大作用之處,在于能夠增加高質(zhì)量數(shù)據(jù)的供給,從而撬動(dòng)更多數(shù)據(jù)需求。
以數(shù)據(jù)需求為高質(zhì)量圖像數(shù)據(jù)的自動(dòng)駕駛為例,相比大語言模型需要的文本數(shù)據(jù),高質(zhì)量圖像數(shù)據(jù)的獲取受限于更多的技術(shù)和法律障礙。數(shù)字化圖像的采集不僅依賴于高級(jí)的傳感器技術(shù),還必須應(yīng)對(duì)版權(quán)、隱私以及跨國法規(guī)等問題。
譬如目前廣泛被用戶所詬病的低矮障礙物識(shí)別問題——對(duì)路面低矮的石墩、倒地的自行車等識(shí)別不準(zhǔn)等問題,就是因?yàn)橛?xùn)練數(shù)據(jù)中corner case(罕見案例,即低頻遇到的現(xiàn)場情況)大量不足所導(dǎo)致的。這樣的數(shù)據(jù)很難通過傳統(tǒng)的數(shù)據(jù)采集和標(biāo)注來獲得。
合成數(shù)據(jù)則能很好地解決這些“稀缺但重要”的場景訴求。
從技術(shù)路線上看,卓印選擇了端到端生成的技術(shù)方案。簡單而言,卓印智能相當(dāng)于是訓(xùn)練了一個(gè)專用的AI大模型,用以端到端地生成合成數(shù)據(jù),省去大部分的人工成本。
事實(shí)上,合成數(shù)據(jù)賽道在AI出現(xiàn)時(shí)就已經(jīng)存在,主流技術(shù)路線有數(shù)據(jù)增強(qiáng)、仿真、數(shù)據(jù)生成等。以數(shù)據(jù)仿真的合成方式為例,此前是通過類似3D圖形的引擎,構(gòu)建一個(gè)虛擬的世界,在“世界”中生成自己需要的數(shù)據(jù)。
但構(gòu)建這樣的虛擬世界,通常需要詳細(xì)的領(lǐng)域知識(shí)和物理模型,來確保生成數(shù)據(jù)的真實(shí)性和有效性。反映到實(shí)際使用上,現(xiàn)在數(shù)據(jù)仿真的方式成本還是較高,并且受限于引擎的基礎(chǔ)能力,數(shù)據(jù)真實(shí)性也有局限。
俞開文博士表示,雖然通過生成式AI來獲取合成數(shù)據(jù)的技術(shù)路線還有不少挑戰(zhàn),但在成本和真實(shí)性上具有獨(dú)特的優(yōu)越性,且隨著AI技術(shù)的發(fā)展,優(yōu)勢(shì)將會(huì)進(jìn)一步放大。
目前,卓印智能選擇先在場景復(fù)雜、數(shù)據(jù)需求大的領(lǐng)域切入市場,來完成早期的商業(yè)拓展,比如自動(dòng)駕駛、工業(yè)等賽道。俞開文博士認(rèn)為,比如在具身智能等其他大模型領(lǐng)域,客戶也會(huì)有大量高質(zhì)量數(shù)據(jù)的需求,這些都是卓印所看重的方向。
本輪融資后,卓印智能將著重投入到以Simulaix為核心的交付能力提升,以及自研世界模型“Terra-1”的商業(yè)落地驗(yàn)證上。
卓印智能希望,能夠通過模擬各式各樣的圖像傳感器“看到的”真實(shí)世界來助力AI對(duì)現(xiàn)實(shí)世界的理解,用技術(shù)創(chuàng)新推動(dòng)AI行業(yè)前進(jìn)。“未來,數(shù)據(jù)將像電力一樣,變得便宜、易于獲取,成為推動(dòng)AI發(fā)展的基石。”俞開文博士表示。
電話:0571-89939639
郵箱:fh@fenghuizixun.com
地址:浙江省杭州市濱江區(qū)浦沿街道六和路368號(hào)一幢(北)三樓B3288室