請輸入關鍵字:

熱門搜尋:

數據即資産:DataFi 正在開啓新藍海

日期:2025年7月23日 上午10:00

作者:Biteye核心貢獻者 @anci_hu49074

「我們正處於全球競相構建最佳基礎模型的時代。計算能力和模型架構雖然重要,但真正的護城河是訓練數據」

——Sandeep Chinchali,Story首席AI官

從Scale AI談起,聊聊AI Data賽道的潛力

要說本月AI圈最大的八卦,莫過於Meta展現鈔能力,紮克伯格四處招募人才,組建了一支以華人科研人才為主的豪華 Meta AI 團隊。領隊正是年僅 28 歲、創建了 Scale AI 的 Alexander Wang。他一手創建了Scale AI,目前估值290億美金, 服務對象既包括美國軍方,也覆蓋OpenAI、Anthropic、Meta等等的多家有競爭關係的AI巨頭,都要依靠Scale AI提供的數據服務,而Scale AI的核心業務便是提供大量準確的標注數據(labeled data)。

為什麼Scale AI可以從一眾獨角獸中脫穎而出?

原因就在於它早早發現了數據在AI産業中的重要性。

算力、模型、數據是AI模型的三大支柱。如果把大模型比成一個人的話,那麼模型是身體、算力是食物,而數據,就是知識/信息。

在LLM拔地而起發展至今的歲月裡,業界的發展重點也經歷了從模型到算力的轉移,如今大多數模型都已確立了transformer作為模型框架,偶爾創新MoE或MoRe等;各大巨頭或者是自建Super Clusters完成算力長城,或者是和AWS等實力雄厚的雲服務簽訂長期協議;搞定了算力的基礎溫飽,數據的重要性就逐漸凸顯了。

數據即資産:DataFi 正在開啓新藍海

與 Palantir 等二級市場聲名顯赫的傳統 To B 大數據公司不同,Scale AI公司如其名,致力於為AI模型打造堅實的數據基礎,其業務不止於對現有數據等挖掘,還將眼光投向更長遠的數據生成業務,並試圖通過不同領域的人工專家組成AI trainer團隊,為AI模型的訓練提供更加優質的訓練數據。

如果你對這個業務不以為然,那麼我們不妨先看看模型是如何訓練的。

模型的訓練分為兩個部分——預訓練和微調。

預訓練的部分,有點像人類的嬰兒逐漸學會說話的過程,我們通常需要的是喂給AI模型大量從網上爬蟲獲取的文本、代碼等信息,模型通過自我學習這些内容,學會說人話(學術上叫做自然語言),具備基礎的溝通能力。

微調的部分,就類似去學校讀書,通常有明確的對錯、答案和方向。學校會根據各自的定位,把學生們培養成不同的人才。而我們也會通過一些事先處理好的、有針對的數據集,把模型訓練得具備我們期待的能力。

數據即資産:DataFi 正在開啓新藍海

至此,聰明的你可能已經明了,我們需要的數據也分為兩部分。

  • 一部分數據不需要經過太多處理,足夠多就好,通常來自例如Reddit、Twitter、Github等大型UGC平台的爬蟲數據、公開文獻數據庫、企業私有數據庫等。
  • 另一部分,就像專業的課本,需要精細的設計和篩選,確保能夠培養模型特定的優良品質,這就需要我們進行一些必要的數據清洗、篩選、打標簽、人工反饋等工作。

這兩部分數據集,就構成了AI Data賽道的主體。不要小看這些看似沒什麼科技含量的數據集,目前主流觀點認為,隨著Scaling laws中算力優勢的逐漸失效,數據將成為不同大模型廠商保持競爭優勢的最重要支柱。

隨著模型能力的進一步提升,各種更加精細、專業的訓練數據將成為模型能力的關鍵影響變量。如果我們更進一步把模型的訓練比作武林高手的養成,那麼優質的數據集,就是最上乘的武功秘籍(要想把這個比喻補充完整,也可以說算力是靈丹妙藥、模型是本身資質)。

縱向來看,AI Data也是一個具備滾雪球能力的長期主義賽道,隨著前期工作的積累,數據資産也將具備復利能力,越老越吃香。

Web3 DataFi:天選AI Data沃土

相比Scale AI在菲律賓、委内瑞拉等地組建的幾十萬人的遠程人工標記團隊,Web3在進行AI 數據領域上有天然的優勢,DataFi的新名詞也隨之誕生。

在理想情況下,Web3 DataFi的優勢如下:

1. 智能合約保障的數據主權、安全和隱私

在現存公開數據即將被開發用盡的階段,如何進一步挖掘未公開數據、甚至是隱私數據,是獲取拓展數據源的一個重要方向。這就面臨一個重要的信任選擇的問題——你是選擇中心化大公司的一紙合同買斷制,出賣自己手上的數據;還是選擇區塊鏈上的方式,繼續把數據IP握在手中的同時,還能夠通過智能合約清晰明了的明白:自己的數據被何人何時何事使用。

同時,對於敏感信息,還有可以通zk、TEE等方式,保證你的隱私數據只有守口如瓶的機器經手,而不會被洩露。

2. 天然的地理套利優勢:自由的分佈式架構,吸引最適合的勞動力

或許是時候挑戰一下傳統的勞動生産關係了。與其像Scale AI這樣全世界尋找低價勞動力,不如發揮區塊鏈的分佈式特點,並通過由智能合約保障的公開、透明的激勵措施,讓分散在全世界的勞動力都能夠參與到數據貢獻中去。

對於數據打標、模型評估等人力密集工作,相比於中心化的建立數據工廠的方式,使用Web3 DataFi的方式還有利於參與者的多樣性,這對避免數據的偏見也有長遠意義。

3. 區塊鏈明確的激勵和結算優勢

如何避免「江南皮革廠」式的悲劇?自然是用智能合約明碼標價的激勵制度,取代人性的陰暗。

在不可避免的去全球化背景下,如何繼續實現低成本的地理套利?滿世界開公司顯然已經更難了,那不如繞過舊世界的藩籬,擁抱鏈上結算的方式吧。

4. 有利於構建更加高效、開放的「一條龍」數據市場

「中間商賺差價」是供需雙方永遠的痛,與其讓一個中心化的數據公司充當中間商,不如在鏈上創建平台,通過像淘寶一樣公開的市場,讓數據的供求雙方能夠更加透明、高效的對接。

隨著鏈上AI生態的發展,鏈上的數據需求將更加旺盛、細分和多樣,只有去中心化的市場能夠高效的消化這種需求,並轉化成生態的繁榮。

對於散戶而言,DataFi也是最有利於普通散戶參與的去中心化AI項目。

雖然AI工具的出現一定程度降低了學習門檻,去中心化AI的初衷也是打破當下巨頭壟斷AI生意的格局;但不得不承認,當前的許多項目對於毫無技術背景的散戶而言,可參與性並不強——參與去中心化算力網絡挖礦往往伴隨著昂貴的前期硬件投入,模型市場的技術門檻又總能輕易讓普通參與者望而卻步。

相比之下,是普通用戶可以在AI革命中抓住的為數不多的機會——Web3讓你不需要簽下一份數據血工廠的合同,只需要鼠標一點登錄下錢包,就可以通過完成各種簡單的任務參與其中,包括:提供數據、根據人腦的直覺和本能對模型進行打標、評估等簡單工作、或者進一步利用AI工具進行一些簡單的創作、參與數據交易等。對於撸毛黨老司機們,難度值基本為零。

Web3 DataFi的潛力項目

錢流向了哪裡,方向就在哪裡。除了Web2世界中 Scale AI獲Meta投資143億美金、Palantir一年内股票狂飙5倍+以外,Web3融資中,DataFi賽道的表現也十分優秀。這裡我們對這些項目做一個簡單的介紹。

數據即資産:DataFi 正在開啓新藍海

Sahara AI, @SaharaLabsAI,融資4900萬美金

Sahara AI的最終目標是打造一個去中心化AI的超級基礎設施和交易市場,試水的第一個板塊就是AI Data,其DSP (Data Services Platform,數據服務平台)公測版將於7月22日上綫,用戶可以通過貢獻數據、參與數據打標等任務獲得代幣獎勵。

鏈接:app.saharaai.com

Yupp, @yupp_ai ,融資3300萬美金

Yupp是一個AI模型的反饋平台,主要收集用戶對模型輸出内容的反饋。當前的主要任務是用戶可以對比不同模型對同一個prompt的輸出,然後評選出個人認為更好的那一個。完成任務可以獲取Yupp積分,Yupp積分可以進一步兌換成USDC等法幣穩定幣。

鏈接:https://yupp.ai/

Vana, @vana,融資2300萬美金

Vana的重點在於將用戶的個人數據(如社交媒體活動、浏覽記錄等)轉化為可貨幣化的數字資産。用戶可以授權將個人數據上傳到DataDAOs中相應的數據流動性池(DLP)中,這些數據將會被匯集起來,用於參與AI模型訓練等任務,用戶也將獲得相應的代幣獎勵。

鏈接:https://www.vana.org/collectives

Chainbase, @ChainbaseHQ,融資1650萬美金

Chainbase 的業務聚焦在鏈上數據,目前已覆蓋200多條區塊鏈,將鏈上活動化為結構化、可驗證且可貨幣化的數據資産,供dApp開發使用。Chainbase的業務主要通過多鏈索引等方式獲得,並通過其Manuscript 係統和 Theia AI 模型對數據加工,普通用戶目前可參與度不高。

Sapien, @JoinSapien,融資1550萬美金

Sapien的目標是將人類知識大規模轉化為高質量的 AI 訓練數據,任何人都可以在平台上進行數據標注工作,並通過同伴驗證的方式,保證數據的質量。同時鼓勵用戶建立長期信譽、或通過質押的方式做出承諾,賺取更多獎勵。

鏈接:https://earn.sapien.io/#hiw

Prisma X, @PrismaXai , 融資1100萬美金

Prisma X想做機器人的開放協調層,其中物理數據收集是關鍵。這個項目目前處於早期階段,根據近期剛發佈的白皮書推測,參與方式可能有投資機器人收集數據、遠程操作機器人數據等方式。目前開放基於白皮書的quiz活動,可以參與賺積分。

鏈接:https://app.prismax.ai/whitepaper

Masa,@getmasafi,融資890萬美金

Masa是Bittensor生態的頭部子網項目之一,目前運營有42號數據子網和59號Agent子網。數據子網致力於提供實時訪問數據,目前主要是礦工通過TEE硬件爬取X/Twitter上的實時數據,對於普通用戶來說,參與難度和成本都比較大。

Irys, @irys_xyz,融資870萬美金

Irys專注於可編程數據存儲和計算,旨在為 AI、去中心化應用(dApps)和其他數據密集型應用提供高效、低成本的解決方案。數據貢獻方面目前看普通用戶可以參與的不多,但當前測試網階段有多重活動可以參與。

鏈接:https://bitomokx.irys.xyz/

ORO, @getoro_xyz,融資600萬美金

ORO想做的是賦能普通人參與AI貢獻。支持的方式有:1. 鏈接自己的個人賬號貢獻個人數據,包括社交賬號、健康數據、電商金融等賬號;2.完成數據任務。目前測試網已上綫,可以參與。

鏈接:app.getoro.xyz

Gata, @Gata_xyz, 融資400萬美金

定位為去中心化數據層,Gata目前推出了三個産品key參與:1. Data Agent:一係列只要用戶打開網頁就可以自動運行處理數據的AI Agent;2. AII-in-one Chat:類似與Yupp的模型評估賺取獎勵的機制;3. GPT-to-Earn:浏覽器插件,收集用戶在 ChatGPT 上的對話數據。

鏈接:https://app.gata.xyz/dataAgent

https://chromewebstore.google.com/detail/hhibbomloleicghkgmldapmghagagfao?utm_source=item-share-cb

怎樣看當下的這些項目?

目前看這些項目壁壘普遍不高,但要承認的是,一旦積累了用戶和生態粘性,平台優勢會迅速累積,因此早期的應在激勵措施、用戶體驗上著重發力,只有吸引到足夠的用戶才能做成數據這單大生意。

不過,作為人力密集型的項目,這些數據平台在吸引人工的同時,也要考慮如何管理人工、保障數據産出的質量。畢竟Web3許多項目的通病——平台上大部分用戶都只是無情的撸毛黨——他們為了獲得短期的利益往往犧牲質量,如果放任他們成為平台主力用戶,勢必會劣幣驅逐良幣,最終使數據質量得不到保障,也無法吸引來買家。目前我們看到Sahara、 Sapien等項目都已在數據質量上有所強調,努力與平台上的人工建立長期健康的合作關係。

另外,透明度不夠,是當下鏈上項目的又一問題所在。誠然,區塊鏈的不可能三角,讓許多項目在啓動階段都只能走一條「中心化帶動去中心化」的道路。但如今越來越多的鏈上項目給人的感觀,更像「披著Web3皮的Web2舊項目」——公開的可鏈上追蹤的數據寥寥無幾,甚至路綫圖上也很難看出公開、透明的長期決心。這對於Web3 DataFi的長期健康發展無疑是有毒的,我們也期待更多項目常懷初心,加快開放、透明的步伐。

最後,DataFi的mass adoption路徑也要分為兩個部分看:一部分是吸引到足夠多toC參與者加入到這個網絡,形成數據採集/生成工程的生力軍、AI經濟的消費者,組成生態閉環;另一部分則是得到目前主流to B大公司的認可,畢竟短期看財大氣粗的他們才是數據大單的主要來源。這方面我們也看到Sahara AI、Vana等都取得了不錯的進展。

結尾

宿命論一點說,DataFi是用人類智能長期哺育機器智能,同時以智能合約為契約,保障人類智能的勞動有所收益,並最終享受機器智能的反哺。

如果你在為AI時代的不確定性焦慮,如果你在幣圈的沉浮中依然懷有區塊鏈理想,那麼跟隨一眾資本大佬的腳步,加入DataFi不失為一個順勢而為的好選擇。

内容來源:PANews

財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。

如有意願轉載,請發郵件至content@finet.com.hk,獲得書面確認及授權後,方可轉載。

下載財華財經APP,把握投資先機
https://www.finet.com.cn/app

更多精彩内容,請點擊:
財華網(https://www.finet.hk/)
財華智庫網(https://www.finet.com.cn)
現代電視FINTV(https://www.fintv.hk)

PANews

PANews是區塊鏈和Web3.0領域領先的智庫型信息平台,為行業用戶提供具有國際視野的前沿資訊與報告。PANews優質多元的内容以圖文、音頻、視頻等形式在全網多渠道覆蓋,包含推特、微博、抖音、視頻號等主流平台,旨在成為用戶的Web3信息官。PANews同時還是騰訊新聞的内容合作夥伴,内容被福佈斯、財新等媒體引用,獲得騰訊新聞、今日頭條、澎湃新聞等頒發的相關獎項。PANews的兩位聯合創始人均為福

相關文章

7月23日
某巨鯨做空1817.69枚BTC,保證金3620萬美元
7月23日
ARK Invest收購1.82億美元BMNR普通股,助力BitMine推進以太坊財庫戰略
7月23日
自7月12日以來共有18.1億枚PENGU從PENGU代幣部署地址轉出進入CEX
7月23日
WLFI關聯地址過去20分鐘累計花費2300枚USDC買入6144.97枚ETH
7月23日
韓國監管機構下令阻止該國ETF擴大對Coinbase等加密公司股票的持倉比例
7月23日
WLFI關聯地址2分鐘前再次加倉1740枚ETH,價值650萬美元
7月23日
某新建錢包2小時前從幣安提取400枚BTC,價值4749萬美元
7月23日
一以太坊IC0參與者在沉寂四年後向Kraken存入800枚ETH,價值296萬美元
7月23日
華爾街巨頭Citadel Securities呼籲美SEC不要為代幣化股票提供證券規則豁免
7月23日
以太坊驗證者退出隊列規模目前約51.9萬枚ETH,創下2024年1月以來新高

視頻

快訊

17:38
淮北綠金股份(02450.HK):完成於控股股東層面的重組
17:31
先聲藥業(02096.HK)SIM0610獲藥物臨床試驗批准通知書
17:28
香港2024年本地研發總開支達357.72億港元 按年上升8%
17:20
維立志博-B(09887.HK)LBL-024治療鉑耐藥卵巢癌Ib/II期臨床研究首例患者成功用藥
17:09
誼礫控股(00076.HK)子公司和青島公司簽訂三年合作管理合約
17:02
童園國際(03830.HK):盧鴻辭任執行董事
16:56
國家發展改革委等三部門完善幼兒園收費政策
16:43
鮑克運:按證保險公司與貸款機構繼續審慎行事 確保公共資源妥善運用
16:27
紫光國微:公司車規級域控芯片可應用於高級駕駛輔助系統相關領域
16:20
【異動股】港股跌幅榜前十,翰思艾泰-B(03378.HK)跌46.25%,偉能集團(01608.HK)跌30.81%