請輸入關鍵字:

熱門搜尋:

15年來,你一直在為谷歌訓練AI——只是你從不知道

 
日期: 2026年3月18日 下午2:52
每次你在網頁上點擊"識別交通燈"或"選出所有人行橫道",你以為自己只是在證明自己不是機器人。但事實上,你是在為谷歌的AI係統免費標注訓練數據。這件事持續了超過15年,涉及全球數億用戶,最終構建了谷歌地圖的視覺識別能力,以及如今估值高達450億美元的自動駕駛公司Waymo。整個過程中,沒有人徵求過你的同意,沒有人告訴過你真相,更沒有人給你一分報酬。 原文:@sharbel 編譯:大鉗子 | PANews 龍蝦

50萬小時的免費人工勞動。每天如此。由那些以為自己只是在登錄銀行賬戶的人貢獻的。

reCAPTCHA是互聯網歷史上最成功的隱形數據收割行動。鼎盛時期每天有2億人在完成它的驗證。其中幾乎沒有人知道自己究竟在建造什麼。

Waymo——谷歌旗下的自動駕駛汽車公司——如今估值450億美元。它有相當一部分關鍵訓練數據來自你。免費的。來自你訪問過的每一個網站。

以下是完整的故事。

起點:一個聰明的點子

2000年,垃圾郵件機器人正在摧毀整個互聯網。論壇被灌水淹沒,郵箱不堪重負。網站迫切需要一種將人類與機器區分開來的方法。

卡内基梅隆大學教授路易斯·馮·安解決了這個問題。他發明了CAPTCHA:一種只有人類才能識讀的扭曲文字。機器人無法通過,人類則可以。

但馮·安看到了更多的可能性。數以百萬計的人正在將認知精力耗費在這些驗證上。如果這種精力可以同時做兩件事呢?

2007年,他推出了reCAPTCHA。其中的妙招在於:它展示的不是隨機的亂碼,而是兩個詞。其中一個係統已知,另一個則來自計算機尚無法識別的真實掃描書籍。你的回答幫助完成了數字化工作。

這些書來自《紐約時報》檔案庫,也來自谷歌圖書——涉及多達1.3億冊圖書。

你以為自己在登錄,實際上你在為世界上最大的數字圖書館做OCR(光學字符識別)。

2009年,谷歌收購了reCAPTCHA。

圖像

谷歌改變了遊戲規則

扭曲文字的時代在2012年前後終結。

谷歌面臨了一個新問題。街景拍攝車正在拍攝地球上的每一條道路,但照片只是原始數據。要讓AI真正有用,它需要理解自己"看到"的内容:路牌、人行橫道、交通信號燈、店面招牌。

於是谷歌重新設計了reCAPTCHA v2。驗證内容從扭曲文字變成了圖片網格:"點擊所有包含交通信號燈的方格。" "選出每一處人行橫道。" "識別店面招牌。"

這些圖片直接來自谷歌街景。

而你的每一次點擊就是標注。你的每一次選擇都在告訴谷歌的計算機視覺模型:這個像素塊是交通信號燈,這個形狀是人行橫道。

你不是在通過測試,你是在構建數據集。

圖像

沒有人談論的規模

鼎盛時期,每天有2億次reCAPTCHA被完成。

每次驗證約需10秒,這意味著每天有20億秒的人工勞動——換算下來,每天50萬小時

專業數據標注的市場價格為每小時10至50美元。按最低價計算:每天被免費提取的勞動價值高達500萬美元。

而且reCAPTCHA並不只存在於某一個應用上,它遍佈每一家銀行、每一個政府門戶網站、每一個電商平台、互聯網上的每一個登錄頁面。你別無選擇。想訪問你的賬戶?先標注數據集。

谷歌從未徵詢你的意見,從未向你付費,甚至從未告訴你這件事。

圖像

這一切構建了什麼

這些數據直接輸送給了兩款産品。

谷歌地圖。 全球使用最廣泛的導航工具。它識讀路牌、定位商家、理解城市地理的能力,部分正是建立在那些試圖登錄網站的人貢獻的數十億次人工標注之上。

還有Waymo。

Waymo是谷歌的自動駕駛汽車項目,2016年獨立成為子公司。為了安全導航,自動駕駛汽車需要以接近完美的準確率識別數千種視覺模式:交通信號燈、人行橫道、行人、停車標誌。

這些識別能力所需的真實訓練數據?由數以百萬計的人通過reCAPTCHA完成標注——他們對此毫不知情。

2024年,Waymo完成了逾400萬次付費出行,目前運營於舊金山、洛杉矶和鳳凰城,且仍在持續擴張。其估值為450億美元

而這座大廈的地基,是由那些只想收發電子郵件的免費互聯網用戶建造的。

為什麼沒有人能復制這一切

數據標注成本高昂。Scale AI、Appen、Labelbox等公司存在的唯一意義就是解決這個問題。它們僱用了數十萬名工人來標注圖像,有時每小時報酬不足一美元。

谷歌用一種截然不同的方式解決了這個問題:他們把標注變成了強制性的。不給報酬,不需同意,而是作為進入網絡上每個網站的"入場費"。

結果:數十億張已標注圖像,覆蓋全球,涵蓋各種天氣條件、各個時段、地球上的每一座城市。

沒有任何標注公司能夠做到這一點。互聯網本身就是那座工廠,而每一個身處其中的人都是從未簽過合同的員工。

圖像

你今天還在做的事

2018年推出的reCAPTCHA v3根本不會向你展示任何驗證挑戰。它觀察的是你移動鼠標的方式、滾動頁面的方式、懸停的時長。你的行為指紋告訴它你是否是人類。

這些行為數據同樣被反饋給谷歌的AI係統。

你從未主動選擇加入,從來沒有一個復選框供你勾選。此刻,在你訪問的大多數網站上,你依然在這樣做。

一個令所有人都該深思的諷刺

路易斯·馮·安最初的構想是天才之舉:將人類原本就耗費在垃圾過濾上的認知精力,重新導向某件有價值的事情——將世界上的書籍數字化,解決一個真實存在的問題。

而谷歌對這個構想的運用,是另一回事。

他們拿走了一個用戶別無選擇、只能使用的安全機制,將其部署到整個互聯網,並收割輸出成果,構建起價值數百億美元的商業産品。

用戶什麼都沒有得到,甚至連知情權都沒有。

最深的諷刺在於:你花了多年時間證明自己是人類——方式是做那種AI當時還無法完成的視覺識別工作。而當這項工作一旦被AI學會,人類的視覺標注便變得多餘了。

你證明了自己是人類,方式是讓自己變得可被替代。

來源:卡内基梅隆大學、谷歌博客(2009年)、WebProNews、MakeUseOf、MIT技術評論、Waymo公開披露文件。

内容來源:PANews

財華網所刊載內容之知識產權為財華網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、複製及建立鏡像等任何使用。

如有意願轉載,請發郵件至 content@finet.com.hk,獲得書面確認及授權後,方可轉載。

更多精彩内容,請點擊: 財華網(https://www.finet.hk/) 財華智庫網(https://www.finet.com.cn) 現代電視FINTV(http://www.fintv.hk)

PANews

PANews是區塊鏈和Web3.0領域領先的智庫型信息平台,為行業用戶提供具有國際視野的前沿資訊與報告。PANews優質多元的内容以圖文、音頻、視頻等形式在全網多渠道覆蓋,包含推特、微博、抖音、視頻號等主流平台,旨在成為用戶的Web3信息官。PANews同時還是騰訊新聞的内容合作夥伴,内容被福佈斯、財新等媒體引用,獲得騰訊新聞、今日頭條、澎湃新聞等頒發的相關獎項。PANews的兩位聯合創始人均為福

視頻

快訊

17:24
香港證監會:偉業控股(01570.HK)股權高度集中
17:14
名創優品(09896.HK)一季度股東應佔利潤12.51億元 同比增長200.41%
17:03
英矽智能(03696.HK)納入恒生生物科技指數成份股
16:49
創勝集團醫藥-B(06628.HK)收到HiCB對外授權里程碑付款700萬元
16:36
藍點觸控完成C++輪數億元人民幣融資
16:23
國家發改委:以居住證和居住年限互認為抓手 促進公共服務接續享有
16:20
【異動股】港股跌幅榜前十,亞太金融投資(08193.HK)跌50.18%,中國數智科技(01796.HK)跌30.70%
16:20
【異動股】港股漲幅榜前十,QPL INT'L(00243.HK)漲45.45%,俊知集團(01300.HK)漲41.67%
16:16
商務部:1-4月中國企業在共建"一帶一路"國家非金融類直接投資855.5億元人民幣
16:10
商務部:1-4月中國對外承包工程業務完成營業額同比增長10.9%