50萬小時的免費人工勞動。每天如此。由那些以為自己只是在登錄銀行賬戶的人貢獻的。
reCAPTCHA是互聯網歷史上最成功的隱形數據收割行動。鼎盛時期每天有2億人在完成它的驗證。其中幾乎沒有人知道自己究竟在建造什麼。
Waymo——谷歌旗下的自動駕駛汽車公司——如今估值450億美元。它有相當一部分關鍵訓練數據來自你。免費的。來自你訪問過的每一個網站。
以下是完整的故事。
2000年,垃圾郵件機器人正在摧毀整個互聯網。論壇被灌水淹沒,郵箱不堪重負。網站迫切需要一種將人類與機器區分開來的方法。
卡内基梅隆大學教授路易斯·馮·安解決了這個問題。他發明了CAPTCHA:一種只有人類才能識讀的扭曲文字。機器人無法通過,人類則可以。
但馮·安看到了更多的可能性。數以百萬計的人正在將認知精力耗費在這些驗證上。如果這種精力可以同時做兩件事呢?
2007年,他推出了reCAPTCHA。其中的妙招在於:它展示的不是隨機的亂碼,而是兩個詞。其中一個係統已知,另一個則來自計算機尚無法識別的真實掃描書籍。你的回答幫助完成了數字化工作。
這些書來自《紐約時報》檔案庫,也來自谷歌圖書——涉及多達1.3億冊圖書。
你以為自己在登錄,實際上你在為世界上最大的數字圖書館做OCR(光學字符識別)。
2009年,谷歌收購了reCAPTCHA。

扭曲文字的時代在2012年前後終結。
谷歌面臨了一個新問題。街景拍攝車正在拍攝地球上的每一條道路,但照片只是原始數據。要讓AI真正有用,它需要理解自己"看到"的内容:路牌、人行橫道、交通信號燈、店面招牌。
於是谷歌重新設計了reCAPTCHA v2。驗證内容從扭曲文字變成了圖片網格:"點擊所有包含交通信號燈的方格。" "選出每一處人行橫道。" "識別店面招牌。"
這些圖片直接來自谷歌街景。
而你的每一次點擊就是標注。你的每一次選擇都在告訴谷歌的計算機視覺模型:這個像素塊是交通信號燈,這個形狀是人行橫道。
你不是在通過測試,你是在構建數據集。

鼎盛時期,每天有2億次reCAPTCHA被完成。
每次驗證約需10秒,這意味著每天有20億秒的人工勞動——換算下來,每天50萬小時。
專業數據標注的市場價格為每小時10至50美元。按最低價計算:每天被免費提取的勞動價值高達500萬美元。
而且reCAPTCHA並不只存在於某一個應用上,它遍佈每一家銀行、每一個政府門戶網站、每一個電商平台、互聯網上的每一個登錄頁面。你別無選擇。想訪問你的賬戶?先標注數據集。
谷歌從未徵詢你的意見,從未向你付費,甚至從未告訴你這件事。

這些數據直接輸送給了兩款産品。
谷歌地圖。 全球使用最廣泛的導航工具。它識讀路牌、定位商家、理解城市地理的能力,部分正是建立在那些試圖登錄網站的人貢獻的數十億次人工標注之上。
還有Waymo。
Waymo是谷歌的自動駕駛汽車項目,2016年獨立成為子公司。為了安全導航,自動駕駛汽車需要以接近完美的準確率識別數千種視覺模式:交通信號燈、人行橫道、行人、停車標誌。
這些識別能力所需的真實訓練數據?由數以百萬計的人通過reCAPTCHA完成標注——他們對此毫不知情。
2024年,Waymo完成了逾400萬次付費出行,目前運營於舊金山、洛杉矶和鳳凰城,且仍在持續擴張。其估值為450億美元。
而這座大廈的地基,是由那些只想收發電子郵件的免費互聯網用戶建造的。
數據標注成本高昂。Scale AI、Appen、Labelbox等公司存在的唯一意義就是解決這個問題。它們僱用了數十萬名工人來標注圖像,有時每小時報酬不足一美元。
谷歌用一種截然不同的方式解決了這個問題:他們把標注變成了強制性的。不給報酬,不需同意,而是作為進入網絡上每個網站的"入場費"。
結果:數十億張已標注圖像,覆蓋全球,涵蓋各種天氣條件、各個時段、地球上的每一座城市。
沒有任何標注公司能夠做到這一點。互聯網本身就是那座工廠,而每一個身處其中的人都是從未簽過合同的員工。

2018年推出的reCAPTCHA v3根本不會向你展示任何驗證挑戰。它觀察的是你移動鼠標的方式、滾動頁面的方式、懸停的時長。你的行為指紋告訴它你是否是人類。
這些行為數據同樣被反饋給谷歌的AI係統。
你從未主動選擇加入,從來沒有一個復選框供你勾選。此刻,在你訪問的大多數網站上,你依然在這樣做。
路易斯·馮·安最初的構想是天才之舉:將人類原本就耗費在垃圾過濾上的認知精力,重新導向某件有價值的事情——將世界上的書籍數字化,解決一個真實存在的問題。
而谷歌對這個構想的運用,是另一回事。
他們拿走了一個用戶別無選擇、只能使用的安全機制,將其部署到整個互聯網,並收割輸出成果,構建起價值數百億美元的商業産品。
用戶什麼都沒有得到,甚至連知情權都沒有。
最深的諷刺在於:你花了多年時間證明自己是人類——方式是做那種AI當時還無法完成的視覺識別工作。而當這項工作一旦被AI學會,人類的視覺標注便變得多餘了。
你證明了自己是人類,方式是讓自己變得可被替代。
來源:卡内基梅隆大學、谷歌博客(2009年)、WebProNews、MakeUseOf、MIT技術評論、Waymo公開披露文件。
内容來源:PANews
更多精彩內容,請登陸
財華香港網 (https://www.finet.hk/)
現代電視 (http://www.fintv.com)