微軟出手“立規矩”,AI公司不能白拿數據

微軟出手“立規矩”,AI公司不能白拿數據

文章圖片

微軟出手“立規矩”,AI公司不能白拿數據

文章圖片

微軟出手“立規矩”,AI公司不能白拿數據

文章圖片

微軟出手“立規矩”,AI公司不能白拿數據

此前在去年夏季 , 谷歌前任CEO埃里克?施密特在斯坦福大學進行的演講中宣稱 , AI公司可以先通過AI工具盜取知識產權 , 然后再雇傭律師來處理法律糾紛 。 本以為這只是互聯網老炮故作驚人之語 , 可沒想到一眾AI廠商將這當真了 。



過去一年間 , AI廠商通過各種各樣的手段從版權所有者手中獲取數據的行為 , 幾乎成為了業界的通行做法 , 并且絕大多數AI廠商都不愿為數據(語料)支付合理費用 , 由此版權方與AI廠商在全球范圍內也掀起了大量的訴訟 。 眼看著“晉西北打成一鍋粥” , 微軟方面就準備圍繞數據建立一套新的秩序 。
近日有爆料稱 , 微軟正在與部分美國出版商洽談試點計劃 , 旨在構建雙邊市場 , 讓版權方與AI廠商可以圍繞數據進行自由交易 。 據悉 , 微軟自己的Copilot AI助手將作為“小白鼠” , 版權方可向微軟銷售其內容 , 微軟也在嘗試將該計劃涵蓋到其他AI產品 。



相關消息顯示 , 微軟在相關演示文稿中宣稱 , “你值得根據你的知識產權質量獲得報酬” 。 據稱 , 未來微軟圍繞數據的貨幣化系統將基于PCM(Price-Cost Margin Model)定價模型 , 以確保數據定價的公平性 。
微軟這招 , 堪稱是巨頭利用體量優勢遏制初創公司無解的陽謀 , 因為AI初創公司雖然往往有技術 , 可是卻缺少數據 。
以往AI初創公司以不合規方式獲取數據背后的理論基礎 , 是行業慣例的“合理使用” 。 美國最高法院在著名的Campbell v. Acuff-Rose Music案中確立了一個重要原則 , 即如果一種使用方式從根本上改變了原作品的目的或性質 , 那么這種使用很可能被視為合理使用 。



在AI行業看來 , AI大模型的運行模式確實從根本上改變了原作品的性質 。 不僅如此 , AI廠商還普遍認同“著作權法保護的是表達 , 而非思想、方法而非功能 。 AI訓練提取的恰恰是思想和功能 , 而非具體表達” , 因此他們使用爬蟲等技術手段獲取版權方的內容時堪稱是心安理得 。
與此同時 , 從xAI的Gork-4到OpenAI的GPT-5、再到阿里的Qwen3-Max , 已經從不同的維度反應了Scaling laws(尺度定律)并未失效 , 只是數據獲取的難度變得比以往更高了 。 換而言之 , 增加計算量、模型參數和數據集大小來提升大語言模型的智能水平依然可行 , 只不過這個模式的經濟性已經斷崖式下降 。



“AI的訓練數據如同化石燃料一樣面臨著耗盡的危機”確實是事實 , 可業界深信AGI(通用人工智能)能夠在數據被消耗殆盡前完成 。 所以從思想層面到現實 , “偷數據”也就成為了整個AI業界心照不宣的潛規則 。 可問題是 , AI廠商利用技術優勢低成本獲取數據 , 作為“受害者”的版權方自然就不樂意了 。
盡管在AIGC這個概念問世之前 , 版權方確實不知道內容還可以被用于訓練AI , 以至于OpenAI等先行者實實在在享受了先發紅利 。 可等到這一輪AI革命爆發 , AI廠商的估值如同坐火箭般上漲 , 版權方就赫然發現 , 這一塊蛋糕居然沒有自己的份 。



由于技術水平存在巨大差異 , 版權方面對AI爬蟲時幾乎無計可施 , 可偏偏AI革命又是各國聚焦的新興賽道 , 指望通過監管大棒來遏制AI廠商偷竊數據的行為并不現實 。 所以當下擺在版權方面前的局面相當惡劣 , 因為從技術到監管都對他們不利 。 這時候微軟站出來 , 說要建立一個AI廠商和版權方的交易市場 , 無疑就是雪中送炭了 。
從某種意義上來說 , 微軟試圖建立的數據交易市場是一個堪比谷歌Google Ads生態的創舉 。 當然 , 微軟的這個想法雖然很好 , 但要建立一套能運行的AI語料交易機制也不容易 , 因為一般的數據和AI需要的語料并不完全等價 。 常規的數據往往指的是用戶的地址、手機號、購物記錄等標準化的信息 , 而語料則是文章、圖片、視頻、聊天記錄 。



比如同樣一張1024x1024分辨率的圖片 , 知名大拿和業界新丁的作品價碼肯定不一樣;同樣一篇3000字左右的文章 , 出自《華爾街日報》和本地三流小報也不可同日而語 。 目前互聯網行業對于內容的評價體系是基于流量打造 , 也就是用戶越愛看的內容越值錢 。
可同一套評價體系卻無法直接嫁接到AI領域 , 畢竟人與人評價同一事物尚且會因文化、教育背景的區別導致差異 , 就更遑論AI了 。 這也是為什么在微軟之前 , 全球知名內容分發網絡(CDN)服務商Cloudflare也宣稱要為AI廠商和版權方建立一個交易平臺 , 卻至今還沒有下文的原因 。
其實付費不是問題 , 但如何付費才是關鍵 , 因為AI廠商也怕版權方獅子大開口 。 以至于 , 當下AI廠商購買內容授權時往往是單對單 , 一家一家地談 。 例如從2023年開始 , AI行業的領頭羊OpenAI就陸續與美聯社、施普林格、新聞集團、衛報傳媒集團等出版商達成合作 , 付費獲取后者的新聞、圖像、視頻等數據 。


【微軟出手“立規矩”,AI公司不能白拿數據】
微軟的想法則是建立一個統一大市場 , 可內容質量的量化以及隨之而來的定價卻是難題 。 AI模型的訓練確實高度依賴語料的質量 , 但當下AI模型的參數規模已經達到了萬億水平 , 到底其中的哪些內容貢獻了效果 , 根本就沒人能說得清 。
簡而言之 , 微軟口中“知識產權質量獲得報酬”模式其實存在大量的模糊地帶 。 如果他們不能提出一條標準化的計量體系 , AI語料的貨幣化系統 , 恐怕就不是短時間就能建立起來的 。

    推薦閱讀