微軟出手“立規矩”，AI公司不能白拿數據_微軟

文章圖片

文章圖片

文章圖片

此前在去年夏季，谷歌前任CEO埃里克?施密特在斯坦福大學進行的演講中宣稱， AI公司可以先通過AI工具盜取知識產權，然后再雇傭律師來處理法律糾紛。本以為這只是互聯網老炮故作驚人之語，可沒想到一眾AI廠商將這當真了。

過去一年間， AI廠商通過各種各樣的手段從版權所有者手中獲取數據的行為，幾乎成為了業界的通行做法，并且絕大多數AI廠商都不愿為數據（語料）支付合理費用，由此版權方與AI廠商在全球范圍內也掀起了大量的訴訟。眼看著“晉西北打成一鍋粥” ，微軟方面就準備圍繞數據建立一套新的秩序。
近日有爆料稱，微軟正在與部分美國出版商洽談試點計劃，旨在構建雙邊市場，讓版權方與AI廠商可以圍繞數據進行自由交易。據悉，微軟自己的Copilot AI助手將作為“小白鼠” ，版權方可向微軟銷售其內容，微軟也在嘗試將該計劃涵蓋到其他AI產品。

相關消息顯示，微軟在相關演示文稿中宣稱， “你值得根據你的知識產權質量獲得報酬” 。據稱，未來微軟圍繞數據的貨幣化系統將基于PCM（Price-Cost Margin Model）定價模型，以確保數據定價的公平性。
微軟這招，堪稱是巨頭利用體量優勢遏制初創公司無解的陽謀，因為AI初創公司雖然往往有技術，可是卻缺少數據。
以往AI初創公司以不合規方式獲取數據背后的理論基礎，是行業慣例的“合理使用” 。美國最高法院在著名的Campbell v. Acuff-Rose Music案中確立了一個重要原則，即如果一種使用方式從根本上改變了原作品的目的或性質，那么這種使用很可能被視為合理使用。

在AI行業看來， AI大模型的運行模式確實從根本上改變了原作品的性質。不僅如此， AI廠商還普遍認同“著作權法保護的是表達，而非思想、方法而非功能。 AI訓練提取的恰恰是思想和功能，而非具體表達” ，因此他們使用爬蟲等技術手段獲取版權方的內容時堪稱是心安理得。
與此同時，從xAI的Gork-4到OpenAI的GPT-5、再到阿里的Qwen3-Max ，已經從不同的維度反應了Scaling laws（尺度定律）并未失效，只是數據獲取的難度變得比以往更高了。換而言之，增加計算量、模型參數和數據集大小來提升大語言模型的智能水平依然可行，只不過這個模式的經濟性已經斷崖式下降。

“AI的訓練數據如同化石燃料一樣面臨著耗盡的危機”確實是事實，可業界深信AGI（通用人工智能）能夠在數據被消耗殆盡前完成。所以從思想層面到現實， “偷數據”也就成為了整個AI業界心照不宣的潛規則。可問題是， AI廠商利用技術優勢低成本獲取數據，作為“受害者”的版權方自然就不樂意了。
盡管在AIGC這個概念問世之前，版權方確實不知道內容還可以被用于訓練AI ，以至于OpenAI等先行者實實在在享受了先發紅利。可等到這一輪AI革命爆發， AI廠商的估值如同坐火箭般上漲，版權方就赫然發現，這一塊蛋糕居然沒有自己的份。

由于技術水平存在巨大差異，版權方面對AI爬蟲時幾乎無計可施，可偏偏AI革命又是各國聚焦的新興賽道，指望通過監管大棒來遏制AI廠商偷竊數據的行為并不現實。所以當下擺在版權方面前的局面相當惡劣，因為從技術到監管都對他們不利。這時候微軟站出來，說要建立一個AI廠商和版權方的交易市場，無疑就是雪中送炭了。
從某種意義上來說，微軟試圖建立的數據交易市場是一個堪比谷歌Google Ads生態的創舉。當然，微軟的這個想法雖然很好，但要建立一套能運行的AI語料交易機制也不容易，因為一般的數據和AI需要的語料并不完全等價。常規的數據往往指的是用戶的地址、手機號、購物記錄等標準化的信息，而語料則是文章、圖片、視頻、聊天記錄。

比如同樣一張1024x1024分辨率的圖片，知名大拿和業界新丁的作品價碼肯定不一樣；同樣一篇3000字左右的文章，出自《華爾街日報》和本地三流小報也不可同日而語。目前互聯網行業對于內容的評價體系是基于流量打造，也就是用戶越愛看的內容越值錢。
可同一套評價體系卻無法直接嫁接到AI領域，畢竟人與人評價同一事物尚且會因文化、教育背景的區別導致差異，就更遑論AI了。這也是為什么在微軟之前，全球知名內容分發網絡（CDN）服務商Cloudflare也宣稱要為AI廠商和版權方建立一個交易平臺，卻至今還沒有下文的原因。
其實付費不是問題，但如何付費才是關鍵，因為AI廠商也怕版權方獅子大開口。以至于，當下AI廠商購買內容授權時往往是單對單，一家一家地談。例如從2023年開始， AI行業的領頭羊OpenAI就陸續與美聯社、施普林格、新聞集團、衛報傳媒集團等出版商達成合作，付費獲取后者的新聞、圖像、視頻等數據。

【微軟出手“立規矩”，AI公司不能白拿數據】
微軟的想法則是建立一個統一大市場，可內容質量的量化以及隨之而來的定價卻是難題。 AI模型的訓練確實高度依賴語料的質量，但當下AI模型的參數規模已經達到了萬億水平，到底其中的哪些內容貢獻了效果，根本就沒人能說得清。
簡而言之，微軟口中“知識產權質量獲得報酬”模式其實存在大量的模糊地帶。如果他們不能提出一條標準化的計量體系， AI語料的貨幣化系統，恐怕就不是短時間就能建立起來的。

微軟出手“立規矩”，AI公司不能白拿數據

推薦閱讀

蜈蚣是害蟲還是益蟲啊蜈蚣屬于害蟲還是益蟲

2022廣州住房公積金利率調整后有什么好處？

枕巾多久洗一次枕巾什么時候洗一次

結婚為什么吃烤乳豬不好結婚為什么吃烤乳豬

小提琴是什么調

成都歡樂谷門票價格成都歡樂谷門票多少錢一張

求鑒定阿迪達斯貝殼頭小熊鞋

如何注銷申請的刷寶賬號

上海虹口區公租房入住流程

回水排氣閥不出水也不出氣怎么處理

助人為樂手抄報我是小天使幫助他人手抄報怎么畫

其實我不在乎初三作文

西餐擺盤怎么擺s型

特斯拉充電樁安裝有哪些條件

怎樣調出一杯好喝的咖啡

python考勤管理系統 Python上課點名系統附源碼