六年成果一個週末被爬取250+萬次，新時代該如何保護數據版權

2023-06-16 01:41:40

上個月，著名教育機構學而思曾透露消息，稱正在自研數學大模型MathGPT，面向全球數學愛好者和各大科研機構，解題講題兩條腿走路。當時就有許多人感慨，在全球大語言模型你方唱罷我登場時，終於有一家理科版大模型要來了。然而一個多月過去了，現實的發展卻走到了另一個方向。

本週二13日，AI寫作工具“筆神作文”，指控學而思通過“爬蟲”技術，非法訪問、緩存其服務器數據多達250多萬次，以此開發MathGPT的新產品“作文AI助手”，並索賠一元錢。

一、六年成果與一個週末

筆神作文成立於2017年12月，是面向K12，即國內的小學到高中的作文教育平台，隸屬於北京一筆兩劃科技有限公司。成立時雖然也有將AI與結合的呼聲與概念，但市場預期及實際表現都沒有現在的火熱，引起的關注也非常有限。然而即便如此，筆神作文卻依然憑藉其“利用AI技術幫助寫作者提升寫作能力”的特色，在2018年1月獲得了真格基金的數百萬種子輪融資，後來又在第二年7月完成了不惑創投的數百萬天使輪融資。

根據官方資料顯示，筆神作文上線六年以來，每個月都能收到超過30萬篇作文投稿，以及超過40萬次的點贊評論，積累了數百萬篇作文素材，月批改作文量也超過三萬篇。而去年底ChatGPT上線後，筆神作文的投資方之一，世紀天鴻曾表示，“筆神”與ChatGPT技術同源，二者都是採用基於transformer的最先進算法作為底層技術。筆神作文創始人宋嘉偉也曾介紹道：“一筆兩劃目前團隊中技術研發人員超過六成，在成立公司之前就曾創辦過NLP類公司，部分骨幹在NLP領域深耕多年，持續積累。”

**因此整體上來說，筆神作文的算法模型為一筆兩劃公司自研訓練，平台採用的大數據主要源於自身累積。 **而且也正因為在寫作方面的技術積累且卓有成效，三年前筆神作文與學而思正式開展合作，與學而思旗下的學習工具App“題拍拍”簽約，主要負責為其提供作文素材查詢服務。

但是作為合作夥伴，筆神作文卻在近日表示：在4月13日至17日，我們團隊從創業以來六年的成果，被合作多年的“學而思”無情背刺，短短一個週末的時間就爬取了超過250萬次！ 5月學而思就公佈了MathGPT，時間上也未免過於巧合。

二、筆神的訴求與學而思的回應

**從筆神作文官方微博發表的聲明來看，它本身並沒有完備的數據安全機制，而對於“合作夥伴”學而思更是沒有心懷防備，從而導致三體雲聯公司（學而思的子公司）有機可乘，利用了彼此的信任。 **對此，筆神作文表示該行為明顯是視雙方的合同條款若無物，更違反了《數據保護法》第三十二條“任何組織、個人收集數據，應當採取合法、正當的方式，不得竊取或者以其他非法方式獲取數據”的規定，嚴重侵犯了筆神作文APP的數據權益。事後第一時間內，筆神作文就找到學而思進行求證，對方倒也不拖拉，直接承認是他們的算法組在爬取數據並作為己用。因此筆神作文發送了律師函，這次卻沒有得到學而思的實質性回复。

“我們作為一家體量遠小於'學而思'的公司已經別無他法，只能通過法律渠道來維護自身權益。”但筆神作文同時在聲明中也指出，目前的法律法規並沒有“AI大模型數據盜取”的判決先例，因此只能“勇敢地走出這第一步”。至於筆神作文的實際訴求，實際上倒也不難：**只想要學而思支付一元賠償金，公開道歉並刪除已爬取的數據。 **

筆神作文對此的解釋是：“數據有價，心血無價，索賠一元是因為公平公正都不能用金錢衡量，我們希望通過訴訟告訴對方，告訴社會這種行為是要付出代價的。AI產業的發展需要各家共同努力，共同創造，而非覬覦和剽竊他人的成果。”

也正如筆神作文所說，這次訴訟只索賠一元錢，因此聲明也未引起多大反響和關注，僅有的幾條也都在譴責學而思。然而畢竟是負面消息，學而思的官方微博也在近日發文回應：“首先，MathGPT是專注於數學領域的自研大模型，沒有任何作文相關數據；其次，'作文AI助手'目前處於開發狀態，尚未發布，該服務並未使用筆神作文的任何數據。”

而此次事件中的關鍵，250多萬次的數據爬取，學而思指出合同中明確表示過“每月保底費用包含的調用次數為百萬次量級”，其調用的接口“屬於雙方合同約定的正常合作範圍”。在回應的最後，學而思強調其“一直尊重知識產權、重視知識產權保護”，所有行為均嚴格按照合同約定履行，但是“筆神作文的公開聲明已經對學而思品牌聲譽造成了傷害，我們將保留追究其名譽侵權責任的權利。”

三、數據版權問題

就目前雙方的聲明而言，下任何結論都為時尚早，但這也揭示了最近半年火熱的大模型市場，一個十分重要卻又極易被忽視的地方：AI訓練數據的版權歸屬問題。最近在外網鬧得滿城風雨的，號稱“美版貼吧”Reddit強制對API進行收費的決定也是出於這個原因。

Reddit上因為有最近多年積攢的豐富聊天內容，已成為谷歌、微軟、OpenAI等企業訓練大語言模型都在使用的素材，ChatGPT等的能說會道以及後來的火遍全球，Reddit同樣有貢獻。但是現在伴隨著這些類GPT產品的火爆，Reddit創始人&CEO就曾表示：“Reddit的語料庫數據非常有價值，但我們不想把這些內容免費提供給一些巨頭公司了。”繼這番表態後，另一家知名IT問答網站Stack Overflow也宣布，計劃從今年中時候起，向大型開發商收取數據訪問費用，其CEO也表示：“大語言模型最近的發展也得益於社區的推動，因此社區作出的貢獻也必須得到補償。”

毫無疑問，AGI，大模型在從小眾到大眾，從幕後到台前，智能程度越來越高的過程中，海量的訓練數據是不可或缺的。但從目前各家企業的表現來看，即便是目前的一哥OpenAI，對於訓練數據的版權問題都沒有很好的解決方案。原因倒也不難理解，GPT的早期版本幾乎沒有引起外界重視，當時人們對它能否實現產品化都很懷疑，自然沒人在意數據來源以及版權問題。等到ChatGPT上線了，巨大的使用價值，商業價值，社會熱潮撲面而來，傳統的法律體系，經濟模式，發展思路等，立刻都會成為困擾你的麻煩。

不論真假以及最終的結局如何，本次筆神作文和學而思聯袂上演了國內首起大模型數據版權的戲碼，也為國內大模型產業和企業帶來一點啟發。雖然只是一元錢的糾紛，但意義非同小可。或許在未來成千上萬的戲碼上映時，再回顧今天筆神作文和學而思的聲明，會發現這一元錢真是有先見之明。

查看原文

本頁面內容僅供參考，非招攬或要約，也不提供投資、稅務或法律諮詢。詳見聲明了解更多風險披露。

讚賞
點讚
留言
分享

留言

0/400

暫無留言

話題
#BTC#
222k 帖子
#PI#
186k 帖子
#ETH#
141k 帖子
4#GateioInto11#
79k 帖子
5#ContentStar#
66k 帖子
6#GT#
62k 帖子
7#BOME#
60k 帖子
8#DOGE#
57k 帖子
9#MAGA#
52k 帖子
10#SLERF#
51k 帖子