学而思被指“偷数据”训练AI,牵出大模型“隐秘的角落”
近日,笔神作文指控昔日合作伙伴学而思“偷数据”训练自家AI产品,随后学而思对此公开予以否认。笔神作文称之为国内“AI大模型数据被盗第一案”。不过,有律师分析,从现有内容来看,该案应属于普通的数据侵权纠纷或协议纠纷,目前还不能判断学而思是否违法。
笔神作文与学而思的纠纷,牵引出大模型的一个“隐秘的角落”:用于训练AI大模型的数据,来源是否合法合规?事实上,关于大模型数据集的纷争已在海内外频频上演。
(相关资料图)
监管方面正在注意AI大模型训练数据集的合法合规。国家网信办于今年4月公布的《生成式人工智能服务管理办法(征求意见稿)》明确,预训练、优化训练数据应保证真实性、准确性、客观性、多样性,不含有侵犯知识产权的内容,包含个人信息的应符合“告知-同意”等原则。对外经济贸易大学数字经济与法律创新研究中心执行主任张欣认为,平衡安全和发展成为大模型数据集监管的重要挑战,数据安全审计制度等可以为此提供借鉴。
或为国内“AI大模型数据被盗第一案”
笔神作文与学而思关于是否“偷数据”在互联网公开“喊话”,已进行了一个半回合。
笔神作文将之称为“AI大模型数据被盗第一案”。6月13日下午,笔神作文通过自己的微信公众号、微博和第三方媒体发布消息,指控其合作伙伴学而思未经授权爬取了笔神作文的数据,用于训练大模型产品。同日17时,学而思官方公众号对此事作出回应,表示自己对笔神作文数据的使用属于双方合同约定的正常合作范围,笔神作文“主观揣测”“与事实严重不符”。
14日19时,笔神作文再次通过微信公众号列举更多“证据”,力图证明学而思在4月13日至17日,通过“爬虫”技术非法访问、缓存笔神作文App服务器数据258万次。
“笔神作文APP”微信公众号公布的双方合作API接口“每日数据调用量折线图”
面对笔神作文的再次“喊话”,学而思是否有新的回应?截至发稿前,学而思与笔神作文方面均未针对此事向南方财经全媒体记者给出相关回应。
在13日的声明中,学而思透露双方合作的内容:笔神作文为学而思提供“笔神作文范文素材服务接口”,用于学而思相关服务中,每月保底费用包含的调用次数为百万次量级。笔神作文则在14日发布的消息中称,双方合同明确“甲方(注:三体云联公司,为学而思关联公司)不得在未经乙方(注:一笔两划公司,“笔神作文”系该司旗下品牌)允许的情况下用于任何其他用途,包括缓存,存储,作为语料进行计算,训练等。”
笔神作文表示,将通过司法程序解决纠纷,要求“学而思”支付1元赔偿金,公开道歉,并删除已爬取的数据。
律师:现有内容难以判断学而思违法
“‘AI大模型数据被盗第一案’有些噱头的成分。”北京市竞天公诚律师事务所合伙人周杨认为,本案争议的焦点是用于训练AI大模型的数据,而并非AI大模型的算法,应属于普通的数据侵权纠纷或协议纠纷。
海问律师事务所合伙人杨建媛分析,该事件可以从知识产权保护和反不正当竞争两个角度来看。从知识产权保护角度,如果笔神作文对学而思获取的内容享有著作权,且学而思的行为不符合著作权法规定的“可以不经著作权人许可”的“例外”情况,则学而思的行为需经过笔神作文的许可。她还强调,如笔神作文所称为事实,学而思对笔神作文数据的使用可能超出了“合理使用”的范畴。
从反不正当竞争角度,学而思是否存在未经授权爬取笔神作文数据的情况、是否利用所获数据开发实质性替代笔神作文的产品或服务,是判断是否构成侵权的关键。杨建媛分析,从笔神作文的叙述来看,其可能并未对学而思设置反爬措施,但是在协议中约定了相关禁止行为。单纯的违约行为较难直接认定为违反了反不正当竞争法下的商业道德要求。另外,学而思将数据用于大模型训练,训练出来的产品与笔神作文的产品是否存在竞争关系,是否会对笔神作文造成不良后果,还存在争议。
周杨也表示,学而思是否违法,关键要看合同中对数据的获取、处理和使用是如何约定的,以及笔神作文是否对作品、数据库享有版权。根据现有双方披露的内容,“还不能判断”。
数据来源是否合规牵出“隐秘的角落”
笔神作文与学而思的纠纷,牵引出大模型的一个“隐秘的角落”:训练AI大模型通常需要海量的数据,而这些数据的来源是否合法合规?
事实上,随着ChatGPT带动生成式AI的爆火,关于AI大模型训练数据的纷争在海内外频频上演。
争议所涉及的数据可以大致分为两类:一类有着明确的知识产权,如原创的图片、音乐、视频、文章等;一类由用户在平台上的零散发言汇集而成,如百科、社区、贴吧等。
今年年初,Stability AI受到美国大型商业图库提供商Getty Images以及漫画家的分别起诉,原因是他们认为Stability AI用于训练AI图像生成模型Stable Diffusion的数据“非法复制和处理了受版权保护的图像”。
此外,推特、“美版贴吧”Reddit也在今年上半年相继宣布对API接口收费,且价格不菲。此前,这些平台的内容可以被谷歌、openAI等公司免费爬取,用作大语言模型的训练库。推特CEO马斯克称“他们(微软)非法利用推特的数据来训练,是时候起诉他们了。”Reddit则在其官网更新条款:“未经Reddit明确同意,您不得将Reddit上的内容用作任何模型训练的输入。未经明确批准,禁止将任何使用Reddit数据训练的模型用于商业用途。”
谷歌C4数据集支撑了多个AI模型的预训练。今年4月,《华盛顿邮报》与艾伦人工智能研究院合作调查发现,该数据集中存在只接受付费订阅的网站,以及近30个被美国政府认定为盗版和假冒产品市场的网站。
平衡安全与发展成监管挑战
监管方面正在注意AI大模型训练数据集的情况。
当地时间2023年6月14日,欧洲议会投票通过关于《人工智能法案》的谈判授权草案,意味着该法案将进入欧盟启动监管前的最后阶段。该法案要求OpenAI、谷歌和微软等基础模型的供应商需要公开,他们在训练模型过程中,是否使用了受版权保护的数据。
此前,国家网信办于今年4月公布的《生成式人工智能服务管理办法(征求意见稿)》也明确,用于生成式人工智能产品的预训练、优化训练数据,应符合网安法等法律法规的要求,不含有侵犯知识产权的内容,包含个人信息的应符合“告知-同意”原则等要求,还应保证数据的真实性、准确性、客观性、多样性。
“对大模型数据集的监管,如何能做到安全和发展的平衡,是一个重要挑战。”对外经济贸易大学数字经济与法律创新研究中心执行主任张欣表示,《生成式人工智能服务管理办法(征求意见稿)》已对AI训练数据集的合规要求搭建了清晰的框架,在运用著作权和知识产权方式之外,还可以探索使用多种法律手段去实现。
张欣分析,监管的落地,还存在事后难追溯等问题,尤其在算法复杂度日益攀升、出现“算法黑箱”等情况下,如果从事后去还原和追溯数据集是否合规,十分依赖大模型开发商提供数据处理记录和日志,很难从外部进行确认。此外,从技术上来说大模型很难精确删除某个用户的个人信息,这就限制了个人信息保护中“删除权”的行使。
欧盟《人工智能法案》草案设置了吹哨人制度,鼓励专业人士从内部进行监督,为监管提供了一种创新思路。张欣认为,大模型开发者应做好信息记录和披露的工作,提高数据集的透明度,在算法解释性遇到困难的时候,至少可以通过数据的透明和可解释来寻找答案。数据安全审计制度在国际上也有较为通行的经验,大模型数据监管也可以探索使用审计的方式,找到透明度与保护商业秘密之间的平衡。
(编辑:张雅婷)
标签:
推荐文章
- 四川启动“安全宣传咨询日”活动,有何看点?
- 学而思被指“偷数据”训练AI,牵出大模型“隐秘的角落”
- 利好!央行重磅官宣:降息!
- 两部门印发文件部署高校毕业生档案转递接收工作
- 老房子暗厅怎么装修_你知道吗 当前速看
- 彩虹股份收到上交所监管工作函|热消息
- 123123123123123123-世界热资讯
- 每日播报!中国银河:全球光伏需求高增带来发展潜力及蕴藏机遇 把握两条主线
- 每日速递:支付宝正收益产品:稳健理财的最佳选择
- 当前头条:美元/瑞郎汇率技术面分析:可能进一步下跌 关注0.8860
- 冉斌:构建车路协同创新联合体(图)-环球观速讯
- 当前看点!上海市老年人津贴发放标准2023是多少?年龄门槛多少岁可以领取
- 天天报道:be unfamiliar to 和with的区别_be familiar to和with的区别
- iQOO 11双十二会不会降价
- 天天观点:张的组词是啥_张的组词是
- 国家发展改革委:保持查处涉企违规收费的高压态势
- 今晚,我们看梅西
- 法院的ems单号怎么识别(ems法院专递邮件查询)
- 阿里巴巴布局欧洲 集团总裁埃文斯:将建立“欧版”天猫
- 交货日期是发货日期还是到货日期呢?
- 劳防用品清单明细表_劳防用品清单
- 国际团结杯篮球赛8月深圳开打
- 金刚电影有几部哪一部最好看_金刚电影有几部 热头条
- 全球简讯:6月15日基金净值:易方达创业板ETF最新净值2.1812,涨3.44%
- 每日速读!240是多少码的鞋子 240是多少码的鞋子男
- 【国际大宗商品早报】商品市场情绪回暖 原油农产品大涨金价盘中反弹超20美元
- 世界球精选!新编高校体育与健康教程_关于新编高校体育与健康教程简介
- 6月15日环卫招投标速递:33个项目含14个千万级项目 今日热门
- 红薯催芽最快方法和苗期管理介绍
- 全球新动态:大湖股份(600257)龙虎榜数据(06-15)
- 全球最资讯丨里昂:予长和买入评级 目标价65港元
- 合并三支病变的非ST段抬高急性冠脉综合征:搭桥优于介入和药物治疗!阜外医院袁晋青、宋雷等研究
- 长沙灵活就业社保2023缴费标准是多少 灵活就业人员社保缴费多少钱一个月
- 【时快讯】6月15日电,大连证监局对圆通速递股份有限公司采取
- 环球快播:北京:最新疫情周报显示 呼吸道传染病仍是主要病种
- 马斯克邀请丰田加入特斯拉快充阵营:你们充电太慢了_今日播报
- 青海查处一批旅游市场违法违规行为
- 新疆天业(600075.SH):公司募投项目目前正在抢抓工期 热推荐
- 环球资讯:涨停雷达:TOPCON电池个股异动 钧达股份触及涨停
- 衡水湖有多大比白洋淀大吗(衡水湖有多大)
- 文明之光点燃亚运之火 杭州亚运会火种今天在良渚古城遗址成功采集
- 乙腈沸点对照表_乙腈沸点
- 故宫可以带宠物吗?故宫可以带导盲犬吗?_要闻速递
- 重庆:“一库一站一平台”促进高校毕业生就业
- 撑起“一老一小”保险伞
- 马克龙将会见马斯克 争取特斯拉在法国设厂
- 杭州亚运会火种在良渚古城遗址公园成功采集
- 低碳技术掀投资热浪 气候科技产业迎来发展机遇期
- 【世界热闻】“酸奶土匪”来袭 请“小心”
- 梅西淘宝直播,跟这家A股有关?
- 火女爱水男,皮克斯新作就这?
- 飞仕得拉“冤家”分享IPO,原始股东巧避债务风险_环球资讯
- 价值投资?实际上是“比谁看得更远”!|世界快播
- 上海专家团队成功探索药物减重控制膝骨关节炎发病率|全球热门
X 关闭
最新资讯
- 每日时讯!内娱最牛关系户,一部剧配 9 个老婆……
- 范围不经济_关于范围不经济的简介_环球热点
- 世界热头条丨朝秦暮楚什么意思_朝秦暮楚
- 2023青岛新青年音乐节购票时间、平台 当前热闻
- 全球短讯!最新意见公布
- 每日速读!云南一村子频繁发生异响及震动,村民称声响如放炮,官方:初步判断属于浅源地震活动
- 助力毕业生安居,北京市连续五年举办“毕业季租房服务进校园”活动-环球实时
- 广州佛山高速公路(广州—佛山高速公路)
- 居民存款连续两月同比少增 钱去哪儿了?
- 大宗交易:华特气体成交201万元,折价7.70%(06-14)
- 天天热点评!财政部、工信部:分三批组织开展中小企业数字化转型城市试点工作
- 微软宣布 Xbox Series S Carbon Black 1TB
- 天天热讯:区熔锗锭商品报价动态(2023-06-14)
- 纱窗装上去太松什么原因造成的(纱窗装上去太松什么原因)|全球关注
- 世界微资讯!亚马逊网站的淡季有哪些_亚马逊网站的特点
- 塞尔达传说王国之泪烤草莓有什么效果-全球今日讯
- 世界头条:啊对对对是什么梗
- 天天热门:平安证券银行业中期策略:盈利筑底 攻守兼备
- 焦点!速算扣除数是什么意思举例_速算扣除数是什么
- 新强联:6月13日融券卖出8.24万股,融资融券余额3.59亿元 当前简讯
- 世界今日讯!空调市场跟着天气“升温”
- 全球聚焦:中级经济师《工商管理》每日一练(2023.06.14)
- 焦点速读:我市开展“产业大招商突破年”督查
- 山药粉条跟红薯哪个贵 全球报道
- 里弗斯谈G6失利原因:我们必须把球更多传给恩比德_天天新要闻
- 水猴子长什么样的图片_水猴子长什么样 有图片么
- 长260米 云南首座钢浮桥即将开放
- 每日信息:生姜足浴的正确方法_生姜泡脚的方法介绍
- 英伟达AI芯片劲敌来了!AMD推出MI300X,可运行多达800亿参数模型 _世界即时看
- 办公建筑低碳转型提速 仍面临智能技术、企业成本、政策支持等挑战
- 乔迁之喜邀请函微信版 怎么写 乔迁之喜邀请函微信版
- 焦点快报!罗马诺:拜仁从未接近签下赖斯,他们一开始就知道赖斯想留英超
- 白俄罗斯总统卢卡申科当地时间13日在接受媒体采访时表示,白方将在数日内接收来自俄罗斯的战术核武器,相关准备工作已经完成
- 平顶山宝丰县:“五星工坊”点燃群众共富“新引擎”|全球信息
- SEMI:预计2026年全球300mm晶圆厂设备支出将达到创纪录的1190亿美元|环球快看点
- busy什么意思 全球百事通
- 唐代的四大诗人有哪些古诗 9.描写立夏的古诗词 快资讯
- 当前关注:广尔数码分别以30.65万、1.61万将持有的全资子公司中赢通95%、5%的股权转让给郑穗、陈晓俊
- “70后”的她,拟任正局级 天天热议
- “中国文化产业第一展”聚焦国际化数字化 用优质文化产品供给赢得“满堂红”
- 罕见!国家二级保护野生动物豹猫现身河源龙川一村民家门口
- 环球讯息:系统教程篇:如何在Windows8中设置和修改系统电源
- 凌晨2点打车还要排队?北京夜经济“燃”起来了 当前热讯
- 世界球精选!溢价率15%!广州今年第6宗摇号地落子番禺
- 时讯:浙e是哪个城市(浙e是哪里车牌?)
- 退役军人“每日一星”丨李全:与董存瑞并肩作战 前沿资讯
- 这一路颠沛流离!杰夫-格林、史密斯生涯队友数分列历史第3/第6
- 重大转变!巴基斯坦以人民币支付首批政府间进口的俄罗斯原油
- 知道弧长求角度公式_求角度公式 全球热讯
- 环球信息:如何做灯笼手工制作儿童手工视频_如何做灯笼手工
X 关闭