图片来源@视觉中国
(相关资料图)
“现在是诉讼时间。”4月20日,推特被微软踢出其数字营销平台后,新掌门人马斯克立马发推回击称,微软用推特的数据做“非法训练”。这一怼,直接揭开了AI大模型开发商与数据源的利益之争。
此前,在线社区论坛Reddit与程序员社区Stack Overflow先后宣布,将向使用平台API训练数据的公司收费;环球音乐集团直接表示,将阻止AI从其版权歌曲中抓取歌手的声音。
在此之前,AI大模型开发商都在低成本地使用互联网公开的内容数据训练自家的大模型,如今,各种科技巨头们加持的大模型纷纷开始商业化,互联网内容平台们突然反应过来,不能让这些巨头们薅羊毛“白嫖”数据了。
当推特将API收费门槛摆在微软面前时,AI大模型训练要给付的成本就不止芯片算力和研发算法的人才了,现在还要加上“为数据付费”。
马斯克直怼微软“非法训练”“他们非法使用推特的数据进行训练。现在是诉讼时间。” 4月20日,“宇宙顶流”马斯克直接在推特上明示要告微软。他以推特CEO的身份亲自下场,以此直怼微软把推特踢出Microsoft Digital Marketing Center(微软数字营销中心)的做法。
这个“中心”是干嘛的呢?它其实是微软利用大数据和AI技术开发的一个广告和营销的管理平台,聚合了包括推特、脸书、Ins等海外所有主流的社交平台,方便企业主们在一个平台上完成广告和营销活动的推送,还能管理各种账号、分析推流数据。你刷微博、微信朋友圈时突然冒出的广告,就有类似微软这种工具的贡献。
微软这个数字营销中心能实现这些功能,很重要的一环是接入了这些社交平台的API,这是企业主推送广告、分析数据的基础。
结果,马斯克收购推特后,直接把推特API的企业套餐初始订阅费用定为4.2万美元/月,折合人民币28.9万元,以这个价格能获得2500万条推文,一条差不多1块多钱了。如果每月支付12.5万美元,能获得 1 亿条推文,后续还会按照使用量加钱。
推特API的新收费标准直接劝退了不少小公司,连财大气粗的微软数字营销中心都直言“要价太高”,于是,直接把推特踢出了管理库。这意味着,借助微软这个平台执行广告和营销计划的广告主们,没法在推特上搞投放了。
原本这是企业主、分发平台、渠道商之间的广告业内事,马斯克跳出来了,直指微软用推特的数据搞非法训练。
马斯克称微软用推特数据“非法训练”
谁都知道,爆火的ChatGPT背后有微软的资本加持。而马斯克和GPT大模型的开发方OpenAI不仅渊源颇深,还积怨许久。
2015年,马斯克与Sam Altman等6人共同创立OpenAI人工智能实验室,致力于建设开源的、研发人工智能的非营利机构,来抗衡当时在人工智能领域大有一家独大之势的谷歌。为此,马斯克捐了1亿美元,承诺未来继续捐9亿。结果不到2年,马斯克就退出了OpenAI董事会,这里既有烧钱开发大模型短期没烧出成果的问题,也有马斯克和Altman对OpenAI的管理权之争。
马斯克退出1年后,即2019年3月,OpenAI成立子公司OpenLP,将其定位为“有限营利机构”,重组后的OpenAI很快拿到了来自微软的10亿美元投资。谁也没想到又一个3年过去后, OpenAI站上了全球科技舞台的最前沿。
ChatGPT爆火后,当初为OpenAI掏过钱、站过台的马斯克频频表达怨念。
2月17日,马斯克发推指称OpenAI从开源、非营利变成了微软控制的“闭源、追求利益最大化”的公司;后来还多次在公开场合强调人工智能对人类社会的潜在危害,甚至认为“风险比飞机、汽车、毒品更大”;3月29日,那封科技大佬联署签名“暂停AI巨型实验”的公开信上,他也第一时间签名表态。
马斯克为人工智能的健康发展操碎了心,看上去,这位将巨型载人飞船送入太空的现实版“钢铁侠”似乎不打算跟风人工智能了。
然而,4月17日,马斯克在媒体采访中披露,将推出一款生成式AI大模型TruthGPT。很快就有媒体爆料,马斯克买了1万个英伟达A100芯片。这是AI大模型训练的重要硬件。
撕微软非法训练数据,怼OpenAI变成逐利公司,无论马斯克如何批评这两家公司,这下也难掩他对人工智能的兴趣了。左手拦下推特数据低成本外流,右手高价囤芯片,在AI大模型赛道上,马斯克开始跑马圈地。
多平台API拟收费,AI训练成本被推高不过,最近要向AI大模型开发商们收取API费用的平台不止推特。
4月18日,海外最大的社区论坛Reddit宣布,将向使用其API做数据训练的公司收取数据使用费。Reddit暂未公布具体收费标准,业内推测,Reddit很可能会按数据数量分等级收费,这也是业内的常规做法。此外,程序员问答网站Stack Overflow也计划向AI巨头收取训练数据费用。
Reddit更新数据API条款防大公司薅羊毛
要知道,研发AI大模型,算法、算力和算据这“三算”缺一不可。以OpenAI训练GPT-3.5为例,这个模型容纳了多达45TB的文本语料,这些语料既包括书籍期刊等出版物的内容,也包括社交平台、问答网站、论坛小组等在线数据中的用户生成内容。而从OpenAI的公开信息看,该公司并没有提及获取线上数据是否支付过费用。用“爬虫”爬、和第三方合作、以及购买都有可能是OpenAI 获得数据的方式。
此前,各个生成式大模型似乎都在没啥限制地使用互联网上的公开内容,影响大模型性能的要素就集中在算法和算力差异上。从推特、Reddit等平台明确为API收费后,大模型开发商自在地使用数据的好日子到头了。
2019年之前,OpenAI是非营利机构,如今,ChatGPT都有Plus收费版了,更别提该公司还开通了API的付费渠道。当前,OpenAI的估值接近300亿美元,研究机构PitchBook预测,该公司今年的收入将达到2亿美元,明年会翻五番。
社交平台们明确API收费,剑指大模型开发商,双方也正式变成了“商业对商业”的关系,收费与付费实属正常。这也意味着,AI大模型成为科技巨头们狂卷的赛道后,像Reddit这样的海量内容平台将增加商业来源,数据将成为重要要素。
以成立于2008年的Reddit为例,它是全球互联网中最有活力的社区之一,目前日活达到3.3亿,大量的用户创建了超过14万个活跃社区,帖子总量超3.6亿。尤其在很多小众领域,Reddit论坛贡献了很多有价值的讨论内容。换句话说,Reddit提供了英语互联网中最重要的语料库。
OpenAI的CEO Sam Altman也表示,公司在积极与内容公司进行合作,并愿意“为高质量数据支付高价”。
尽管Altman宣称“目前没在训练GPT-5”,但OpenAI应该不会停下数据训练的脚步,因为GPT-4仍有很多需要打磨的地方,比如通识知识的准确性、对人类语言的理解进化等等,这些仍然需要语料数据的持续投入。
放眼全球,研究AI大模型的公司还不止OpenAI一家,海外有谷歌,国内有百度、华为、阿里。可以预见,切入大模型赛道的公司,都将面对数据所有者的收费关卡,训练成本将水涨船高。另一个值得深思的问题是,Twitter也好,Reddit也罢,他们手握数据向大模型开发公司收取价格不菲的费用,那么,为这些平台贡献了海量内容和数据的用户又得到了什么?
标签:
-
马斯克要告微软,拒绝AI训练“白嫖”数据 新要闻
大模型公司低成本抓数据的好日子不多了。
-
老詹:有时我也会惊叹于自己的表现 队友不说我都不知道已20+20_环球视点
今日NBA季后赛首轮G4,湖人历经一个加时117-111击败灰熊,总比分3-1领先。湖人球星詹姆斯赛后接受了采访。
-
绝平制胜!38岁詹皇22+20创4大神迹扎心莫兰特,湖人晋级概率88%
詹姆斯生涯季后赛在比赛最后5秒扳平或反超球的投篮数据来到了19中8,命中率42%。这是一场非常艰难的比赛,
-
焦点速讯:手机剪映怎么去除视频水印_怎么去除视频水印
1、对于手机视频水印的删除方法,我们可以通过如图所示的视频水印大师进行删除。如图,通过百度搜索下载如
-
全国已有近20个省份组织开展“新八级工”评聘工作
央视网消息:昨天(4月24日),人力资源社会保障部召开一季度新闻发布会。发布会上,人力资源社会保障部有
-
全球消息!米粒在线北京企业管理服务有限公司将亮相2023 ChinaJoy BTOB
第二十届ChinaJoy将于2023年7月28日至31日在上海新国际博览中心举行,其中BTOB展区将于7月28日至7月30日隆重开幕。
-
长安大学14项科技成果获2023年度陕西高等学校科学技术研究优秀成果奖|世界速看
近日,陕西省教育厅公布了2023年度陕西高等学校科学技术研究优秀成果奖授奖名单,长安大学共14项科技成果获
-
快讯:刚还房贷2个月能退税吗
购房者买房申请贷款后,会了解退税事宜,一般是有交纳个税的情况下可以申请退,那么刚还房贷2个月能退税吗
-
瑞晨环保:4月24日融资买入86.51万元,融资融券余额1138.6万元
4月24日,瑞晨环保(301273)融资买入86 51万元,融资偿还289 24万元,融资净卖出202 73万元,融资余额1138
-
设备健康管理四论坛平行举办 “智能运维”成为热词|世界今日报
智造河南,潮起中原。4月21—22日,第四届机械润滑暨设备健康管理产业链国际论坛在郑州举办。4月22日,舍弗
-
电科数字回应股价跌停:股价非理性下跌,公司基本面良好
App4月25日消息,早盘开盘后,电科数字股价迅速跌停。电科数字表示,今天公司股价非理性下跌,公司基本面良
-
安仁:“苗木能人”带领村民致富-当前热闻
湖南日报·新湖南客户端张明宽 部分地区因为产业底子薄,需要能人带动、因地制宜。在郴州市安仁县安平镇石
-
全球快资讯:汪德嘉:区块链是开启人工智能大时代的关键变量
AI大模型时代或已走向终局,前路未知2022年11月30日,人工智能公司OpenAI推出了AI聊天机器人ChatGPT,在短
-
花卉产业红红火火
花卉产业红红火火
-
Lcom扩展物联网光检测环境传感器产品线_当前头条
InfiniteElectronics品牌和有线和无线连接产品供应商L-com最近宣布扩展其物联网光检测环境传感
-
特拉斯面向其他品牌新能源车辆试点开放充电网络 共覆盖25个省份 实时焦点
对于非特斯拉车辆,用户需要下载TeslaApp,注册账户,选择“为非Tesla车辆充电”并查找附近已经开放的充电站。
-
福建首季锂电池出口同比增169.8%
随着全球绿色能源转型步伐加快,欧美、中东等地区的家庭储能电源、小型工业储能电源等储能产品需求迅猛增长
-
热点题材 |“AI+”概念是什么?(附十大概念股)
所谓AI即人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能
-
上海一女孩逛商场被人跳楼砸中,谁来承担责任?商场有无责任? 天天快播报
真倒霉啊!上海一女子正在逛商场时,突然被一名从天而降的男子砸中,男子经抢救无效后死亡,被砸中的女子可
-
2023年“三支一扶”计划选派3.4万名高校毕业生-世界滚动
新华社北京4月24日电(记者姜琳、魏弘毅)人社部人力资源流动管理司副司长孙晓丽24日表示,人社部将会同有
-
游客汇聚神农谷 提前引爆“五一”游|天天新动态
游客汇聚神农谷提前引爆“五一”游
-
1-4月招标规模超30GW,低价内卷下的风电装备产业如何应对风电大年-环球视讯
今天的数据证明:2023年是风电大年!媒体数据统计结果显示,1-4月中旬风电整机招标结果突破了30GW,而同期
-
抚顺市气象局发布大风蓝色预警【Ⅳ级/一般】【2023-04-25】 世界快播报
抚顺市气象局发布大风蓝色预警【Ⅳ级 一般】【2023-04-25】
-
世界头条:中国棉花协会:企业产销平稳,行业继续处于景气水平
中新社北京4月24日电中国棉花协会24日发布的2023年3月中国棉纺织行业景气报告显示,棉纺织企业产销平稳,行
-
数字经济创造时代红利
据大公报报道,“水激则悍,矢激则远。”当前,世界正处于科学范式革命的重要阶段。数字经济在全球经济中占
-
酸味十足!美抹黑中国沙特新未来城合作,沙媒:中国对该计划弥足珍贵
中国斡旋沙特、伊朗复交成功以来,美国部分政客和媒体“酸味十足”,时常挑拨离间。这一次,美媒盯上了中企
-
吉林敖东:2022年9月15日,公司与辛选集团正式签订深度合作协议,引入新型数字电商直播模式 新资讯
吉林敖东00062304月25日在投资者关系平台上答复了投资者关心的问题投资者尊敬的董秘贵公司跟辛选集团深度合
-
如何换ip地址 ip地址如何更换 全球新要闻
Windows10以上电脑系统修改IP地址的常规方法:鼠标点击桌面屏幕右下角的“小电脑”图标,然后依次打开“网
-
分子克隆的步骤及原理_T载体克隆的实验原理
1、重组的DNA分子是在DNA连接酶的作用下,有Mg2、ATP存在的连接缓冲系统中,将分别经酶切的载体分子与外源DNA
-
北京公共建筑将设五级能效等级 低能效公建或纳入差别化能源价格制度
与家电一样,北京的公共建筑也将有能效等级。近日,市发改委和市住建委发布《建立健全北京市公共建筑能效评