AI大模型时代或已走向终局,前路未知
2022年11月30日,人工智能公司OpenAI推出了 AI 聊天机器人ChatGPT,在短短两个月的时间里,活跃用户数突破一亿,成为史上用户数增长最快的消费级应用。ChatGPT成功背后是OpenAI训练的1750亿参数模型GPT-3。一时间AI大模型迅速成为时代焦点,微软百亿美元投资OpenAI,谷歌、特斯拉、百度、阿里、小米等国内外互联网巨头在几个月的时间内纷纷推出自己的AI大模型,OpenAI迅速迭代出GPT-4,几乎每个月都至少有一家科技大公司入局训练大模型,人工智能成为当前最炙手可热的赛道。
(资料图)
然而就在这样一个市场狂欢、科技巨头纷纷“走火入模”的时刻,AI大模型的领军者,OpenAI,却给市场浇了一盆冷水。2023年4月18日在麻省理工学院的活动中,OpenAI的CEO Sam Altman在演讲中警告称:“我们已经处在大模型时代的尾声”,并表示如今的AIGC发展中,将数据模型进一步做大,塞进更多数据的方式,已经是目前人工智能发展中最后一项重大进展,并且还声称目前还不清楚未来的发展方向何去何从。
如果抛开过热的市场预期和浮躁的跟风模仿去分析问题的本质,Altman对未来AI的发展方向是清晰而准确的。其说法侧面道出了OpenAI乃至整个AI赛道参与者目前所面临的现实困境:
1.可用数据枯竭带来的数据瓶颈
OpenAI最早的语言模式是GPT-2,于2019年公布,发布时就有 15亿参数,此后随着OpenAI研究人员发现扩大模型参数数量能有效提升模型完善程度,真正引爆AI行业浪潮的GPT-3.5发布时,参数数量已经达到了1750亿。但人类互联网历史上被保留下来的各种高质量语料,已经在 GPT-3以及后续发布的GPT-4的学习中被消耗殆尽。大模型参数数量仍然可以继续膨胀下去,但对应数量的高质量数据却越来越稀缺,因此增长参数数量带来的边际效益愈发降低。
2.算力爆炸导致边际收益递减带来的经济效益瓶颈
AI三大核心要素是数据、算法和算力,而算力的发展是最为迅速的一环。2020年OpenAI就发布分析报告,从2012年开始,AI训练所用的计算量呈现指数增长,平均每3.43个月便会翻倍,远高于摩尔定律的18个月翻倍的速度。大模型正是在这一背景下诞生的。依托飞速发展的算力,简单粗暴地堆砌参数是提升模型能效的捷径。机器学习先驱Richard S. Sutton著名的文章《苦涩的教训》里开篇就曾说道:“70年的人工智能研究史告诉我们,充分利用计算能力的一般方法最终是最有效的方法。”OpenAI秉承这一简单甚至原始的理念,3年内将模型参数从15亿(在当时这已经是一个天文数字)提高到1750亿,足足拉高了116倍。
参数的爆炸式增长带来的直接后果就是模型成本的指数级上升。2019年以前,人工智能还是个百家争鸣的大众赛道,而大模型带来的投入成本门槛迅速把这个赛道变成了资本聚集、大厂统治的游戏。据业界估计,GPT-3仅训练一次的费用就高达500万美元,行业估计GPT-4的研发加运营成本突破数亿美元。
图 1 ChatGPT回答GPT-3的训练费用
在如此高昂的成本之下,AI如何商业化落地成为业界难题。尽管GPT-4已经表现出了较高的智能化水平,但其局限性也很明显。支持大规模商业化应用所需要的是GPT-X,即模型的场景化和快速更新。面对极度高昂的训练成本,难以形成充分的市场化竞争,类似OpenAI这样的市场寡头也面临投入成本边际效应递减严重的问题,缺乏持续研发迭代的经济激励。这正是Altman所说的“大模型已至终局”而前路未知的根本原因。
3.数据合规、隐私保护、AI伦理层面的风险不确定性
AI的道德风险始终是行业发展中不可规避的话题。在GPT-4发布几日内,特斯拉首席执行官埃隆·马斯克在内的1748人签署公开信,呼吁暂停训练比GPT-4更强大的人工智能系统至少6个月,以评估潜在的AI道德风险。与此同时,专注于人工智能技术伦理的AI和数字政策中心(CAIDP)要求美国联邦贸易委员会(FTC)调查OpenAI是否违反了消费者保护规则,认为其推出的AI文本生成工具“存在偏见、具有欺骗性,并且对公共安全构成风险”。3月31日,意大利国家隐私监管机构正式下令封禁ChatGPT,并指控OpenAI「非法收集个人数据」。 值得注意的是,该「临时禁令」将一直生效,直到OpenAI能够尊重欧盟具有里程碑意义的隐私法——通用数据保护条例(GDPR)。
基于价值互联网的AI新时代三范式
当一项颠覆性技术陷入瓶颈期时,往往需要另一项更加具有颠覆性的技术的介入来突破瓶颈。区块链技术和人工智能作为21世纪数字化技术突破的代表,一直处于平行发展但偶尔交叉的状态。关于区块链与人工智能的结合业界多有讨论,但大多只停留在表层,例如区块链为AI提供分布式数据治理,AI为区块链提供智能化自动执行工具。但随着两项技术的快速迭代发展,各自领域均不断涌现出突破性应用,二者结合所带来的想象空间其实是被远远低估的。
在应用层面,区块链技术发展的速度要远远领先于人工智能。它所创造出的最辉煌应用,就是Web3。
图 2 隐私和扩容技术突破加速应用向Web3迁徙
Web3是下一代价值互联网由区块链特有的激励机制打造的数字资产应用为Web3赋予万亿美元经济价值,成为数字时代的新经济体。Web3是数据所有权的变革,而数据要素是AI的核心生产力。这一内生联系使区块链和人工智能产生了巨大的交互空间,而这交互的核心就是数据要素化。
数据要素化包含确权、加工和共享三个核心环节,在数据确权层面,区块链提供用户与建设者拥有并信任的互联网基础设施;在数据加工层面,区块链构建安全可信的价值互联网;在数据共享层面,区块链创造用户与建设者共建共享的新型经济系统。以数据为核心,区块链可为AI发展提供技术底座、经济模型和商业化场景。在此我们提出基于价值互联网的AI新时代三范式:
(一)支撑AI生产力的是去中心化数据基础设施
数据是数字时代的生产要素,也是AI的核心生产力。OpenAI发布ChatGPT之后,百度迅速发布“文心一言”,但对比之下效果却不甚理想。很多人说原因是GPT的语料库是全球互联网,而“文心一言”的是百度知道和百度贴吧。这当然是言过其实的调侃,但深思其背后的逻辑却是成立的,即大模型的成功依赖于数据来源的广度和开放度。仅从一两个平台获取数据进行训练,必然只会做出有“偏见”的模型。
ChatGPT在这一点上做得很好,依靠互联网的开放度尽可能多地收集了数据,但其主要来源仍然是中心化的数据平台,这也是Web2互联网范式下的数据困境,它会在数据应用层面带来两大问题:
1.数据源枯竭
依赖中心化平台所产生的数据无法保证有稳定持续的数据源来训练升级模型。Altman提到的互联网语料已被GPT穷尽只是问题的冰山一角。更严重的问题是,缺少数据激励会导致新的优质数据越来越少,甚至出现AI无数据可用的问题。
让我们想象这样一个场景。如果说ChatGPT逐渐完善成为唯一的知识平台,Quora、Stackoverflow、知乎等一众知识平台必将失去生存空间,而它们却又是ChatGPT训练的主要数据来源,那未来的ChatGPT又要用什么数据来训练呢?
2.数据质量低下
对于AI来说,平台有自己的应用场景,不会考虑AI训练的需求。平台不会对所谓的“数据质量”做审核,例如知乎上分享的不一定是知识,也可能是刚编的故事。同时根据不同平台的使用人群不同还会产生内容偏见。这也是为什么ChatGPT经常会给出一些明显错误甚至荒谬的回答。
图 3 ChatGPT经典荒谬回答之“林黛玉倒拔垂杨柳”
以上问题的核心是平台数据并没有完成数据要素化。用户作为数据的生产者无法对数据进行确权,导致数据全部归平台所有;平台作为数据的加工者缺乏激励,不会对数据进行应有的加工;模型公司作为数据的使用者与数据生产加工环节严重割裂。而去中心化数据基础设施正是这些问题的解决方案。
在《区块链托管重塑数据要素权益分配机制》一文中,我们提到了Web3是数据要素革命,是数据主权的“还数于民”。在AI新时代里,去中心化数据基础设施将为AI模型提供全生命周期数据解决方案,包括:
(1)数据确权:用户数据通过自主数字身份确权,数据生产者直接参与模型建设周期并获得对等激励;
(2)数据加工:数据加工者(例如模型数据标注、数据质量评价)通过去中心化数据基础设施参与模型建设并获得对等激励;
(3)数据共享:数据生产者通过去中心化数据托管共享数据给数据使用者(例如建模公司),建模公司可以通过智能合约自动化数据获取和建模流程,实现快速模型升级。
(二)支撑AI商业化的是DataFi
Web3的成功在于区块链技术所提供的优秀激励模型和可持续的经济系统。去中心化金融(DeFi)已经创造出了繁荣的数字经济生态和万亿美元的市场价值,以数据资产为核心的数据金融(DataFi)将成为支撑AI商业化的全新商业模式。
在DataFi中,数据作为生产要素会实现通证化。数据的产生、加工、存储和使用都会依照去中心化经济模型自主产生或消耗数据资产通证。数据循环会被充分激励并产生净价值。AI模型的全生命周期都会以一种更加分布式的形式呈现,包括去中心化算力供应商、去中心化数据标注和基于去中心化数据基础设施的数据托管服务商。模型训练不再具有高门槛。
在DataFi中,数据通证会创造出以数据资产为核心的衍生品交易市场。AI生态参与方可以充分挖掘自身的数据价值或服务价值,参与以数据资产为核心的金融衍生品交易、质押、抵押贷款等创新金融服务。数据资产的使用效率得到充分释放。
(三)支撑AI规范性的是分布式数字身份
除了上文提到的数据确权,分布式数字身份也将成为支撑AI合规发展的关键监管技术。分布式数字身份为用户赋予了数据自主权,打破数据控制者对数据的天然垄断,也提升了用户在算法面前的自主权。在AI新时代中,分布式数字身份包含三个主要应用场景:
1.用户分布式数字身份
用户通过分布式数字身份参与AI构建周期,通过数据确权和自主数据主权保护数据隐私,并实现对等数据激励。在合规层面,通过分布式数字身份为用户提供了100%的数据主权,用户对自己的隐私数据拥有完全控制权,能够自主决定数据的披露对象和使用场景,并且结合零知识证明等技术,实现最小化隐私披露,天然符合《数据安全法》《个保法》的相关规定。通过将个人作为数据共享的载体,是《个保法》中个人信息可携带权的体现,结合自主身份使得个人数据可以遵从本人意愿向数据使用方(例如建模公司),严格符合GDPR等国际数据共享法律法规。
2.模型分布式数字身份
在AI新时代中,模型独立且唯一的数字身份。用户可以通过数字身份像选择商品一样选择模型,并且通过模型数字身份解决使用量证明、版权纠纷和版本管理等问题。
3.数字人和AIGC分布式数字身份
对于AI构建出来的实体(例如数字人)颁发唯一数字身份,并在法律层面规范其标准与权利范围,实现AI的合规和可控。
基于分布式技术的强AI时代蓝图
理查德·费曼(Richard Feynman)在1985年的一次讲座中第一次提出了“强人工智能”的概念,为我们描绘了一个全知全能的AI时代。后世人们不断讨论这个概念,但对强AI的具体定义和未来图景众说纷纭。斯蒂芬·霍金将强AI称为对人类的最大威胁,马斯克称研究强AI就是在“召唤魔鬼”,但人类仍然对它趋之若鹜。有人说是因为结束人工智能研究则意味着放弃了改善人类状况的机会,也就是使人类文明更加美好或者维持下去的机会。那么如果采用了区块链技术,强AI时代蓝图会有什么不同?
强AI时代不是指一个全知全能的AI出现,而是无数个AI的产业大繁荣。区块链使产业高度去中心化,每一个个人都可以同时成为模型的使用者和训练方。每一个模型都拥有自己的数字身份,高度智能也相互独立。模型的使用场景高度细化,使用方式由智能合约定义。
强AI时代模型训练成本极低而迭代速度极快。通过去中心化网络串联模型全生命周期参与方,数据使用效率达到极致。在很多业务场景,模型可以根据实时业务需求实现毫秒级生成和毫秒级迭代,一次性模型成为可能,“模型流”成为模型主流应用方式。
强AI时代控制权通过数据绑定在人类手中。Web3实现数据自主拥有,AI可以自迭代算法,但数据所有权牢牢掌握在人类手中。“AI控制人类”的末世传说不会实现。
标签:
-
全球快资讯:汪德嘉:区块链是开启人工智能大时代的关键变量
AI大模型时代或已走向终局,前路未知2022年11月30日,人工智能公司OpenAI推出了AI聊天机器人ChatGPT,在短
-
花卉产业红红火火
花卉产业红红火火
-
Lcom扩展物联网光检测环境传感器产品线_当前头条
InfiniteElectronics品牌和有线和无线连接产品供应商L-com最近宣布扩展其物联网光检测环境传感
-
特拉斯面向其他品牌新能源车辆试点开放充电网络 共覆盖25个省份 实时焦点
对于非特斯拉车辆,用户需要下载TeslaApp,注册账户,选择“为非Tesla车辆充电”并查找附近已经开放的充电站。
-
福建首季锂电池出口同比增169.8%
随着全球绿色能源转型步伐加快,欧美、中东等地区的家庭储能电源、小型工业储能电源等储能产品需求迅猛增长
-
热点题材 |“AI+”概念是什么?(附十大概念股)
所谓AI即人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能
-
上海一女孩逛商场被人跳楼砸中,谁来承担责任?商场有无责任? 天天快播报
真倒霉啊!上海一女子正在逛商场时,突然被一名从天而降的男子砸中,男子经抢救无效后死亡,被砸中的女子可
-
2023年“三支一扶”计划选派3.4万名高校毕业生-世界滚动
新华社北京4月24日电(记者姜琳、魏弘毅)人社部人力资源流动管理司副司长孙晓丽24日表示,人社部将会同有
-
游客汇聚神农谷 提前引爆“五一”游|天天新动态
游客汇聚神农谷提前引爆“五一”游
-
1-4月招标规模超30GW,低价内卷下的风电装备产业如何应对风电大年-环球视讯
今天的数据证明:2023年是风电大年!媒体数据统计结果显示,1-4月中旬风电整机招标结果突破了30GW,而同期
-
抚顺市气象局发布大风蓝色预警【Ⅳ级/一般】【2023-04-25】 世界快播报
抚顺市气象局发布大风蓝色预警【Ⅳ级 一般】【2023-04-25】
-
世界头条:中国棉花协会:企业产销平稳,行业继续处于景气水平
中新社北京4月24日电中国棉花协会24日发布的2023年3月中国棉纺织行业景气报告显示,棉纺织企业产销平稳,行
-
数字经济创造时代红利
据大公报报道,“水激则悍,矢激则远。”当前,世界正处于科学范式革命的重要阶段。数字经济在全球经济中占
-
酸味十足!美抹黑中国沙特新未来城合作,沙媒:中国对该计划弥足珍贵
中国斡旋沙特、伊朗复交成功以来,美国部分政客和媒体“酸味十足”,时常挑拨离间。这一次,美媒盯上了中企
-
吉林敖东:2022年9月15日,公司与辛选集团正式签订深度合作协议,引入新型数字电商直播模式 新资讯
吉林敖东00062304月25日在投资者关系平台上答复了投资者关心的问题投资者尊敬的董秘贵公司跟辛选集团深度合
-
如何换ip地址 ip地址如何更换 全球新要闻
Windows10以上电脑系统修改IP地址的常规方法:鼠标点击桌面屏幕右下角的“小电脑”图标,然后依次打开“网
-
分子克隆的步骤及原理_T载体克隆的实验原理
1、重组的DNA分子是在DNA连接酶的作用下,有Mg2、ATP存在的连接缓冲系统中,将分别经酶切的载体分子与外源DNA
-
北京公共建筑将设五级能效等级 低能效公建或纳入差别化能源价格制度
与家电一样,北京的公共建筑也将有能效等级。近日,市发改委和市住建委发布《建立健全北京市公共建筑能效评
-
焦点要闻:搓麻“高手”突变“菜鸟” 原是脑里长了瘤子
73岁的高女士,本是搓麻“高手”,却突变“菜鸟”,就医检查才知竟是脑里长了瘤子。4月18日,术后经两周精
-
河南省启动社会保障宣传周活动
为进一步推动实现全民参保、应保尽保,持续扩大社会保险覆盖面,让社会保障政策惠及更多单位和群众,4月24
-
李学明到我校作党的二十大精神宣讲和廉政教育专题辅导报告
2月14日上午,寿光市委常委、市纪委书记、市监委主任李学明到我校作党的二十大精神宣讲和廉政教育专题辅导
-
dnf恢复角色的方法_有什么方法呢
欢迎观看本篇文章,小柴来为大家解答以上问题。dnf恢复角色的方法,有什么方法呢很多人还不知道,现在让我
-
三孚新科04月24日沪股通持有量8.23万股|环球今日讯
04月24日,三孚新科获沪股通增持5952股,最新持股量为8 23万股,占公司A股总股本的0 09%。
-
仕佳光子:4月24日融资买入8547.84万元,融资融券余额3.35亿元
4月24日,仕佳光子(688313)融资买入8547 84万元,融资偿还9294 35万元,融资净卖出746 51万元,融资余额3
-
东南大学:情况属实,决定免职!-每日热门
4月24日晚,东南大学官方微博发布通报——网传该校马院负责人袁某某在某微信群里发不雅图片,学校对此高度
-
拼多多Temu欧洲五国正式上线,加快全球扩张步伐
拼多多Temu在欧洲继续加速。
-
Mysteel早读:11家钢厂降价,西北联钢拟减产比例不低于30%
◎中钢协副会长姜维表示,总体看,房地产仍没有明显的复苏上升态势,钢铁需求大幅提升尚无动力。汽车行业有
-
soso音乐安卓版(soso音乐网)_全球今头条
soso音乐安卓版,soso音乐网这个很多人还不知道,现在让我们一起来看看吧!1、在空间点击上传网络音乐。2、
-
优秀!长沙民政职院学生荣获八个国赛一等奖
4月23日,第十四届蓝桥杯全国软件和信息技术专业人才大赛省赛(软件类)公布比赛成绩,长沙民政职院共计获
-
又连发2个招标!通州7村棚改,继续马不停蹄赶进度!
好消息传来!通州7村棚改,又连发两个招标!真是马不停蹄赶进度!今天刚出炉的招标公告,还透着热乎劲儿!