ChatGPT3.5问世一周年,生成式AI热潮剑指何方:多模态、生态融合……
每经记者 文巧 每经编辑 兰素英
图片来源于网络,如有侵权,请联系删除
图片来源:视觉中国
2022年11月30日,一款名为ChatGPT3.5的AI应用程序横空出世,让人类第一次体验到了与AI的自然对话。这款由OpenAI开发的聊天机器人,不仅能够回答各种问题,还能够创作诗歌、故事、歌曲、代码等内容,甚至能够模仿名人的风格和语气。它的出现,开启了生成式AI领域的新篇章。
而在ChatGPT3.5发布满一年之际,当地时间12月6日,谷歌CEO桑达尔·皮查伊官宣了Gemini大模型,这是谷歌自旗下类ChatGPT应用Bard问世以来最强力的更新,足见谷歌在AI大模型军备竞赛上誓与OpenAI和微软一较高下的野心。
回顾过去的12个月,ChatGPT影响着各行各业,也重新定义了人类与AI互动的方式。全球见证了生成式AI技术的寒武纪式爆发,国内外科技巨头围绕AI酣战,不遗余力地快速更新大模型产品,新的AI创业公司也雨后春笋般涌现。2023年,可谓是生成式AI之年。
随着新一年的开启,生成式AI是否将延续今年的迅猛模式,其发展又将呈现出什么样的趋势?
科技界风口:7个月有268个大模型问世
在大语言模型领域,OpenAI是毫无疑问的王者。ChatGPT3.5仅用5天就突破了百万用户,而在推出仅2个月的时间,其月活用户突破了1亿,成为史上用户增长速度最快的消费级应用程序。此后,ChatGPT的每一次更新迭代都可谓是行业的风向标。
ChatGPT3.5的出世也让科技界的大模型之火越烧越旺。《中国人工智能大模型地图研究报告》显示,截至2023年5月底,国内 10 亿级参数规模以上基础大模型至少已发布 79 个,而美国这一数字为100个,全球累计发布大模型202个。
赛迪顾问《IT 2023》系列IT深度第一期的数据则显示,截至2023年7月,全球累计发布268个大模型,其中中国130个,国外138个。
从这两组数据可以看出大模型在全球如火如荼的发展。
而随着OpenAI GPT-4V的正式发布,生成式AI大模型多模态能力竞争的帷幕也正式拉开。今年11月,GPT-4更是迎来史诗级的重磅更新:OpenAI推出了GPT-4 Turbo和GPT商店,使“人人都可定制GPT”成为现实。外界分析认为,这是OpenAI构建AI生态的重要一步,也是未来新创业机会的起点。
而谷歌Gemini大模型的发布更是被外界视为可能再一次打破人类的认知边界。这是谷歌迄今为止功能最强大、最通用的大模型。它能够处理视频、音频和文本等不同形式的信息,相较于此前的版本,Gemini可以进行更复杂的推理,并实现更细致的信息理解。
可以说,在这12个月的时间里,硅谷几乎发生了翻天覆地的变化。在大模型的加持下,各类垂类应用逐渐兴起,全球已经涌现了如Stable Diffusion、Pika等成千上万个AI图像或视频生成工具。
图片来源:每经记者 兰素英制作
科技巨头酣战:英伟达“躺赢”,苹果“沉默”
凭借与OpenAI的结盟,微软一开始便在生成式AI领域牢牢占据领先位置。
面对微软的捷足先登,谷歌反应最迅速,一开始就拉响红色警报,展开对微软和Open AI的全面反击战——从与ChatGPT竞品Claude的开发公司Anthropic合作,到迅速推出聊天机器人Bard,到发布大模型PaLM 2,再到如今官宣Gemini 模型,足以可见谷歌迎头赶上的决心。
除此之外,为了与OpenAI和微软展开竞争,谷歌在今年4月直接将谷歌大脑(Google Brain)和 DeepMind合并,Gemini 就是汇合了两个实验室的力量进行攻关的。
在这样的浪潮下,其他科技巨头也出现快速调整战略方向。今年4月,特斯拉CEO埃隆·马斯克便创建了自己的AI公司X.AI,并在11月推出了AI大模型产品Grok,尽管业内认为Grok的能力还只是个“婴儿”。
而在Meta今年的多次财报会议上,AI是该公司CEO扎克伯格提及最多的关键词。据《纽约时报》,曾宣称元宇宙才是未来的扎克伯格也围绕AI重组了公司的部分部门。今年7月,Meta发布了最新的Llama 2 AI大模型;9月,Meta又发布了一款名为Meta AI的AI聊天机器人。
亚马逊的热情也是不遑多让。今年11月,亚马逊推出了AI聊天机器人Q,旨在帮助员工简化总结文档、进行研究和生成电子邮件草稿等任务。
图片来源:每经记者 兰素英制作
在这场激烈的角逐中,英伟达毫无疑问是最大赢家之一,该公司已经成为生成式AI行业的主要供应商,其所销售的 GPU是如今所有有意在 AI 生成式大模型领域创造成绩的企业的唯一选择。该公司的A100和H100 AI芯片就被用于构建和运行ChatGPT的AI应用程序。11月,英伟达又推出了最新款高端芯片H200,将为AI模型带来进一步的性能飞跃。
据《纽约时报》,微软在2023年春季购买了超过20亿美元的英伟达芯片以保持领先地位。《每日经济新闻》记者注意到,今年以来,英伟达股价已累计上涨近220%。
然而,在今年上半年如火如荼的科技巨头角逐中,苹果却罕见地“沉默”了。华尔街分析认为,人才缺失、业绩增长瓶颈等问题可能是阻碍苹果参与竞争的因素;也有分析认为,这是由于AI对苹果核心硬件业务的影响并没有那么明显,因而苹果高管始终保持观望。
直到今年7月,彭博社科技记者马克·古尔曼曝出,苹果正借助其大语言模型的自有框架Ajax,开发一种类似ChatGPT的聊天工具人服务,被内部工程师称为苹果GPT。外界才首次在本轮生成式AI浪潮中看到苹果的身影。
美国科技券商Wedbush在一份报告中表示,“苹果在AI军备竞赛中落后于竞争对手,并且已经快要没有时间追赶了。”报告认为,此前苹果推出的Vision Pro就是更广泛战略的第一步,该战略旨在为客户群构建一个生成式AI驱动的应用生态系统。
生成式AI发展将呈现三大趋势
尽管生成式AI今年实现了爆发式发展,但这种发展速度可能不会一直持续。
在技术和媒体行业拥有超过25年经验的纽约大学教授Jamyn Edis表示,当使用的数据达到界限时,该领域的发展会慢下来。“你需要数据来喂养机器,当我们寻求摄取越来越多的文本、图像、视频和其他媒体格式和数据集时,在某个时刻,你将开始到达地平线的边缘。”他说道。
而对于生成式AI领域的未来趋势,业界普遍认为走向多模态这点是不容置疑的。自GPT-4V发布以来,多模态已成为大模型的兵家必争之地。
英伟达AI软件副总裁卡里·布里斯基认为,“多模态已崭露头角,基于文本的生成式人工智能将成为过去。尽管生成式AI仍处于起步阶段,但预计许多行业都会采用多模态的大型语言模型,允许消费者使用文本、语音和图像的组合,对有关表格、图表或原理图的查询提供与上下文更相关的响应。”
另有分析认为,生成式AI战场之一或将转变至AI生态的打造和融合。据英伟达官网一篇预测2024年AI趋势的文章,大型语言模型研究的进步将越来越多地应用于商业和企业应用程序中。RAG(检索增强生成)、自主智能代理和多模式交互等AI功能将部署在几乎任何平台上,也更易于访问。
值得注意的是,谷歌在发布Gemini大模型时就透露,该模型将与谷歌旗下生态的深度融合, Gemini将通过谷歌产品推向数十亿用户。Gemini Nano版本则是适用于移动端的大语言模型版本,谷歌旗下的Pixel 8将是第一款直接在端上运行Gemini 的智能手机。谷歌还计划在未来逐步将Gemini的底层AI能力推向旗下全线产品。
在这一点上,华尔街认为,基于消费者需求进行技术嵌入或许会成为苹果的一项优势。资产管理公司Aegon Asset Management的投资经理Allan Clarke表示,未来大众与生成式AI的大部分日常互动很可能是通过一些设备进行的。
“手机是这些设备中最好的例子,而苹果公司处于一个很好的位置,它拥有如此强大的品牌和设备阵容,硬件和软件之间也有如此紧密的耦合。这正是消费者想要和期待的。”
OpenAI GPTs的推出则让业内广泛认为这是该公司欲建立一个类似苹果App Store的AI生态。英伟达企业计算副总裁曼努维尔·达斯则认为,这种定制化的AI服务将作为一种新的趋势,降临到每个企业身上。“公司不会只拥有一两个生成式AI应用程序——许多公司将拥有数百个使用适合其业务各个部分的专有数据的定制应用程序。”
伴随着生成式AI的快速发展,AI的安全自是不可忽视。
Snowflake AI高级副总裁Sridhar Ramaswamy说道,“尽管生成式AI正在重新构想我们与机器交互的方式,但在广泛采用AI和语言模型的最初几年中,仍然存在一些直接的负面影响,这些问题将特别具有挑战性,在早期很难控制,其中包括失业、深度造假和日益加深的数字鸿沟,私营部门和政府需要一起努力解决这些问题。”
Zama企业发展副总裁Ghazi Ben Amor说道,“当我们迈入2024年,一种令人担忧的阴影笼罩着——AI潜在的重大违规行为。我们委托给AI系统的数据越多(从患者记录到录音),泄露的可能性就越高。随着行业的不断发展,必须优先考虑保密性。到2024 年,这些模型的评估方式预计将发生范式转变,AI的有效性将不再仅仅通过其预测能力或处理速度来衡量。相反,焦点将集中在安全措施以及这些模型保护关键知识产权和最终用户数据的能力上。”
免责声明:本文内容与数据仅供参考,不构成投资建议,使用前核实。据此操作,风险自担。
推荐阅读: