大模型拼应用最新战况:智能助手扎堆袭来

中国青年报  |  2024-09-10作者:朱彩云

    AI将成为人类从事各种生产和活动的代理。AI等技术的大规模应用将重塑人的内涵,进而重塑人们的社会关系。

——————————

    “出圈”近两年的大模型,正迎来应用边界的进一步拓宽。

    9月5日开幕的2024Inclusion·外滩大会上,复旦大学计算机科学技术学院教授黄萱菁分享了AI智能体(AI Agent)最近有多“热”:不仅工业界的国际国内巨头公司开始布局研发基于大语言模型的智能体,学术界把智能体用于科研创新如预测、分析多蛋白复合物结构,众多开发者还在聊天、购物、游戏、具身智能(具有物理实体并具备感知、决策、执行及交互能力的智能体——记者注)等领域应用智能体。

    “大语言模型更偏向于对话与答疑,基于大模型的智能体更像人类的助手,偏向于感知环境、规划决策并采取行动。”黄萱菁介绍,目前,智能体应用已经适配在出行、政务民生、餐饮、景区、医疗、金融等领域场景。

    大会开幕当天,AI生活管家、AI金融管家、AI健康管家等AI智能体亮相黄浦江畔。在大会所在地、曾见证我国工业发展的江南造船厂旧址,共30余项AI新成果相继发布。

    在清华大学人工智能研究院常务副院长孙茂松看来,当前智能体的发展得益于语言大模型在生成能力、代码生成、图像处理及3D建模等方面的进步。他认为,智能体技术正润物细无声地走进大众生活,但这是一个量变引起质变的过程,“可能需要通过几年迭代和积累,其性能才会有显著提升。”

    从“拼参数”到“拼应用”

    从1年半前的百模大战,到今年5月大模型领域掀起的价格战,出席本次大会的不少大模型厂商感受着大模型近两年来发生的变化:性能提升和成本下降。

    “去年行业主要在做模型基础,中国也在巨大的市场期望里跟进追赶、证明自己。”百川智能创始人兼CEO王小川习惯用“全新的时代”形容智能时代,他说,在智能时代,大模型带来的是生产力的直接提升。

    一个明显的案例是,去年12月谷歌公司推出的大语言模型Gemini在MMLU(大规模多任务语言理解)测试中,以90.0%的高分首次超过人类专家。该大模型从一开始就被创建为多模态模型,这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息,包括文本、代码、音频、图像和视频。

    “大模型正从‘拼参数’走向‘拼应用’。”蚂蚁集团总裁韩歆毅认为,大模型产品的目标可以浓缩为:好用、有用和用得起。对于用户,这意味着一种全新的、更加直观的交互体验;而对于商家,则意味着能够更深入地理解用户需求,进而提供更加结构化和个性化的服务。

    他以大会开幕首天发布的AI生活管家“支小宝”为例说,该应用基于蚂蚁百灵大模型打造,具备国内首创的服务执行与智能陪伴能力。

    具体来看,用户说句话就能办到的事包括快速订票、点餐、打车、查询附近吃喝玩乐、看医保余额、异地就医备案、给亲友转账或发红包、搜寻电子社保卡等。

    “智能体能发挥大语言模型的专业性,带来各种服务的迭代升级。”在黄萱菁看来,具身语言智能体所具备的视觉问答、图片生成、标题生成、动作规划和操控等多模态的输入和具身输出的方式,很可能是迈向通用人工智能的关键之一。

    《连线》杂志创始主编、《5000天后的世界》作者凯文·凯利则认为,AI落地产业需要时间,“仅仅消化现有技术,可能就需要5-8年时间。”他在与韩歆毅线上对谈时表示,目前人们把AI主要运用于一些工具型任务,价值主要体现在提升效率上。他认为,金融和医疗领域会最先应用并受益于AI的发展,“因为这两个行业信息密度高。此外,广告和营销行业也会是最早受到影响的行业之一。”

    人机交互新方式

    让数字分身分担工作,由AI健康管家找医生、读报告、陪看诊,用语音喊AI金融管家帮助解读市场热点、分析行业板块……适配不同领域场景的AI助手正进入人们的生产与生活。在复旦大学计算机科学技术学院教授、上海市数据科学重点实验室主任肖仰华看来,AI将成为人类从事各种生产和活动的代理。AI等技术的大规模应用将重塑人的内涵,进而重塑人们的社会关系。

    香港科技大学校董会主席、美国国家工程院外籍院士沈向洋则认为,AI智能体时代的到来,不会是一个神奇而强大的模型突然代替了所有的工作流,“它涉及技术、工程与市场的不断磨合,最终以超预期的服务呈现给人类。”

    他尤其提到人机交互的新方式指向“AI与IA(Intelligent Augmentation,即智能增强——记者注)”的融合共进。这意味着一种以人为本的AI发展路径,它聚焦于运用技术提升人类的能力,而非取代人类,强调人类与AI之间的协作关系。

    “(大模型产业)未来的发展路径已经非常明确,将会从之前的大语言模型到多模态模型,未来迈向世界模型。未来一定会往具身智能方向上发展,往机器人方向走,其中一个特殊形态就是自动驾驶。”沈向洋从算力角度介绍,大模型可分为通用大模型、行业大模型、企业大模型和个人大模型,其中通用大模型是AI的基础,要训练一个通用大模型至少需要万卡,行业大模型是做领域应用的底座,需要千卡级别的训练。

    国家网信办数据显示,截至2024年7月30日,我国已经完成备案的生成式人工智能服务大模型已达197个,从大模型的类型看,通用大模型、行业大模型分别占比31%、69%。从行业大模型的类型看,教育领域19款、金融领域18款、办公领域15款、政务领域11款、医疗领域11款,且正在向传媒、招聘、家装、心理等更广阔的场景延伸。

    “更多高质量、高价值的数据是在私域,在垂直行业,在千行百业,再往前走就是个人数据。”在肖仰华看来,目前的大模型还不能够胜任专业任务,要想做到提供专业任务,用好私域数据可能是关键,“所以数据待挖掘的潜力仍然十分之大。”

    关注“走得慢”的人

    可以肯定的是,以智能体为代表的AI助手在帮助解决具体问题上具备优势。用西湖大学深度学习实验室成果转化负责人、西湖心辰CEO醒辰的话来说,大部分语音大模型在智商赛道不停比拼,“但大量的沟通场景不是光靠智力就可以完成,还需要情商与沟通能力。”

    这也是很多人面对AI助手的真实需求。既是教师又是父亲的严锋,是复旦大学中文系教授、博士生导师,他在大会期间参加圆桌讨论“AI重塑未来生活的无限可能”时坦言,自己最希望有一个AI助手、机器人来陪伴自己的孩子。“因为我的孩子是一个孤独症患者,孤独症的核心问题是人际交往(存在)障碍。”

    “我买了很多智能音箱,我相信这是未来通向陪伴机器人的一种先驱,它们也在进化。”严锋说,正是通过有意识地问这些放在客厅、卧室的智能音箱,他知道了孩子感兴趣的是远古动物、中世纪历史,“我再向音箱提问的时候,孩子就会主动参与进来。”

    好消息是,针对陪伴领域的个性化需求如情绪疏导、客户服务、儿童陪伴等,已有应用落地。醒辰以大会期间正式发布的国内首款端到端通用语音大模型心辰Lingo为例说,该大模型在处理对话时直接理解语音,捕捉语气、节奏和情绪,并进行语音回复,通过减少信息处理过程中的损失,让“机器”更懂人。

    “近几年大部分AI数字人都是以工具来设计的,所以它首要目的是解决用户遇到的问题,其次才是提供情绪价值。但是随着很多AI技术的快速发展,大模型智能体对话能力越来越强,设计者开始更多关注数字人等AI助手如何更好地去解决情感方面的问题,提供情绪价值。”蚂蚁集团数字人算法负责人杨明晖告诉中青报·中青网记者,随着动态大模型包括视频生成技术的快速发展,可能到明年就会有比较成熟的数字人方面的应用,“你输入一张图片,然后就可以和图片中的角色语音对话,角色的表情和动作都可以生动自然。”

    强脑科技创始人兼CEO韩璧丞认为,在技术发展非常快的时候,科研工作者应该更关注那些“走得慢”的人,比如肢体障碍人士、脑疾病患者群体。

    过去10多年,这名哈佛大学脑科学中心博士生一直专注于脑机接口底层技术的研发。他认为,脑机接口技术在未来5-10年内,会发生3个阶段的变化,分别是修复、增强和更高阶的交互。“下一代的交互会变得更高阶,比如现在是通过语言对话,未来可能不需要再通过语言对话,收到提问我们想一想就(把想法)传递出去了。”

中青报·中青网记者 朱彩云 来源:中国青年报

责任编辑:潘圆,宁迪,王国强