OpenAI时隔一年再出“王炸”

中美AI差距缘何再度拉大？

2024-02-20 08:46:00

　　本报记者樊三彩

　　“一只狼对着月亮嚎叫，感到孤独，直到它找到狼群。”

　　“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。”

　　“一只猫叫醒熟睡的主人，要求吃早餐。主人试图忽视这只猫，但猫尝试了新的策略，最后主人从枕头下拿出秘密藏匿的零食，让猫再呆一会儿。”

　　…………

　　能想象吗，这些清晰流畅的视频场景，竟然出自一款人工智能模型。2月16日，OpenAI时隔一年再出“王炸”，宣布推出全新的生成式人工智能模型Sora。该模型可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。截至目前，其官网已经更新48个类似的视频demo（样片）。

　　这一突破引起业内人士广泛关注的原因在于，2021年初和2022年末，OpenAI先后推出了图像生成系统DALL·E和聊天机器人ChatGPT。此次则是继图像、文本之后，将先进的AI（人工智能）技术拓展到了视频领域，视频相关业务或将首当其冲。工业4.0研究院院长胡权告诉《中国冶金报》记者：“当国内还挣扎在4秒AI视频的连贯性的边缘时，OpenAI已经可以制作60秒的视频了。当我们以为快要追赶上他们的脚步时，突然发现差距正在越来越大。”

　　中美AI差距或在加大

　　基础研究不到位是关键

　　通过文字生成视频，对于大模型而言，难在哪里？华为技术有限公司运营商服务解决方案规划部客户技术总监顾廷权表示：“sora是根据人的文字描述（类似简单剧本）生成相应的视频（类似MV电影），这就需要为模型训练数据做高描述性的标注，大模型不仅要理解提示的内容，还要构建这些内容在物理世界中的存在方式。”

　　OpenAI发布的Sora核心论文显示，Sora采用了一种Transformer架构，能够处理视频和图像潜在编码的时空片段。它创新应用了多项技术，如实现视觉数据创新转化的补片技术（先将视频数据压缩到低维度潜在空间，再将其分解成时空补片，进而实现从视频到补片的转化）、视频生成的Transformer扩展技术等。

　　“同样是生成虚拟空间，其实数字孪生相较于Sora的难度更高。”顾廷权剖析道，“数字孪生与自动驾驶类似，可以划分为若干成熟度等级（如L0、L1、L2、L3、L4等），目前大多数字孪生都在L2级以下，仅实现了可视化和虚实简单交互等功能。”胡权同样认为：“相较于数字孪生体的先进应用（不是当前一些人认为的可视化或局部的仿真），OpenAI做的东西还没有涉及物理世界，难度当然要小得多。”

　　同时，我国也在大力发展人工智能大模型，据不完全统计，目前已达上百个。既然如此，为何中美人工智能领域差距始终存在，并且再度加大？360创始人周鸿祎微博发文认为：“尽管国内大模型发展水平表面看已经接近GPT-3.5，但实际上跟4.0比还有一年半的差距。OpenAl手里应该还有一些秘密武器，无论是 GPT-5，还是机器通过自我学习自动产生内容，奥特曼（OpenAI CEO）是个营销大师，知道怎样掌握节奏，他们手里的武器并没有全拿出来。这样看来，中国跟美国的AI差距可能还在加大。”

　　在胡权看来，基础研究不到位是差距形成的关键所在。“由于ChatGPT-3.5已经实现开源，国内很多大模型公司都在这一基础上开展研究，这意味着我们在沿着别人的技术路径前进，因而很难实现超越。”他表示，目前国内存在一种资源错配的现象，如很多科研院所也在开展大模型应用研究以图盈利，当前的科研体制导致我们很难形成开创性的突破。此外，新型的AI发展需要大量投资，目前国内的投资强度远远不够；产业环境不利于创新，例如，监管过于严格，企业无法低风险试错。他建议，国家通过设立基金的方式来支持人工智能的发展，而不是指定企业或项目，这样才能让那些真正有实力的项目涌现出来。

　　AGI不再遥远工业应用犹可期

　　值得注意的是，Sora并非完美。正如公开的核心论文所说：“作为一个模拟器，Sora当前还有许多局限。比如，它无法精确模拟像玻璃破碎这样的基本物理互动。有些互动，比如吃东西，并不总能正确反映物体状态的改变。我们在OpenAI Sora 介绍页中详细列出了模型的其它常见失误，包括长时间视频样本中出现的不一致性或物体的突然出现等问题。”

　　即使存在这样的局限，也无法掩盖其依旧是一款划时代的人工智能模型，依旧是“向着创建能够模拟物理世界的通用工具迈出的有前途的一步”。

　　周鸿祎认为，Sora 的诞生意味着实现 AGI（通用人工智能）可能从10 年缩短至一两年。“有了大模型技术作为基础，再加上人类知识的引导，可以创造各个领域的超级工具，例如在生物医学、蛋白质、基因研究以及物理、化学、数学的学科研究上，大模型都会发挥作用。”他表示。

　　科技创业公司研究机构PitchBook估计，2023年全球生成式AI的市场规模将达到426亿美元，2026年则将达到981亿美元，未来增长动能可期。而不断涌现的生成式人工智能，其对于人类的影响每次都会引发广泛关注与讨论。

　　周鸿祎表示，这次OpenAI利用它的大语言模型优势，让Sora实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出2D的范围模拟真实的物理世界。“这次 Sora对物理世界的模拟，至少将会对机器人具身智能和自动驾驶带来巨大的影响。原来的自动驾驶技术过度强调感知层面，而没有工作在认知层面。其实人在驾驶汽车的时候，很多判断是基于对这个世界的理解。比如对方的速度怎么样，能否发生碰撞，碰撞严重性如何，如果没有对世界的理解就很难实现真正的无人驾驶。”他说。

　　“在大模型与人类或企业的关系上，如果大模型良性发展，会成为人类的AI助手；反之，会被大量滥用，再由国家力量禁止或打击。”胡权指出。

　　至于在工业上的应用，胡权表示：“通过文字生成视频，已经没有原理上的障碍了，但工程上的困难还比较多：一是设计一个应用系统，这里面涉及一些类似黑箱的模块，看起来OpenAI不会开源；二是需要用数据来训练算法，否则无法生成好的结果，类似ChatGPT的模型算法一样；三是计算能力，跟随者需要拥有类似的计算能力。”

　　相关链接

　　AI在赞比亚

　　探测到巨型铜矿

　　2月初，利用AI勘探铜、锂等绿色转型所需金属的硅谷独角兽KoBold Metals宣布，公司在赞比亚Mingomba项目上发现了巨型铜矿储量。这家公司背后的投资者是由比尔·盖茨牵头，贝索斯、马云、孙正义、达利欧、布隆伯格等人参与投资的突破能源风险投资基金，以及普徕仕等知名机构和挪威国家石油公司。

　　据悉，该公司利用AI技术大量读取分析所有地球卫星拍摄的地质图片、激光地球扫描数据，以及全球的地震波数据，并用时一年重新绘制了一张精细无比的全球地壳矿藏分布图，并借此在赞比亚探测到一个巨型铜矿。

　　多家科技企业承诺打击

　　滥用人工智能干扰选举

　　2月16日，全球多家科技企业在第60届慕尼黑安全会议(慕安会)上签署协议，承诺在2024年这个多国举行重要选举的年份打击旨在干扰选举的人工智能滥用行为。人工智能的负面影响被此届慕安会列为全球主要安全威胁之一。

　　微软将在德国投资

　　32亿欧元发展人工智能

　　2月15日，微软公司总裁在德国首都举行的一次活动上表示，未来两年，微软将在德国投资32亿欧元，重点发展人工智能。作为该公司过去40年来在德国进行的最大一笔投资，微软将在2024年和2025年把大部分资金用于建立数据中心和培训人工智能人才。

　　日本计划2024年

　　引入生成式人工智能立法

　　近日，据日经新闻报道称，日本执政党自民党计划在2024年提议政府引入生成式人工智能立法。

　　《中国冶金报》（2024年02月20日 04版四版）

来源：中国冶金报-中国钢铁新闻网

编辑：宋玉铮

下一篇：唐钢获评全国首批数字化转型贯标三星级评估...

版权说明

【1】凡本网注明"来源：中国冶金报—中国钢铁新闻网"的所有作品，版权均属于中国钢铁新闻网。媒体转载、摘编本网所刊作品时，需经书面授权。转载时需注明来源于《中国冶金报—中国钢铁新闻网》及作者姓名。违反上述声明者，本网将追究其相关法律责任。
【2】凡本网注明"来源：XXX（非中国钢铁新闻网）"的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点，不构成投资建议。
【3】如果您对新闻发表评论，请遵守国家相关法律、法规，尊重网上道德，并承担一切因您的行为而直接或间接引起的法律责任。
【4】如因作品内容、版权和其它问题需要同本网联系的。电话：010—010-64411649