青萍荟|阿尔特曼的魔法：关于Sora的祛魅/赵瑜佩

2024-02-28

阅读：来源：中国文艺评论网作者：赵瑜佩收藏

编者按：近日，OpenAI发布的人工智能文生视频大模型Sora一经问世，便一石激起千层浪。Sora可以根据用户的文本提示创建最长60秒的逼真视频，深度模拟真实物理世界，生成具有多个角色、包含特定运动的复杂场景……对此，有人欣喜若狂，有人焦虑难安。AI为艺术创作带来的是无限可能还是“抢饭碗”？对于文艺工作者来说，应该思考如何利用AI促进文艺更好发展，如何规避其带来的风险隐患，文艺评论应如何有效介入并加以引导……鉴于此，中国文艺评论家协会、中国文联文艺评论中心特别策划青萍荟专题约稿，围绕“Sora与文艺创作”等话题，约请文艺评论家撰写短评、开展短视频评论。

OpenAI官网

阿尔特曼的魔法：

关于OpenAI文生视频模型Sora“祛魅”的冷思考

在ChatGPT上被验证过的模型性能缩放法则(scaling laws)，被OpenAI CEO阿尔特曼移植到视频领域后，被证明其“大力出奇迹”。无论是光影色彩的转变，还是多镜头移动，甚至细微到纹理结构变化，都呈现出大片质感。在内容供给端，Sora被评价为像当年的智能手机一样，将降低内容创作者门槛，扮演效率工具，使内容供给更加丰富，其主要影响以下几个行业：

一是影视行业。体现在降本增效和供给丰富度等方面，从机遇角度看，中短期内，文生视频模型无法完全替代专业影视制作，利好更多体现在以下几个方面：一是节省制作成本，例如减少在场景搭建、昂贵拍摄设备租用乃至部分服化道方面的成本，并缩小拍摄团队规模；二是提高制作效率，最直观的是Sora“时长感人”，视频时长大幅提升可以直接生成意向性镜头素材。三是提升生产力，将文生视频技术与IP结合，网文企业不仅能和影视行业展开合作，也可以打造更多可视化网文产品，增加用户粘性。AI+IP的组合，可以帮助网文企业以理想的成本制作出高质量的短剧，有望高效地帮助中国短剧出海。从挑战上看，文生视频模型的进展会让拍摄和制作门槛下降，因此策划、创意和IP变得更加可贵。且每个普通人都将有机会制作自己的电影与朋友分享，在非影院级市场上，更多具有良好创意的且制作水平不凡的平民作品将会涌现。有专家认为，“AI制作的视频不会取代传统的好莱坞电影制作，但可能会占据更多的市场份额，尤其是在年轻人群体中”。二是短视频行业。Sora等模型将从供给端降低短视频制作难度、丰富素材来源和呈现形式。不过，这类技术对短视频并非完全“友好”，举例来说，与Sora同时发布的谷歌最新Gemini模型已能提炼长视频中的“精彩瞬间”，拥有从长视频中生成短视频的能力，这种技术与长视频平台结合，甚至可能分化短视频行业的吸引力。三是游戏行业。游戏是生成式AI重要的落地场景，此前不少游戏公司已在AI绘画、场景建模、智能NPC等方面使用。Sora也将在“降本增效”和玩法创新等方面助力游戏过场动画得到优化，对3D模型的理解以及强大的物理世界仿真能力会影响游戏底层工具的发展。

Sora生成的视频(来源：OpenAI官网)

Sora发布引起轰动，国内不同专家学者和行业人士一度对这一技术充满了赞誉、惊讶甚至担忧情绪。随着讨论的深入，舆论中也出现一些“冷思考”，希望给“神化”的Sora“祛魅”。

一是认为Sora的实际影响未必具有颠覆性。一方面，从应用的角度看，Sora在技术上仍有不足，除了对物理规则的理解还存在不足外，其分辨率相对人眼的实际需求来说还算不上高清，这会限制其应用场景，影响落地。另一方面，正如专家所说，只有效率提升足够大，才能让用户改变习惯，Sora对效率的提升能否跨过“阈值”将影响它是否能带来颠覆。此外，相比于语言模型的使用，图片、视频生成还有一定技巧和门槛，对Sora的“养成”可能会诞生驯化师般的新职业，又或Sora热因此归于平静。二是认为Sora并不完全理解物理规律。OpenAI将Sora描述为“世界模拟器”，也提醒道，Sora可能难以准确模拟复杂场景的物理原理。比如，受数学家顾险峰关于流行嵌入理论、灾变理论等分析启发，Sora目前包含3大矛盾：1. 相关性与因果律的矛盾，如在Sora生成的视频中，当老奶奶吹了生日蜡烛的时候，蜡烛的火苗却纹丝不动。这意味着Transformer用以表达令牌之间的统计相关性，无法精确表达物理因果律。Sora只是在大量数据和算力训练下达到了“知其然，不知其所以然”的程度；2. 局部合理与整体荒谬的矛盾，如Sora生成的“南辕北辙跑步机”视频，如果我们观察每一个局部区域，看到的视频都是合理的，视频令牌间的连接也是自然的，但是整体视频却是荒谬的，跑步机与跑步者的方向相反。这个视频的全局观与来自于人体工程学的事实相悖。3. 临界状态的缺失。如，Sora生成的果汁泼溅视频中，有两个稳定状态，水杯直立的状态，和果汁已经泼溅出来的状态，但是最为关键的临界状态：果汁从杯中流洒出来的过程却没有生成出来。虽然只有短暂的几帧，但是对于人类感知整个过程却是非常重要。可见，识别数据流形的边界对于识别临界状态非常重要，这需要大量的人工标注。因此，它离狭义的“世界模型”和AGI仍有距离。三是认为善用AI提升生产效率，创意将更显珍贵。生成式AI所蕴含的深层次、革命性力量是不容低估的，与其揣着“饭碗焦虑”，建议将之视为工作的“搭子”，利用它帮助自己更高效地实现创意转化、精品打造。无论是ChatGPT还是Sora，技术进步更重要的意义在于，让更多人可以不被简单重复的劳动所束缚，从而去创造更大价值。文化与艺术产业想要制胜未来，不能逃避而只能主动拥抱人工智能新浪潮。

Sora生成视频截图(来源：OpenAI官网)

在围绕Sora的热烈讨论中，有不少思考对如何打造国产Sora有一定启发性。一是要重视底层原理的研究与投入。虽然加快应用落地一直是中国大模型行业发展的重要方向，不过我们始终还是需要“有人聚焦底层之变，硬仗有人打”，才能紧紧跟上。二是要营造多元的创新生态。人才也好，算力也罢，科技的突破更像基于自由探索的“探宝行动”，转角遇奇迹。如华为麒麟9000S芯片受益于虚拟货币、英伟达离不开游戏的“涵养”，多元的创新环境滋生惊喜。三是要以理性平衡的态度看待Sora。短期不夸大其影响，长期不低估其影响，避免“阿玛拉效应。”

（特别鸣谢腾讯数字舆情团队张彦对此文的贡献。）