青萍荟 | “抢饭碗”还是“打辅助”？Sora能给文艺带来什么？

2024-03-01

阅读：来源：中国文艺评论网作者：收藏

编者按：近日，OpenAI发布的人工智能文生视频大模型Sora一经问世，便一石激起千层浪。Sora可以根据用户的文本提示创建最长60秒的逼真视频，深度模拟真实物理世界，生成具有多个角色、包含特定运动的复杂场景……对此，有人欣喜若狂，有人焦虑难安。AI为艺术创作带来的是无限可能还是“抢饭碗”？对于文艺工作者来说，应该思考如何利用AI促进文艺更好发展，如何规避其带来的风险隐患，文艺评论应如何有效介入并加以引导……鉴于此，中国文艺评论家协会、中国文联文艺评论中心特别策划青萍荟专题约稿，围绕“Sora与文艺创作”等话题，约请文艺评论家撰写短评、开展短视频评论。

站在科技与文艺的十字路口，无需彷徨

——Sora大模型带来的思考

包冉，中国通信标准化协会互动媒体标准推进工作委员会副主席

近日，关于Sora可能对影视、广告、游戏乃至无人驾驶等垂类行业的深度影响正得到迅速关注和深度挖掘。其中，也不乏关于AI是否带来行业颠覆、岗位替代与失业浪潮的新一波恐慌。

无论如何评价，Sora都意味着AI工程技术的伟大创新。其背后则是基础科学研究的扎实进步。简言之，DiT(基于Transformer架构的扩散型算法Diffusion Transformers)、DALL·E文生图模型、时空补丁技术(Spacetime Patch)，分别从“架构层-模型层”“统一图像与视频的数学解释”“创造视频大模型训练语料基本单元”等三个维度，锻造了Sora成功的必要前提，加上OpenAI一直坚持的“大(算)力出奇迹”(“大模型缩放定律”)这一充分条件，合力投下Sora震撼弹。

在巨大的算力加持下，在互联网海量视频/图像语料喂养下，Sora迈出的第一步，已经展现出惊人的理解力、创造力和仿真力，势必为文艺创作和文化创造注入强劲内应力，带来巨大外部影响。

其一，过去边界相对分明、各具特色的文艺门类，如文学、影视、戏剧、音乐等，日益展现出多模态一体化创作的工具可能和趋势必然。新一代文化、文艺工作者，均可在AIGC乃至未来的AGI(通用人工智能)的帮助下，一次构思、多模输出，展现出“毕其功于一役(All-in-One)”的创作过程。这可能令人激动，但也确实容易令人惶恐。因为参照AI的成长速度，未来不能掌握AI辅助创作工具的艺术家，不管此前成就和名气多大，其生产效率和作品多样性，均将大大受限。同时，新一代艺术家，大概率将创造出新的融合艺术表达载体和艺术类型，就像电音对传统音乐的丰富和当年电影作为一种“新媒体&新媒介”跻身人类艺术圣殿一样。

其二，立足当代、面向未来的文化、文艺工作者，最起码要懂得并善用AI，科技工作者则要去理解文化、文艺规律。当然，术业有专攻，很难面面俱到，但趋势要明了、技术要跟踪、实践要跟上，唯有如此，才能抵达新的文艺创作自由王国。

其三，中国文艺的既有内容审核体系将受到一定程度的冲击。科技创新与内容审核之间的长期悖论，在人工智能时代爆发出的发展与安全之间的矛盾，将很快到达一个零和博弈的临界点。我们必须坚守底线，但面对巨潮一般的内容生产力爆发，如何保持内容的质量和合法性，同时不压制科技创新带来的AI文艺繁荣，是整个中国文化产业将面临的一大挑战。

从微观视角看，各行业从业者无需对AI的出现产生过度焦虑，在可预见的未来，人类的独有能力依然存在，即对语言和文字的娴熟掌握、精准表达，对艺术的高品味直觉和对无穷想象力的激发。

从Sora看“生成”与“创作”的本质区别

薄一航，北京电影学院美术学院副教授、硕士生导师

继ChatGPT之后，Sora的出现再次掀起了人们对人工智能技术“敬畏”的浪潮。作为一种通用的视觉数据模型，其稳定性、一致性、真实性、时长以及对输入文字的理解方面都有着质的进步与革新，这也都取决于Sora学习过程、学习方法的改进以及学习样本数量和质量的提升，也犹如人在学习过程中的“熟能生巧”“勤能补拙”。正是借助惊人的存储能力和算力，机器的确做到了人在短时间内无法完成的事情。然而，无论是Sora也好，还是Midjourney、ChatGPT也罢，他们所能完成的依旧是“生成”的任务，是一个从“有”到“有”的过程，是对已有内容的重新处理与组合，而非从“无”到“有”的“创作”。“生成”不等于“创作”，其对象是数据，其工具是算法和计算机程序，其生成过程是学习模仿、统计分析、复制合成，其作品中渗透的情感更多的是原始艺术作品中所表达的情感的一种提炼或缩影。

从艺术本体论的角度来讲，“人”才是艺术创作的核心与灵魂，任何一部艺术作品都是创作者情感的认知与表达。创作者丰富的个人内心情感和人生阅历以及长期的社会生活体验与观察是激起他们创作欲望的火种。创作者在生活中的所见、所闻、所遇、所感均为其艺术创作提供了直接的素材和灵感，同时，他们与外界进行沟通时所得到的各种启迪和信息为其艺术创作提供了间接的素材和启发。没有无缘无故的情感，艺术构思的过程是情感生长的过程，意象物化的过程是情感呈现和表达的过程。这里的情感正是机器生成的作品所不具备的。列夫·托尔斯泰认为“区分真艺术与伪艺术，有一个肯定无疑的标志，即艺术的感染力”。著名哲学家苏珊·朗格也曾说过“艺术品本质上就是一种表现情感的形式，它们所表现的，正是人类情感的本质。”

面对突飞猛进的技术，我们还是要保持客观、理智、冷静的头脑，不跟风，不盲目追随，厘清每个事物内在的本质，不一味追捧，也不一味排斥，而是要合理、合适地运用好这些新生事物来辅助艺术创作。人机协同、人机融合的模式将会是未来一种新的艺术创作模式，人依旧是艺术创作的核心，既可以很好地运用机器的存储能力和算力，又可以充分发挥人在艺术创作中的灵感与情感。

Sora生成的视频(来源：OpenAI官网)

AI与艺术的未来是双向奔赴

马仕骅，中国音乐学院作曲系电子音乐教师

虽然近两年迅猛发展的AI技术已经极大地拉高了人们的期待值，Sora的出现还是让数字艺术业界感到惊喜。相较于先前的同类模型，它对于文本指令理解的准确性、生成画面的真实度都可谓是飞跃。按照目前的发展趋势，AI模型执行艺术创作任务的质量一定会赶超人类创作者。在一些工业化的艺术创作流程当中，它们必定将更深入地参与到文学、影视、美术、音乐等的内容创作中，在一些环节中取代传统人工。

使用AI工具进行文艺创作的效率虽高，但在现阶段还存在明显问题，例如作品风格趋同化，这类问题在视听媒体创作中体现得尤为明显。艺术作品的形态会受到创作工具的影响，工具本身越复杂，这种影响就越深刻。当创作者仅凭画笔作画时，其作品必然包含更多的个人技法和审美修养，也更富于个性。而使用AI模型作画时，本属于创作者大部分实际工作都会转移给模型完成，因此该类作品的效果会带有强烈的模型算法特征，即使作者使用自己的作品作为训练集交给模型作为参考，这类问题也无法规避。因此，即使风格迥异的创作者，使用相同的模型进行创作时，他们的作品也会存在近似之处。在这个问题解决之前，大部分创作者尚且不用担心失业的问题。

虽然当前的AI工具还存在问题，但解决方案也并非难事。AI模型输出的趋同化与其当前的“黑箱”状态有关：用户无法知道其内部构造，只能通过浅层互动使用它，没有深度定制的可能性。这样的推广方式虽然有利于将其普及给更多用户，却也封闭了专业创作者施展创意的空间。目前，以OpenAI为代表的厂商已经开始为一系列的艺术创作模型开放更多接口，让它们能够接入到专业创作平台中，并且允许用户深度定制其行动方式，这样的AI工具对于专业人士而言无疑是很好的伙伴。

AI工具在不断改良，文艺创作者也需要积极学习计算机科学，不断拓展自身知识结构以便获得驾驭它们的能力。相信在AI技术无处不在的未来，坦然面对并善于学习的艺术家定能找到与AI相处的美好方式。

不必恐慌：Sora时代的创作之难与评论之智

刘宣伯，清华大学新闻与传播学院博士生

能够以文字生成视频的AI模型Sora作为OpenAI公司推出的新一代人工智能产品，如同之前的聊天机器人ChatGPT、图像生成器DALL·E一样，一经推出就引发了行业内外热议。和同赛道产品相比，Sora取得了突破性进展，不仅能够生成长达60秒的视频内容，并且能够在一个视频里实现分镜合理的多角度拍摄，视频画面中的主体运动、遮挡关系、光影变化均能够被很好地表现。如此专业的视频生成能力使很多影视从业者开始担心AI技术会使得大批摄像师、剪辑师等创作者“丢了饭碗”。

但在恐慌之后细思，以Sora目前展现出来的能力，还远不足以取代影视行业的多数工作者。首先和人工智能模型“说明”自己的需求就构成了阻碍其广泛使用的第一道门槛。即使目前人工智能模型已经能同人类使用自然语言无障碍聊天，但细致而准确地将自己脑中的画面传达给AI并非易事。一方面，用户很难将自己脑中的画面具象化为精准的文字讲述给AI；另一方面，用户也不能通过“监视器”对画面进行实时调整，只能在不断发出指令和等待内容生成中循环，很可能反而降低了内容生成的效率。其次，人工智能模型依赖人类大量数据输入进行学习，对人类世界的理解是片面的、滞后的，而视频创作又势必需要它补充大量画面细节内容，AI知识的缺陷就很容易暴露在影像内容中。最后，AI的视频创作归根结底是“虚构”，因此在纪录片、新闻片等题材上，AI视频不仅无法发展，反而会遭到弃绝。

不可否认，Sora是具有变革产业潜力的新工具。它将极大降低视频创作的门槛，促进视频内容市场的繁荣，帮助优质创意快速实现。它也将降低专业制作者的劳动强度，帮助行业产生更多视觉作品。可以预见，AI相关技能将成为未来影视工作者的必备，而科技企业也将在影视行业拥有更大话语权，行业内势必迎来新的角力，形成新的格局。

在经济结构变动之时，行业的价值判断也将随之震荡。文艺评论在这一情况下就更具意义。先进的制作技术不等于先进的思想精神，纵使AI制作再精良，也需要文艺评论工作者帮助文艺创作者把握正确的价值方向，形成新的创作共识和审美共识。与此同时，AI视频工具所带来的视频内容“爆炸式”增长也要求文艺评论工作者为受众筛选出其中的优秀作品，以提升市场整体品味。同时，文艺评论工作者要引导正确的舆论方向，形成对技术的监督，降低AI视频可能造成的社会危害。

Sora生成的视频(来源：OpenAI官网)

狼真的来了吗？——关于Sora与文艺创作

赵德志，央视网光华锐评评论员

每一次的技术进步，都会引发人类社会“狼来了”的担忧。此次Sora凭借精准的文本理解能力、视频生成能力，携几十段较高专业水准的视频“强势出圈”，意味着大模型从文生图、文生文，到文生视频能力的进阶、迭代。这些视频没有明显的AI味儿，首次让人类更加直观、强烈地感受到大模型带来的冲击、震撼。

然而，Sora并不算完美，仍存在一些不成熟之处，比如它可能难以准确模拟复杂场景的物理特性、无法理解因果关系的具体实例、混淆提示的空间细节。但它的出现，对文艺创作者而言，或许能带来不一般的能量，他们并不是谁取代谁的问题，而是一种共生状态。

无论是ChatGPT还是Sora，技术进步更重要的意义，在于为人所用，并为人所享。通过机器的分析和挖掘，文艺创作者可以更加深入地了解自己的创作风格和受众需求，从而更加有针对性地进行创作，利用它帮助自己更高效地实现创意转化、精品打造，提升人机协作的创造力。还可以促进不同领域之间的交叉融合，例如，文艺创作者可以利用生成式AI技术将不同学科的知识、技术和方法进行有机结合，创造出具有独特视觉效果和交互性的艺术作品。这种跨领域的合作不仅可以打破传统的创作限制，还可以开拓新的艺术领域和表现形式。值得注意的是，在利用生成式AI技术提高艺术创作效率的同时，也要考虑它的数据库从哪来，所有基础数据是否合法、合规、合乎伦理。

本雅明在《机器复制时代的艺术作品》中提到艺术作品所独具的是“灵韵”，生成式人工智能可以将更多蕴含在普通人想象中的“具象化”，为世界提供更丰富的作品，但其创作的灵感源自于人类的输入和训练，它无法真正替代文艺创作者的独特创造力和情感表达能力，但是它可能慢慢地会像我们日常使用的word软件、微软电脑系统和键盘等等，不再是一种需要特地强调的存在，而是成为一种日常辅助工具。

签发：袁正领

审核：张利国

责编：艾超南杨静媛

延伸阅读：

青萍荟|阿尔特曼的魔法：关于Sora的祛魅/赵瑜佩

青萍荟|在眼见不一定为实的时代，用魔法打败魔法？/刘书亮

青萍荟|艺术家如何与Sora代表的“暴力美学”共舞？/岳路平

关
注
我
们

中国文艺评论网
“中国文艺评论”微信公号
“艺评中国”新华号

上一条：已是第一篇了下一条：青萍荟|阿尔特曼的魔法：关于Sora的祛魅/赵瑜佩

继续阅读

引导创作 推出精品 提高审美 引领风尚

青萍荟 | “抢饭碗”还是“打辅助”？Sora能给文艺带来什么？

引导创作推出精品提高审美引领风尚