2024年2月16日凌晨(美国当地时间2月15日),自OpenAI团队发布文生视频大模型——Sora技术以来,10天,已经在全世界掀起了AI科技的浪潮,从实体经济中的市场主体企业到虚拟经济里的A股市场,人工智能文生视频技术已经成为了这个年度的科技顶流。面对冲击和挑战,中国企业必须以时不我待的紧迫感,以只争朝夕的责任感,开启中国文生视频AI大模型的探索之路。
一、从chatgpt1.0 到文生视频Sora,人工智能都发生了哪些变化?
2022年11月30日一家名叫OpenAI企业上线了一款实验性产品——ChatGPT3.5。这款由OpenAI开发的聊天机器人,不仅能够回答各种问题,还能够创作诗歌、故事、歌曲、代码等内容,甚至能够模仿名人的风格和语气。它的出现,开启了生成式AI领域的新篇章。2023年2月OpenAI推出GPT的API编程接口,只要接上API就能够做自己的AI应用,甚至可以搭建一个大模型。编程接口开放后,“套壳AI”如雨后春笋,中国“大模型之战”正蓄势爆发。复旦大学发布中国首个类ChatGPT模型,百度、阿里云、网易等企业,相继宣布研发类似ChatGPT的相关产品。3月15日,OpenAI发布了千亿级参数的多模态版本GPT4.0;百度在3月16日发布中国首个生成式语言大模型文心一言。紧跟步伐,AI绘图工具Midjourney更新了第五版它生成的1990年代背景的情侣照彻底引爆中文互联网。OpenAI的天使投资人马斯克联合1100多名专家发表公开信,要求所有AI实验室立即暂停6个月,意大利政府下令封锁ChatGPT,三星电子的员工因ChatGPT,造成公司机密的泄露。350名全球人工智能专家联名警告“AI或给人类带来灭绝性的风险”。2023年8月份OpenAI推出ChatGPT企业版,越来越多的组织卷入到大变革中,中国大模型亦在加速,百度“文心一言”向公众开放服务,腾讯“混元大模型”进入应用内测,智谱华章上线AI助手“智谱清言”,到2023年9月阿里云的“通义千问”大模型正式向公众开放,中国的大模型超过了100个。2024年2月16日凌晨(美国当地时间2月15日),开发出ChatGPT的OpenAI团队在官网上对外放出数段视频,这些视频全部由全球首个文生视频大模型——Sora根据用户提示词自动生成。据Sora官网,其引发关注的一段视频的提示描述为“一位时尚的女士漫步在东京街头,街上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手中提着一个黑色手提包。她戴着太阳镜,涂着红色口红。走路时自信而随意。街道潮湿且反光,形成了彩色灯光的镜面效果,许多行人来来往往。”除上述视频外,OpenAI在首页一口气展示了其余47部Sora自动生成的视频。
证券研究机构表示“Sora的发布也意味着AGI有望加速到来,是AGI实现过程中的重大里程碑事件,而不仅仅是视频生成。”仅需要一段文字,Sora模型就可以生成一段60s的1080p视频,包含不同景别镜头。不由得让人感叹——“真实和虚幻的差别,到底还有多大距离?”二、AI的技术迭代对文化产业哪些具体的行业和领域带来了机遇和挑战?
自Sora问世,引爆了国内各行各业的关注,三川汇文化产业(ID:schwhcy)综合网上的各种评论和信息,分析起来,Sora技术,会对多数行业产生潜在影响,理论上可能颠覆影视制作、传媒业、广告创意、游戏设计、虚拟现实、教育等多个行业。但应用何时落地,距离真正商业化还有多远,都暂未可知。面对OpenAI的文生视频冲击,国内外业内专家和机构,有持开放拥抱的态度,有危机紧迫的态度,谨慎观望的,还有积极进取努力赶超的。一起来看看Sora问世10天来,给业界带来了哪些机遇和挑战吧!1.对短视频行业比如字节跳动、抖音的影响:
Sora发布,最直观的影响就是AGI视频创业公司。对于字节跳动来说,Sora的出现无疑是对于剪映的一大威胁。就在Sora问世的一周前,原抖音集团CEO张楠卸任,转而投入剪映,反映出抖音对于AIGC工具的重视。随着Sora的不断发展,剪映如何才能学习Sora并创新,成为当务之急。近期有市场消息称,字节跳动在Sora引爆文生视频赛道之前,已在研发一款名为“Boximator”的创新性视频模型,相当于中文版Sora。对此,字节跳动相关人士回应证券时报记者表示,Boximator只是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。除此之外,Sora类AI模型对于好莱坞以及电影、电视、广告等领域的影响是最直观的。把现有的短视频简单分为两类,一类由真人出镜,往往真人就是一个账号甚至一家公司的“核心资产”,Sora对这类内容的冲击并不大;另一类由素材集合而成,考验拍摄、创意能力。Sora的出现,将大幅提升这类视频的生产效率。从AI 制作视频的流程上来看,当前的Sora需要先输入一段文字,随后再生成视频,视频的原创性还是在依赖着创作者的审美,Sora的工具属性更加突出。比起原创内容,Sora的优势更在于,那些需要耗费大量人力物力的特效片段。所以,也有网友预测,虽然未来视频制作流程中的剪辑师、特效师等后期岗位会面临更为严峻的处境。但过往那些受限于拍摄成本、拍摄技术的内容,则会更受关注。理想的情况下,Sora未来能够代替更多机械、重复的工作,使得创作者可以集中精力于创新的、深度的解读,给文化消费者们提供更优质的内容。此外,由于AI的理解内容更加偏向于输入“关键词”,而非剧本。所以在未来,如何创作出适合AI 理解的剧本,从而生成视频,也是值得关注的问题。综合多位业内人士的观点,在类型上,目前Sora对真人出镜类短视频影响较小,对动漫类、解说类内容影响比较大,甚至会淘汰很多没有创意、只蹭热点的批量做号公司。在岗位上,部分做机械性重复工作的人员可能会面临淘汰,但创意类人员会被提至更高位置。Sora的出现降低了短视频创作门槛,会有越来越多的人加入,跟他们抢夺流量和变现机会。2.对影视动画行业的影响
中国香港青年导演朱智立告诉蓝鲸财经记者,“它(Sora)对电影行业的影响只是一个时间问题,因为它已经把画面做到非常真实、有细节,包括一个女人在东京街头的画面,连脸上的雀斑都能做到非常真实。”朱智立向蓝鲸财经表示,Sora对宣传片、广告片的影响会更大,“电影还有剧本、情节、台词等复杂因素,而在广告、宣传片行业,冲击可能会更快到来。如果提示词可以细节到分镜,那AI不仅仅是帮助导演画分镜和视觉参考图了,而是直接可以做成更高效的动态分镜预览,或者等技术更成熟时可以直接用来做成影视作品。”但360公司创始人周鸿祎则发文表示:“今天很多人谈到Sora对影视工业的打击,我倒不觉得是这样,因为机器能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意,至少需要人给提示词。一个视频或者电影是由无数个60秒组成的。今天 Sora 可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败TikTok,更可能成为 TikTok的创作工具。”3.对文旅行业的影响
Sora表现出来的能力在最浅表层次将从三个层面影响文旅产业。其一,文旅营销和宣传推广。文旅营销对视频产品和社交平台正处于深度依赖阶段,这一AI新技术必将对文旅产业产生长远影响。无论是图文时代的《孤独星球》还是PC互联网时代的马蜂窝、穷游,还是现在的抖音、快手,图文、视频都是文旅业营销宣传最为依赖的介质,这些内容是我们认识世界最重要的资料之一。但昂贵的制作成本让很多美景、美食、目的地不被大众所熟知。Sora将带来内容创作与品牌传播的革命。Sora模型可以为文旅产业提供全新的内容创作工具。对宣传方来说,文旅宣传的成本有可能极大降低。无论是目的地营销,还是景区、酒旅企业,在视频宣传制作上的巨大投入,将来有可能用一段几百字的文字就可以搞定,而且实现制作更精良、更富想象力的效果。对于文旅机构目的地及企业方,可以利用Sora生成吸引人的宣传视频,这些视频可以展示目的地的美景、文化活动和特色体验。对于文旅产业的内容创作方,目前视频制作普遍存在的成本高、自然条件受限、拍摄技术有限等缺点,利用AI技术可以更快速地制作出高质量的宣传视频、旅游攻略、文化展示等内容,而无需昂贵的实地拍摄。这将极大地降低营销成本,缩短制作周期,同时提高内容的吸引力和传播效率。文字与视频相比,不但成本极低,而且更有细腻、丰富的表现力。若文生视频技术不断突破物理表现的瓶颈,达到与文字高度一致的表现力,文本的竞争力将成为文旅宣传的核心竞争力。对平台方而言,聚合文旅营销业务将变得更加困难。目前,文旅种草的商业投放正在成为以小红书、抖音为代表的社交平台的重要商业板块。但在AI时代,随着普通创作者在技术加持下将大规模涌现,且创作能力可能与专业团队不相上下,用户的需求和注意力将更加分散,平台目前基于大数据对旅游需求的分析和对目标人群的锁定将愈发困难,在此基础上与供应链商家的合作也将面临困境。对消费者来说,旅游信息将会爆炸性增长,但对于决策来说,这未必一定是好事。因为,Sora时代的文旅也将面临一个巨大的挑战,那就是“真实性”。其二,可以推动虚拟现实体验提质升级。文旅的体验受制于时间和空间两个维度,时间上大多只能依托于自然和文化资源,品味当下的呈现而无法沉浸式体验其历史和未来,空间上受制于大投资且长周期场景搭建和资源开发。将来Sora也许可以根据用户的个性化需求生成定制化的沉浸式体验内容,如根据用户的旅行偏好推荐旅游路线,或者为游客提供虚拟旅游体验。这将增强游客的互动性和参与感,提升旅游体验。在文旅产业中,Sora可以用于创建虚拟现实(VR)和增强现实(AR)体验,让游客在不离开家的情况下就能预览旅游目的地,增强旅游决策的互动性和沉浸感。其三,可以更容易搭建呈现沉浸式文博与文化场景。对于文化遗产的保护和利用,Sora可以帮助创建历史场景的复原视频,让游客更直观地了解历史和文化,提高教育的趣味性和参与度。我们到了故宫只能横断面地感受历史的断层,而无法轻易穿越。未来,Sora加上VR设备将使我们轻易实现西部世界中的沉浸感。比如,我想看看一百年前的故宫,一百年后的故宫,以及三百年叠加的影像是什么样。时下,文旅产业可能只能用高昂的制作成本来表现些许的细枝末节,从成本和资源限制上可能根本无法实现Sora这样的表现能力。如果能够大规模实现,一个场景接上大模型,一个虚拟体验设备就可以让千人千面的体验实现,试想,迪士尼耗资五亿美元的飞跃地平线还有竞争力吗?综上,以上这些认识也许还只是十分浅表的皮毛,对文旅业的影响也许远不止如此。4.对经济形态、生产力和就业的影响
Sora 释放出的生产力浪潮,将直接影响千万人的就业和生计,整个社会的运行也将发生深层次的变革。一是给市场主体生存带来新的竞争压力。依靠 AI 生产的视频、图片等内容将变得极为便宜,这必定会挤压现有从业者的生存空间。数据资产入表后,数据资源的货币价值将大幅提升,这将使得数据相关企业的盈利能力和竞争力增强,而传统的影视制作企业将面临更大的成本压力和市场挑战。二是推动更多传统行业实现数字化转型。基于生成式内容的新型娱乐形式、游戏互动等也将层出不穷,创造出新的经济增长点。文化大数据的应用将为文化产业带来新的增长空间,促进文化和科技、文化和旅游、文化和教育等领域的深度融合,提升文化的创新力和影响力。
三、中国版的Sora在哪?
我们必须正视Sora所带来的警示。中国绝不能在核心科技上失去优势和话语权。要知道,在两次工业革命中,正是曾经的科技落后导致我们付出了巨大的代价。今天,中国同样承受不起在AI赛道上的落后。所以,从国家层面到企业和个人,我们必须迎难而上,主动拥抱AI变革。中国的AI大模型同样早已在文生视频赛道布局。2023年3月,阿里达摩院就放出了“文本生成视频大模型”,并在开源模型平台上对外测试。百度文心一言则在正式发布的支持多模态文本生成视频能力基础上,在去年8月又上线了文本转视频原生插件。不过,这些AI大模型生成的视频与Sora相比还有一定差距,一方面是体现在持续时长上,绝大多数视频时长还在4-10秒左右,其连贯性也有所不足。另一方面是镜头的组合,绝大多数视频都是单镜头;而Sora已实现了在一个视频里面,多角度镜头的组合。例如,在剪影动画中,视频从一只狼对着月亮嚎叫,直到它找到狼群,切换了不同景别的多个镜头。面对 Sora 这样颠覆性的新技术,我们不能因循守旧,而要顺应其发展趋势,转换思维模式,全面拥抱 AI。需要及早布局,从政策引导到科研布局再到产业扶持,形成系统性“加速器”,帮助 AI 等前沿技术更快落地应用,使其惠及广大人民。一方面,我们要加强对 Sora 等新技术的研究和监管,防止其滥用和滋生。Sora 虽然具有强大的视频生成能力,但也可能被用于制造虚假和误导性的信息,对社会和个人造成伤害。我们要建立健全的技术评估和审核机制,规范和引导 Sora 等新技术的合理使用,保障数据安全和隐私权,维护社会公序良俗和道德规范。另一方面,我们要加强对 Sora 等新技术的创新和应用,提升其价值和效益。Sora 虽然具有强大的视频生成能力,但也需要不断地优化和改进,以适应不同的场景和需求。我们要鼓励和支持 Sora 等新技术的研发和创新,拓展其应用领域和范围,提升其质量和效率,使其能够为社会和经济发展提供“新质生产力”。在制度层面上,要加快新旧动能转换,形成有利于创新的政策环境和市场规则。在资金支持上,要加大前沿技术的投入力度,特别是重点扶持初创企业。在产业协同上,要打通从科研到应用的孵化链条,让更多 AI 创新成果转化为现实生产力。在个人素质上,要强化全民对新技术的理解和适应能力,这是应对变革的社会基础。只有这样,中国才能在新一轮科技革命和产业变革中立于不败之地,最终成为领头羊。
结语
目前的Sora仍处于1.0阶段,在处理精细的背景时常常出现力不从心的情况,但没人会否认Sora对于AGI实现路程上的里程碑地位。AI风口下,Sora的出现让我们看到了AGI实现的可能,也逼迫着同行业内不断创新发展。尽管海内外文生视频的技术水平尚有差异,普遍预测,2024年人工智能向多模态模型演变将成为重要的趋势,Sora的出现更是将全球目光聚焦于视频生成领域,有望大幅降低短视频等内容创作门槛。视频、游戏、动画等创作公司已密切关注Sora和积极布局相关文生视频应用。2024年大模型一定会逐步进入到百行千业,与具体业务和产品功能相结合,危机挑战与行业赋能并存。让我们拭目以待,大模型发展如何为新质生产力赋能!