不要温和地走进AIGC
1811年11月,英国,诺丁汉市西北一处小镇里,一群愤怒的纺织工人挥舞着锤头与斧子,一窝蜂地冲进车间里,将几台机器砸得粉碎。
后来,这场运动的大火熊熊燃烧到整个英格兰大陆,这些反抗工业化的人们被称为“卢德主义者”。
他们是被工业革命灭绝的最后一只恐龙。
01.“寻求一种解放”
一直以来,内容创作世界里,都存在着大量的重复动作,它们繁冗、耗时,却又本质上与创作无关。
比如,文稿校对者为了找出错别字,一次又一次地重复阅读一篇文章,读得眼睛都发酸、发胀。
再比如,画家灵感迸发,在画布上挥毫而就一幅巨作,然后花上十倍的时间对整幅画面的每一处细节重复勾线、加阴影、卡闭塞、勾线、加阴影、卡闭塞……
视频制作则更是重灾区。视频拍摄的原始素材动辄长达几十、甚至几百小时,后期剪辑师不仅要用肉眼逐一观看,还要一而再再而三地对其进行重复识别、筛选、剪辑切割,在AI出现之前还要用耳朵一遍遍听原片内容,手动添加字幕。
这些过程既无趣,又冗长,而且与真正的人类创造力几乎毫无关系。创作者们的大量精力都被分散到了这些重复环节,真正用来创作的部分少之又少。
AIGC对于内容创作者的意义,正是将他们解放出来,让创作者的精力更好地用于探索创意极限,而重复、冗杂的工作交给AIGC,让创作者的产能不再受到制约,让优质内容能够爆炸式增长。
听起来这一天似乎很遥远,但实际上,由AI辅助生成的视频创意内容已经来到了我们身边。
去年冬奥期间,央视体育新媒体和总台技术团队联合阿里云视频云、阿里巴巴达摩院联合打造了“AI云智剪”智能视频剪辑工具。
基于阿里AI视频理解技术EMC2与阿里云强大的流媒体处理能力,AI云智剪能够实时解析并提取赛事视频中的运动员信息、精彩动作、镜头类型、赛程信息、运动员特点等,并自动生成多种类型的集锦视频,大规模解放剪辑师压力。
去年整个冬奥期间,阿里AI云智剪共生产出39878段素材,时长超过200小时,覆盖超200场比赛。
AI视频生成之外,通过和云计算结合,AIGC还能够从根源上颠覆电视台与演播室的工作流程,将原本庞大、复杂、昂贵的演播环节,全部集成在一台普通的手机上。
比如,在连续多届的全国两会期间,人民日报新媒体记者的手机里就装进了一款内容创作增效“神器”:两会“AI编辑部”移动版。
这是基于阿里云视频云的“AI编辑部”衍生而来的定制化智能媒体生产产品。通过“AI编辑部”,记者所拍摄的现场视频素材既能由5G网络同步回传后方,也能由记者在前方即时剪辑。从发现线索、获取素材,到拍摄制作、审核签发,以及发起直播、连麦访谈等系列动作,都能通过一部手机实时完成。
曾经有人认为,文字与图片都是高度结构化的信息,能够被AI轻易替代无可厚非,但是,视频内容信息量大、非结构性数据多,是AI尚未攻克的坚固堡垒。然而,事实不攻自破。
02.“未来是属于AI的?”
去年9月,一幅由AI创作的绘画作品《太空歌剧院》获得美国科罗拉多州艺术博览会数字艺术类别冠军,几乎标志着AI作画的“AlphaGo时刻”。
《太空歌剧院》(Théâtre D’opéra Spatial)
这幅作品是基于AI生成的画作加上人类画师的后期绘制,这一点被业内人士大为诟病,指责作者以AI为噱头,实际上依旧需要人类加工。这些质疑AI作画能力的人忽略了一个重要因素——进化。
是的,我们浸在AI风潮里却不太经意,往往低估了AI大模型的学习与进步能力。
仅仅在几年之前,人工智能还是被戏称为“人工智障”的存在。人们时常拿间或出现的“翻车”案例证明AI与人类的差距,却忽略了这项技术在最近数年间突飞猛进的进化能力。
在当前的AIGC领域,AI全自动生成的文字与图片,在不少时刻都几乎能达到“以假乱真”的效果。
在视频制作领域,对比文字、图片,视频的信息量最大、非结构化数据最多,AI需要对于视频内人物、物品、场景、关系等高阶信息进行理解,加之视频制作本身对于审美、节奏、画面、BGM的极高要求……
AI全自动生成过程虽然略显漫长,但并不是那么天方夜谭的未来。
冬奥会的AI云智剪,面向特定的赛事场景,限定了素材集的范围,套用成熟的编排模式,由AI负责素材的预处理,并按预设模版进行编排,这是AIGC的序曲,实现了视频全智能生产的第一个阶段。
AIGC的第二个阶段,AI除了负责素材的预处理,还能完成本属于视频创意环节的编排工作,从而实现智能批量混剪。
第三阶段,面向特定场景和特定要求的成品,由AI根据已有成片反向解构分镜头,负责素材的搜索、筛选、处理、编排,并最终制作合成。
第四阶段,面向特定场景,AI负责理解场景的要求,包括素材的搜索、筛选(以及部分素材生成)、处理、编排,并最终制作合成。
AIGC视频生成的终极阶段,由AI挖掘视频制作的兴趣点及创意点,并完成相应的制作。
当然,在此之前,AI视频制作依旧面临着一个迫在眉睫的调整——算力。
一段文字、一张图片、一段视频,处理它们所需要的算力级别呈指数型爆炸上升。
这道题,云计算成了唯一的答案。
目前,云计算和人工智能的结合正处于技术突破和发展的关键时期,生成式AI正在发生颠覆性突破,阿里巴巴将全力构建自己的AI预训练大模型,并为市场上风起云涌的模型和应用提供好算力的支撑,阿里董事会主席兼首席执行官张勇在今年2月的财报会上表示。
03.“盲目崇拜”与“盲目恐惧”
就像历史上,其他让人怀疑自我存在意义的时刻一样,在工业革命之后,电视、计算机、手机、互联网、云计算,这种种新兴科技产品都曾在不同时间段引发过人们的恐慌。
人工智能也不例外。早在1997年,IBM的深蓝计算机就已在国际象棋比赛中打败了世界冠军卡斯帕罗夫。全球在深蓝赢得比赛之后陷入了兴奋与恐慌,“机器将会在未来取代人类,占领地球”的言论层出不穷。
可21世纪的今天,机器占领人类文明的事件不但没有发生,科技、工业、自动化的进步反而让边远山区通水通电,让大规模消费日用品的价格低到人人可享,让每一个人的生活都比我们两个世纪以前最优渥的祖先都要更便捷、更丰腴、更自由。
即便是如今引发大量恐慌的ChatGPT类AIGC技术,也在不断被运用于普惠人类、降低服务门槛的地方。
比如,基于人口统计学、相关的病史或流行病学风险因素,Glass.health AI能够辅助医生更快速、更准确地诊断病人;
而基于AI文档分析技术,Humata.ai能够快速帮助用户提取文档中的有价值信息,降低技术文档、法律文档等专业文件的阅读难度,让缺乏相关训练的普罗大众能够更好地保护自身利益;
基于AI文本摘要和TTS技术生成的口播文案,AI绘画生成的特效不断应用在短视频生产领域,进一步降低了短视频生产门槛,越来越多的内容创作者搭上了短视频的“快车”。
其他关于AI写作、AI绘画、AI视频等的AI创作工具则更是层出不穷。小到脚本错别字检查,大到分镜设计与画面排版,再到艺术灵感的创作,曾经困难重重的内容创作环节被不断拆解重构,降低入门门槛。
而AI与AI使用者的关系,也在这一次次的工具迭代之中,被时代所不断解构、重组、赋予了新的内涵。
04.结语
早在1956年,以约翰·麦卡锡、马文·明斯基、克劳德·香农等为代表的科学家们就在美国达特茅斯组织了一场为期两个月的人工智能夏季研讨会,开启了人工智能技术的探索之路。
半个多世纪后的今天,在云计算、深度学习、万亿级参数大模型等相关技术的发展之下,AIGC才第一次真正走进我们的生活,它在绘画、作曲、视频等创作领域几乎完美地替代了重复人工,进而将成为革命性意义的新时代生产力工具。
回望那场发源于英国的卢德运动,它曾轰轰烈烈地盛极一时,却不曾阻止英国在第一次工业革命中迅速崛起,不断发展工业化技术,生产效率迎来跨时代的大爆发,终成一代霸主。
不可否认,我们与人工智能的真正融合,已越来越近。
请不要做这个时代的最后一只恐龙。
当人类优渥于一种状态,总有想象力来冲破平衡。Cloud Imagine《云想之力》是阿里云联合36氪共同打造的系列报道,旨在探索云计算大背景下爆发的应用场景和新兴技术,以想象的高维碰撞之力,窥探“云”上的无限空间。从蒸汽机到人工智能,一切生产力工具都是为了将人类从繁冗的劳动中解放出来,将时间与精力留给创意与想象的破界。