以下文章来源于智能涌现 ,作者周鑫雨
编者按:江南APP官网最新在线下载投资企业智谱AI近日推出新一代视频生成模型CogVideoX,用户可通过智谱清言的AI视频生成功能清影(Ying),体验AI文本生成视频和图像生成视频的服务。发布仅6天,清影生成视频数突破百万量级。智谱AI日前宣布将开源CogVideoX,让每一位开发者、每一家企业都能自由开发属于自己的视频生成模型。
智谱AI首席执行官张鹏在与36氪的对话中,介绍了智谱AI在视频生成领域的布局,并指出视频生成相较图像、语言生成还需考虑数据、算力。张鹏分析了模型研发中先发者和后发者的优劣势;围绕多模态技术路线,他分享了智谱AI“由下至上,再从抽象层面往下去解”的路径。他还强调了预测是每位智谱AI员工的必备技能,“一流的公司满足需求,伟大的公司创造需求”。
江南APP官网最新在线下载微信公众号经授权转载。
智谱AI首席执行官张鹏
“GPT-4之前的产品,大家基本能人手一个拿出来;但GPT-4以后的产品,谁都不敢随便拍胸脯保证一定能成了。”
在智谱AI首席执行官张鹏看来,2024年,中国国内的AI企业来到了一个必须自力更生、打开技术“黑盒”的拐点:“OpenAI公布的技术细节越来越少,但好处是,我们不可能永远跟在OpenAI后面,总有一天要用自己的路径跑到前面。”
在拐点中,从底座到产品完全自研的视频生成模型,是这家大模型独角兽交出的阶段性答卷。
2024年7月26日,智谱AI的产品版图中,增加了对标OpenAI视频生成模型Sora的一员:支持文生和图生的视频生成产品“智谱清影”。
在国内外厂商竞相发布视频生成模型的当下,张鹏并不认为智谱AI姗姗来迟。支持“智谱清影”的模型底座,来源于智谱AI自研的CogVideoX模型——这个名为“CogVideo”的视频生成模型系列,是智谱AI在2021年就布局的多模态研究的一角。
如今,CogVideoX的推理速度已经提升了6倍,“智谱清影”生成6秒视频的时间,理论上只要30秒左右。
在“智谱清影”中输入文字Prompt
在“智谱清影”中输入图片Prompt
再输入文字Prompt“男孩拿出一颗心形的红色毛线球在手掌心”
即便Sora的发布,为企业的追赶指了一条明路,在张鹏对36氪的描述中,“苦干”依然贯穿了视频生成技术研究的全程:没有OpenAI那样优渥的资源,那就寻找更高效、更经济的解决办法;没有足够的原生视频数据,那就找合作厂商,再从定义质量标准、清洗、标注的脏活做起。
技术研究要苦干,技术落地也少不了苦干。对AI技术在B端和C端的落地成果,张鹏都认为还不够好,在他看来,PMF(产品市场匹配度),M(Market)中的新场景、新市场,F(Fit)所代表的技术和产品的性价比,都没做到极致。
这让他给智谱AI的所有员工提出了更高的要求:学会预测技术的发展和行业的走向——“一流的公司满足需求,伟大的公司创造需求”。
以下系经精编整理的对话实录。
01/
跑出增量的下一步
36氪:这一年时间,AI行业To C和To B的成果,哪个让你比较满意甚至惊喜?
张鹏:严格说,撇开我的身份,我个人觉得都不如我的预期,至少国内是这样。前段时间参加WAIC(世界人工智能大会),我觉得情况有所改变,但还没真正达到大家期待的爆发状态。
36氪:那智谱AI在To C和To B的成果,你满意吗?
张鹏:公司的运营或者说目标的设定有一定的战略,也在按照计划去推进,有得有失,有成有败,这个都很正常。
我们最近,可能大家看到的动作比较多,做了一些发布。过去我们主要在B端市场做了一些事情,取得了一些成绩,但你要说完全满意,当然还谈不上。毕竟大家都知道,这个市场很“卷”,竞争很激烈。
至少我们的竞争对手,在大家心目当中已经是大厂的级别,我们已经跻身到这样一个级别了。我觉得这一点也侧面证明了我们的进步。当然从我个人来讲还远远不够,还要继续努力。
36氪:一年多来,大模型的B端落地成果,会让你对AGI的信仰有改变吗?
张鹏:会,我觉得To B是一个很重要的环节。
像一些很细分的行业,比如客服、营销,AI的渗透应该是非常明显的,而且改善的效果也非常好。现在无非就是性价比的问题,这也是为什么OpenAI会发GPT-4o mini这个小规模或者中等规模的模型,去降低成本、提高速度。
小模型的出现意味着模型落地已经找到了PMF里面的“M”(市场),现在需要解决“F”(匹配度)的问题。在更大范围之内,其实“M”到底是什么,也还在想办法解答。比如能解决人机对话的模型,能不能同时解答天气预报的问题?你要不要把它们做成同一个东西?有没有可能做成同一个东西?
36氪:现在还处于找M的阶段吗?还没有到找F、扩大M份额的阶段?
张鹏:不,这首先是一个寻找M的过程,所有细分的M不可能一次性都能解决,总有容易解决的和难解决的。先找到的M就先落地,落地就要解决F的问题。
36氪:有一点像在B端找Killer App(杀手级应用)。
张鹏:是的,其中技术和场景双方往中间靠,去磨合。
一种是在有些场景,原来的技术解决得不太好,我能不能用技术把质量再提高一点,也就是增效。另一种是说,我能不能用技术解决原来解决不了的问题,这个就是新的M、新的问题、新的场景。
36氪:现阶段哪种情况花的时间更多?在旧市场里解决问题,还是找新市场?
张鹏:两个肯定是同时来做。解决旧问题和提效是最直接,因为企业是很现实的,看到效益才会投入。但我相信AI技术本身是突破性和创新革命性的,它理应会有一些新的应用方式和市场空间出现。
36氪:现在能看到新行业或者新场景的苗头了吗?
张鹏:其实各行业已经跑出来了一些增量,一些常见的问题解决效果已经非常好了,后续要解决的无非就是F的问题,比如怎么把性价比做得更高。
还有一些全新的,以前方法完全解决不了的问题,现在逐渐有了一些方法。比如去比较智能、动态、全面地生成一篇报告,传统的AI搞不定,你只能让人先定好一些模板,剩下的事情不过就是用规则,用一大堆提取、数据、结构化的东西往里填,其实谈不上有太多的人工智能,它只是个IT系统。
但现在的技术具备了一定的像人一样的分析能力,你可以让它学习完后自己按照套路去写、去发挥。
02/
后发者赢在少走弯路
但输在建立认知
36氪:智谱AI是从什么时候开始布局视频生成的?
张鹏:我们2021年左右,很早就在做这个事情,包括最早的CogView(智谱AI的文生图模型)是和DALL·E差不多时间发布的。
迭代了两版后,在2022年之后,我们开始做CogVideo,也就是视频生成,因为大家直觉觉得,反正图片连续起来就变成一个视频了。当时因为比较早期,数据资源等各方面还处于刚开始的研究阶段,所以CogVideo主要解决的还是怎么控制每一帧之间平滑过渡的问题,生成的视频就没有现在这么高清。
36氪:从图像和语言模型,到视频模型,需要补上什么资源?
张鹏:视频和图像的生成确实还隔了一道,比如数据的问题、算力的问题。
资源需要遵循循序渐进的技术路线。从自然语言开始,解决的是理解和生成正确指令的能力,实际上是从基础的认知层面、高层次的抽象认知层面去解决这个问题,然后再把维度降下来,把理解和生成的能力具象化到图片、视频、声音等模态上。
在降维的过程中就会受到数据的约束。图像生成的数据可能会比较多,因为早期CV(计算视觉)有了大量的积累。但对视频生成来说,全球范围内高质量的数据积累只有两三年的时间。
36氪:怎么解决视频数据的获取问题?
张鹏:我们手里没有原生的一些资源,所以获取视频的主要方式还是通过公开的数据集,另外还有一些合作方。
当然这些视频和所谓的高质量视频数据,还是不太一样。比如视频拍得很高清,滤镜、分镜都很不错,但这个对于模型训练来说还不够。“高质量”里面包含了原始数据,和你对原始数据的加工技术。条件都不具备的情况下,强行做视频生成模型,是挺麻烦、挺累的。
不过原生数据的获取是有解法的,比如与视频平台建立合作,现在不管哪个短视频平台,手里都积累了大量的视频数据。但我觉得最大的问题是,即便互联网充斥着大量的数据,但你不太清楚这些数据的质量到底如何,另外还要确保合规。
36氪:定义视频数据质量的标准是什么?
张鹏:其实可以借用文本数据的标准。什么样的文本数据质量可以称为“高”?首先内容之间的逻辑结构要是完整的,其次用词、标点、符号等也要符合行文规范。按照更高的要求,文字还要包括各种知识。
视频也是一样的。首先要考虑视觉内容的丰富性,文字要求的逻辑、内容的连贯性,视频数据同样也要求。比如我们希望生产的视频是一镜到底还是包含若干个分镜,这些放到训练数据上都有讲究。
36氪:你对现在积累的视频训练数据满意吗?
张鹏:视频数据其实没有像文字数据那么好,包括我们去获取的成本会更高一些。我觉得视频数据的积累应该没有一个明确的上限,或者说是满分的状态,大家没有办法制定满分的评判标准。比如文本数据,大家只知道现阶段需要怎样的高质量数据,然后拼命地想办法去寻找或者挖掘、清洗,甚至去生成。
视频数据也一样,我们不断有新的认知、新的发现,然后再增加新的数据,滚动往前发展。
36氪:现阶段,能让不同视频生成模型的性能拉开差距的,会是数据吗?
张鹏:我觉得可以类比语言模型发展的历程,早期大家的数据基本来自公开数据库,差别不大,可能里面有一小部分的差异在于怎么挑出符合我们自己需求的,大家过滤数据的Pipeline可能有些差异。
早期更大的差异来源于算法框架和训练的经验,怎样训练精度更高、时间更短、质量更高、数据的利用率更高。当发展到一定阶段,算法相对稳定,或者说收敛得差不多了,数据反过头来又变成影响比较大的方面。
你会看到,很多新出来的模型反而能够很快速地去爬性能的曲线,原因就在于它省掉了前期摸索的过程——算法上的摸索过程没有了,采取的基本上就是相对比较稳定的算法架构。
数据前人也踩过一些坑了,也有一些怎么优化数据集的经验告诉你了,所以它相对来说可以用更少的算力、更少的数据和更稳定的训练,得到一个相对更好的结果。
36氪:你的意思是模型的后发者反而有优势?
张鹏:后发有后发的优势,只能这么说。
36氪:那后发者的劣势是什么?
张鹏:比如你站在别人肩膀上去做这些事情,其实对底层的很多东西没有很深入的了解。当你碰到一些问题,需要技术内核相关的更新迭代才能够解决的时候,你可能就无能为力,只能跟在别人背后。等别人把那个问题解决了,你才能把技术拿过来用。
从天花板和长久发展的角度来看,应该还是做得越早、认知越深,自己掌握的东西越多,这样会更有优势。
36氪:所以后发优势是阶段性的优势?
张鹏:后发的优势不能说是阶段性的优势,而是在技术探索的前期成本和发展速度上的优势。但优势也就在这儿,因为剩下面临的无非就是两件事:一件是技术本身的更新迭代,一件是技术到产品的PMF(产品-市场匹配度)。看你要聚焦在哪件事情上去做。
36氪:从文本到图像,再到视频,多模态的技术路线行业有共识吗?
张鹏:我们刚才其实聊到一个先发、后发的优势、劣势的问题,先发的优势你也可以理解为对这件事情套路的掌握程度。所以当碰到这个领域中的新问题,你是有一定的思考套路,潜移默化形成一种路径。
比如视频生成,我们可能会认为,自然语言作为抽象层面的智慧,如果能把对自然语言的理解、生成能力解决了,再把这里面的视觉、图像等信息对齐,这样就能帮助我们生成高质量的、可控的内容。再加上其他的一些方法,比如说怎么样更高效地生成分辨率更高的、连续的东西。
这样的话,出来的模型就相对会离我们的目标更近一些,而不是说先把生成这件事情解决了,反过来再去解决理解和对齐,路径可能就不一定能够搞得定。比如说像纯粹的扩散模型,它能生成很高清的图像,但是你纯粹在这个模型上去让它可控,就会很麻烦,要加很多其他的方法。
所以这就是思考路径的问题。我们是由下至上,再从抽象层面往下去解。纯粹地从下面单一的模态开始往上做,那是另外一个思路。
36氪:“从抽象层面往下去解”的路径,有什么好处吗?
张鹏:从直觉来讲,如果你了解这个问题,再往下去解,看它统一的建模如何映射到各个模态,那就相对简单了。如果我从下往上,从单一模态,比如视觉建模,一直往上做,那么当我想要往别的模态上跨的时候,可能不一定跨得过去,因为这个建模不一定最终能达到统一建模上。
当然这也是学术界现在在研究的一些问题,还没有定论。前段时间有篇论文提到了“柏拉图表示”的概念,主要内容提到跨模态的建模,最终会统一到一个一致性的建模上,这可能能证明我们的思路是OK的。
03/
现在模型天花板不算太高
成本却很高
36氪:外界会把智谱AI称作“为数不多能够跟OpenAI媲美的企业之一”。你喜欢这个标签吗?
张鹏:谈不上喜欢或者不喜欢,我觉得这是很中肯的评价。因为我们对AGI有相同的认知、相同的目标,以及目标的内涵和外延基本上一样。
在探索的路径上,他们确实走得比较靠前,很多时候我们要借鉴他们的经验。但是到一定程度以后,也得靠自己摸索,他们也不再公开了。
36氪:你觉得OpenAI哪个层面借鉴后是非常有用的?
张鹏:我觉得从之前Ilya(前OpenAI首席科学家)整个研究路线和研发节奏来看,能看出他对统一建模这件事是有信仰的,所以在这件事上,我们和OpenAI是有共识的。
具体到借鉴的部分,我觉得有两个层面。一个层面是宏观上怎么接近AGI,其次,OpenAI每一次领先我们的新发布,都可以给我们很多的启发,至少能告诉我们哪些方向是有可能的,你沿这个方向走它可能是没错的。但其他的方向到底错没错?不知道。
天下通向真理的道路不一定只有一条。所以这个时候就看我们研发的进展、擅长的事情,还有资源禀赋,去选择我们是要沿着类似的道路去走,还是说走我们自己的一条路。
36氪:但现在Ilya离开OpenAI了,智谱AI还会像之前一样“产品全线对标OpenAI”吗?
张鹏:这取决于共识还在不在。
36氪:你觉得智谱AI现在走的路,跟OpenAI不同的地方在哪?
张鹏:我觉得不同的地方其实还挺多的。最简单的一点,他们从来不愁钱、不愁资源,他们可以非常投入、非常全身心地去做新技术的探索和研发。
对于我们来讲,很多时候可能就不得不受这些东西的约束。挑战更多来自于怎么来把每一份资源、每一份人力、每一份时间都花在刀刃上,效率要提到足够高。
因为我们是一个追赶的角色,你的效率如果赶不上前者的话,其实这件事挺痛苦的,你永远落在后面,还可能会落得越来越远。刚才说后发也有后发的优势,但是后发也有后发麻烦的地方。
36氪:之前Sora的负责人说要给人才足够的GPU,这在资源紧缺的情况下就很难做到了。
张鹏:这就要尽量满足。对于一家AI创业公司来讲,可能主要的成本和压力都来自资源的压力。但我们还算挺舍得,给人才的资源投入占比很大。
36氪:智谱AI“产品全线对标OpenAI”,这个对标相较于OpenAI发布产品的时间,是前置还是后置?
张鹏:大部分情况下,我们大概能想象到他们会往哪个方向走,但是具体产品的形态就没法预测得很明白。比如年初Sora和GPT-4o的发布,从大方向上我们知道要发多模态了,但是具体产品形态很难去精准预测。
36氪:去年和你聊的时候,你提到智谱AI不会做小模型,只做通用底座。最近OpenAI又发了GPT-4o mini,这是一个小模型,你对小模型的看法会改变吗?
张鹏:我觉得这没有什么矛盾的地方。第一,外部大家对GPT-4o mini的认知还是比较统一的,它是用来代替GPT-3.5的。第二,他们要降低使用成本、降低市场的门槛,让更多人来用。GPT-4o mini从能力上讲并不是最高的版本,不是顶天花板的事。
我对小模型的思考在于,它可能是在应对一些特定问题、特定场景时更有性价比的模型。但它对于我们将解决人类现实世界问题的帮助,比如把解决问题的比例从15%,提升到16%,提升到25%,其实没有太大的帮助。
现在的问题不是模型天花板足够高,而是成本高到大家受不了,天花板也不算太高。两个问题同时存在。
04/
预测,是每个员工的必备技能
36氪:以现在的技术储备,应对B端客户的产业落地需求足够吗?
张鹏:其实不分To B、To C,两者没有太大的差距。
To C的好处在于你不用去面对每个人,只要想好了大概率或者共性的需求是什么,把这个解决了,剩下的那部分无非是通过营销手段、市场手段。
但是To B没办法,你必须得面对面地去沟通。一旦面对面沟通,对方的需求又特别容易差异化。
36氪:怎么面对B端的差异化需求?
张鹏:前两天我和产品团队就说,一流的公司是去找到用户的所谓的共性需求,挖掘纷纷扰扰表述后面的痛点部分,用你的技术去解决,再找到最好的性价比。
这说的是一流的公司,但真正牛的公司是引领和创造需求,像苹果在智能手机时代把所有按键取消掉一样。你想C端的公众也好,B端的企业也好,他们会比你更了解技术的本质吗?不会。所以了解技术本质之后,技术先给你提出了创造全新价值的可能。
36氪:这就不是一个技术问题了,是Go to market的问题。
张鹏:是的,甚至Go to market的方式和逻辑都有一些变化。我觉得这是有一些套路的,比如苹果怎么去发掘需求,怎么去预判未来的趋势。
36氪:现在会加一些苹果的工作流到产品团队体系里面?
张鹏:至少大家有这样的一个想法和这样的一种觉悟和认知,就是说你要保留一部分你的想法和精力去预测,预测是很重要的。
36氪:员工都要来预测?
张鹏:我们所有人都必须要有这个觉悟。
36氪:不管对你,还是中层和一线员工来说,预测的难度有多大?
张鹏:是挺有挑战的一件事,不会容易的,容易的事情早被人做了。
36氪:你觉得今天模型公司的产品和技术会有些同质化吗?
张鹏:关键不是在于是不是同质化,也不在于横向比较,而是往前看未来会发生什么,或者说现在的第一性原理、最本质的需求是什么。
举个例子,比如有一个客户和我们说,他们一套给员工用的软件系统迭代了很多年,有7000多个业务和功能菜单的入口,员工上岗前如果不经过一段时间的培训,是搞不定的;就算培训了,工作的时候也会很痛苦。客户说想要一个技术方案,比如用自然语言表达需求,让AI帮忙找到入口。
我就问他,你不觉得7000多个入口本身就不合理吗?还不如想一想我们怎么设计一个方案,把7000多个入口解决掉。还不如换一个角度看这个客户的问题,其实这个问题是个伪命题,那你解决那个问题就好了。
36氪:一线销售可能会觉得客户要什么,我就给他什么。
张鹏:对,这就是会有困难的地方,他需要一种价值观上的认同。
36氪:清华系在大模型圈子里还是很显眼的,你觉得清华为什么能在AI风口很快成为重要的一股推动力?
张鹏:前两天我们几个校友和老师一起吃饭,也聊到这个话题:清华在过去的时间里到底做对了哪一件事情,让清华的计算机和人工智能踩上了台阶?
最后其实没有定论。但我个人认为,过去几十年里,清华培养了一大批非常踏实、勤奋肯干的聪明人,只要给他们一个合适的时机和舞台,我觉得他们就会取得非常好的成绩。
你看这一次的爆发,除了学术和研究上的层面,其实还有很多地方实际上来自工程,来自团队的协作。在这个层面上,不是说只要一批学术做得很好或写论文的人在一起就能搞定的,还要有很多价值观一样的工程人员,团结起来做这件事情。
36氪:说到资源协调,智谱AI也投了很多清华的AI公司。是从什么时候开始有投资的想法的?
张鹏:大概在2022年底就开始考虑了,投一些合作伙伴或者生态企业。因为我们认为AGI的路没那么容易走,在中国也很难单独把这件事搞定。我们本身也是一个创业企业,所以一定要靠生态,把生态拉上一起前进。投资是其中的一种方法。
36氪:现在智谱AI投的企业,有芯片层的,Infra的,也有模型和应用层的。其中一些企业还没有PMF,甚至没有完整的产品。你怎么判断他们所做的事的价值?
张鹏:首先,我觉得生态非常重要——我们到底怎么来看待生态,以及怎么培养生态?我个人的观点,你看硅谷为什么有国际上最领先的科技创新的环境,就在于有大量的科技创新者前赴后继。第二,那里有大量的人愿意支持他们做这件事,用创业投资的方式,很多时候他们甚至不求收益。
所以这两种人、两种力量是相辅相成的,这样才能把生态养得非常肥沃,土壤里面可以长出OpenAI、OpenBI、OpenCI。这是美国创新生态特别好的一个点,有体系,比如我投了企业,就要考虑和它的下游企业互相之间是什么样一个关系,上下游怎么去衔接。
当然从企业来讲,肯定是希望他们能够很快地成长,跟我们一块成长,能给我们正向的收益。但是谁能保证他们就一定会成功?没有人能拍胸脯保证这件事情。
来源 | 36氪
作者 | 周鑫雨
编辑|苏建勋