首页 >  DAO的研究 >  正文
前沿对话:中国AIGC新机遇,如何掘金大模型和应用双赛道
发布日期:2023-03-30

前沿对话:中国AIGC新机遇,如何掘金大模型和应用双赛道3月29日消息,首届中国AIGC产业峰会在京举行,大会由量子位主办,聚集起了领域内产学研代表,分享和探讨了包括大模型、生成式AI、ChatGPT等在内时下热议趋势和话题。

在题为《中国AIGC新机遇》的圆桌对话环节,量子位主编金磊与4位从业者展开了精彩的探讨。他们是:

元语智能联合创始人兼COO朱雷;
峰瑞资本投资合伙人陈石;
无界AI联合创始人马千里;
华院数智人商业化副总裁林莱尼。

前沿对话:中国AIGC新机遇,如何掘金大模型和应用双赛道

图片来源:圆桌环节

以下为圆桌内容,经8btc整理,有删减。

金磊:我们每个话题都设置了一个关键词,第一个关键词叫“感受”,在这波AIGC热潮中,您最直观的感受是什么?

朱雷:

震撼和冲击。比如,ChatGPT在各行各业接受程度和应用深度,远远超过了我们的预期。原来对AI的关注群体都在小圈子里,AI也仅仅是在某些环节里应用,这次它破圈了,这是一个非常大的技术变革。

陈石:

经历了几次AI的技术变革,但这次还是让我们感到惊讶,突然一个跳跃,不是连续的变化。它已经具备了通用人工智能的火花,而且还在不停燃烧,所以也很惊喜。

从产业角度来说,它一定对整个人类社会的效率、体验,都会是一个非常大的提升,很本质地改变各行各业,特别是内容行业、教育行业、科研等等。

所以,我们很兴奋,这是人类的福祉,前提是你不要背叛人类。另外,我觉得也是创业者很好的机会。

马千里:

站在创业者的角度看会更加焦虑,因为发展速度太快了。你做了大量工作,但是有可能在大模型底部的创新,或者是别的团队的创新,他们很快就能赶上来,有时候会有技术的焦虑感。

另一方面,其实是所有行业内的人都在焦虑,甚至传统产业的一些人也在焦虑,因为他们焦虑他们会找到我们,抱团取暖。比如奇瑞汽车、上汽集团,有做潮玩的,做快消品的等等,他们都会找到我们,他们会把他们的设计需求,把他们的一些诉求提给我们,我们一起去做AI的训练,甚至他们给我们大量的私有化数据,就像某一家做房产的,他们有大量的建筑设计的那些比较隐私的图片,他们会把这些图片给到我们,我们一块去做训练。他们担心的是说如果他们不参与到这个浪潮里就会被淘汰掉。

所以,虽然有焦虑,但更多是在焦虑中有前进的感觉。

金磊:我们的第二个关键词叫做模型同质化和创新性。就目前来看,无论是AIGC应用的玩法,或者是背后算法模型似乎有同质化的趋势。您觉得中国AIGC的原创性该如何体现?

朱雷:

目前来讲,在基础研究或者原创性上国内与国外是有一段距离。但是不是说我们目前做自研的大模型没有价值?我觉得反而势在必行。

第一点,我们国内都在做中文语料的大规模梳理,中文数据集,中文的通用语料质量相对来说会差一些,开源氛围也差一些,比如医疗这个行业,国外有很多开源数据集,国内我们了解到只有两个,一个是杭州这边有家医院,一个是自贡市有数据集。我们要做这个事情,就要推动开源数据集以及开源模型的一个氛围和一个生态构建。

第二点,现在大模型的AI基础设施在国内已经达到了相当高的重要程度的量级,这个时候对人才的吸引力很高,从长期角度来看,这个事情的意义对于国内做基础设施的,长远上来讲是非常有价值的。

说到国内的这些模型的同质化和创新性,对于国内初创公司来讲,创新性是要体现在你要对于这个行业有足够多的理解,以及迅速地在行业内把数据和场景跑起来。对初创公司来说,你可以在模型底层数据层面上和指令微调层面上做一定的创新性。

马千里:

做产品创新来说拥抱SD(国外开源文生图模型stable diffusion)生态没有太多的关系,因为大量数据训练其实还是要自己去做。你如果想做出差异化,这是自然一种选择。

现在开发国风模型(国风风格的文生图),我们会有大量国风类图片数据,比如像中国人的脸、外貌,比如汉服,需要很具体、很精细区分不同时代、名族服饰样式,你的左衣襟和右衣襟之间都会是有区别的,做国风类图片的这些人他很要求这些东西。

这是一方面,最重要创新在于,中国的用户数据是非常重要的。我们无界AI平台A有200万用户,每天创作接近3000万张图片。这些内容被大量用户的收藏,使用一键同款制作,等等,这么多用户的行为给你反馈。我们会把这些受到喜欢的作品的关键词,拿来做进一步模型训练,使得我们平台能力得到增强,得到创新,这也使得虽然基于开源SD,但是我平台的作品质量会和市面上大部分产品不太一样,因为我们有自己的数据循环在里面,这是一个创新点。

林莱尼:

如何定义数智人原创性,首先从底层算法来说和小冰、科大讯飞确实差不多,但是第一个我觉得数智人本身分类型,分了三个类型,比如像魔法科技的柳叶熙走中国国风系列,有非常好的价值引导。我们公司这种类型属于功能服务型,我们就渗透到各行各业,我们拥有自己领域型知识图谱。第三种偏向游戏开发理念,游戏里面一些虚拟分身。所以本身从数字人来说,我们就是分行业、分领域、分功能。

我们公司专注做领域型知识图谱,所以数智人只是我们在传达表达领域型知识图谱一种载体,他本身就是多模态的组合,原来是文字和语音,未来多模态则可以基于图像理解,生成图像任务型交互,创新性主要看每一家公司所深耕的领域在哪里。

金磊:我们看到好的模型出来,或者科技热点出来,国内会一窝蜂拥上去,这会不会产生一些泡沫,您怎么看待这个问题?

陈石:

这次不仅仅是国内,海外也是一窝蜂。有个统计是2022年平均四天出一个大模型,大概90多个大模型,主要是以美国为主。

热度当然很高,但我不认为这是一个短期的热潮,我不认为他是泡沫,我觉得它会经历很长时间的进步,会产出很大的社会价值和商业价值。

金磊:

针对大模型还有一个问题要讨论一下,就是参数规模,这个关键词叫做大力一定会出奇迹吗?大力出奇迹这种方式一定是AIGC未来必经之路吗?

马千里:

如果能出奇迹不管大力还是什么力都是好事情,在国内大家觉得大力出奇迹是一件坏事情,其实不见得是坏事情。

另一方面,有一个观点说,人类聪明的希望干预机器,教机器怎么下围棋,让他学习人类的棋谱。其实最有效的方法是自我学习,无监督的学习,一定程度上我们人类太多干预反而限制了它的发挥。本质上可能还需要大量算力,算法上也会跟进,不是那么强的去干预它。

金磊:咱们训练一次大模型,参数特别大的话,动辄数千万美元成本,投资角度来看您如何看待大力出奇迹事情,创业公司有机会吗?

陈石:

大力出奇迹是必然,就是这个阶段,因为这次是无监督学习的一个突破,因为无监督学习特别是大规模无监督学习一直是机器学习的圣杯,从来没有人取得过这个圣杯,但是我觉得OpenAI把这个圣杯拿下来了,本身就是要靠大量的数据无监督的去学习产生的,我觉得是一个趋势,是当下被验证的一个事情,所以估计大家还会这么做。

商业角度来说,我觉得大的模型还只能这么训练,但是作为创业者去专注于做应用层创业,其实可以不需要自己去训练模型,最多可以说在一些大模型基础之上做一些调优。我觉得大部分创业机会可能还是在非模型层,或者说是在一些垂类的模型。

大模型,我觉得未来中国可能也不会有太多家,全球也不会有太多家,有一些模型可能是垂类模型,这个是很大的机会。

金磊:我们最后一个关键词,“中国AIGC新机遇”。我们想请在座各位用简短一句话来谈谈您对它的一个期待。

林莱尼:

我们会发现互联网企业可能对于35岁+的这些人群不是非常友好,我们也会思考,AI真的是创造了失业潮吗?后来我觉得也并不是,我很喜欢一句广告词,“永不放弃,奔向未来”,面向未来一定要勇敢。

马千里:

对于中国的机遇来说,可能未来的大模型,即使你和国外有差距,甚至有几倍的差距,但是可能对于人类来说都够用了。

苏联和美国冷战的时候,都说自己能毁灭地球多少遍,其实毁灭一遍就够了。AIGC产生的能力可能会强到,即使两个模型之间有百分之多少的差距,但都无所谓,对于人类来说够用了,这是一个长期的看法。

另外,即使现在我们在大模型上,的的确确可能没有外国人那么强,但是从逻辑上我们应该还是能赶上的。

陈石:

我觉得其实这是全人类的机遇。

另外,我觉得中国是有机会做成一个自己的大模型的,因为算法是人类共同科研的成果,它整个的训练过程起码在GPT3我们都看的到,包括ChatGPT人类反馈的强化学习,也都看到了这个过程,可能有一些语焉不详。所以做一个大模型剩下的是一些工程的工作,在工程工作上我们中国的工程师是不怕的。

从算力维度讲,这个事情还是需要慢慢来,我觉得可能尽量去想一些替代的办法,就是有自己的算力,或者以别的方式获取一些算力。

数据呢,我觉得我们是可以做到的,因为数据集这个事情,相对我们还是有办法的。

凭着中国人的聪明程度,我觉得基础模型是可以突破的,当然复现到今天GPT4这个能力,可能还有差距,但是是时间问题。

在应用层面,微信、钉钉等,历史已一再证明,中国在软件的应用上是很厉害的。

朱雷:

我非常同意陈石总的看法,虽然说现在跟GPT4比技术差距还是有的,但确实是时间的问题。但是是机遇的同时也是一种挑战。我最后一句话就是我们要拥抱AI。