科技观察｜AIGC争相绽放在三月 - Web3案例

注册登录

首页 > Web3案例 > 正文

科技观察｜AIGC争相绽放在三月

发布日期：2023-04-02

阳春三月，万物复苏。整个三月的AIGC（人工智能生成内容）就像一场持续不断的烟花盛宴，绚丽耀眼的烟花此起彼伏、争相绽放。智能对话、图视生成、专用芯片等领域的新模型、新系统、新产品悉数登场，让人目不暇接。目不暇接的背后，是生成式AI的持续迭代更新和逐点突破，并向多模态、通用性方面快速演进。不少突破性进展，足可以作为标志性事件载入AI发展的历史。

这里的“多模态”，简单来讲就是文、图、音、视等多种形态的数据。这些类型的数据，对应人们的看、听等感官，一种感官就是一种模态。现实生活环境，就是多种模态的组合。人工智能的多模态，大意就是让计算机通过多种类型数据的处理来模拟人类的看、听、思等能力。这里的“通用性”，简单来讲就是适用于多种环境，多个领域。

在智能对话领域，OpenAI在3月1日发布了ChatGPT和Whisper（语音识别模型）的API（应用程序接口）；14日发布了能文能图的GPT-4及其API，从中等生摇身一变成为优等生；23日，上线了ChatGPT插件（Plugins）功能，可借力打力，如虎添翼。API实现了AI能力的输出，而Plugins则形成了AI能力的扩展。谷歌于3月6日与柏林工业大学合作推出迄今为止规模最大的视觉语言模型PaLM-E，模拟人类视觉，让实体机器人具备了看世界的能力；14日宣布类似GPT的模型PaLM API，并引入其Workspace的各种办公应用。清华大学技术成果转化的公司智谱AI于3月14日开启智能对话系统ChatGLM的邀请内测，开源了可低成本运行的ChatGLM-6B模型。OpenAI前员工创办的Anthropic公司3月14日发布了号称更安全的智能对话助理Claude。百度于3月16日发布了多模态智能对话系统“文心一言”，让国人有了自己的AI平台，并在20日、24日、31日持续更新了3个版本；27日发布企业级大模型服务平台“文心千帆”；同时也计划与百度搜索、智舱、小度、数字人等原有系统进行整合。微软3月16日发布Microsoft 365 Copilot，将GPT的最新AI能力引入其Office系列办公软件，提升办公软件自动化内容生成能力。

在图视生成领域，Midjourney研究实验室于3月15日发布了同名系统5.0，解决了AI绘画中的“画面光影”和“画人手指”难题，让图像更逼真。Stability AI于3月17日发布了Stable Diffusion Reimagine工具，能够根据上传的图片多角度二次创作新图片。Photoshop的东家Adobe公司3月21日发布了名为“萤火虫”（FireFly）的创意生成AI服务，将实现传统图像处理工具向图像智能创作工具转变。微软3月21日宣布将借助OpenAIDALL-E模型的AI图像生成工具Image Creator集成到Bing搜索引擎和Edge浏览器，也加入图像生成赛道。中科闻歌3月31日推出灵犀AIGC平台，提供智能绘画、智能写作、智能虚拟人、智能对话于一体的艺术创作平台。AI绘画已经达到较高的使用水平，借助这只AI神笔，人人都有成为“马良”的机会。Runway公司3月20日发布了一款文本生成视频的AI模型Gen-2，加入了文和图作为提示生成视频的功能。视频生成领域还相对初级，只在部分内测实例上有所突破。

在处理芯片领域，3月21日，英伟达发布了四款AI处理器，分别针对IA视频加速、图像生成加速、大型语言模型加速、推荐系统和AI数据库的专用芯片。不论AI模型规模有多大，有多先进，终归需要运算芯片的处理。因此各大AI巨头背后，大都可以看到英伟达的身影。看来AI处理芯片更像是铁打的营盘。

生成式AI逐渐渗入越来越多的领域，就像墨汁刚刚滴入水中，快速扩散一样。从纷繁变化的三月来看，AI创作能力正在与搜索引擎、浏览器、办公软件、图像处理软件等结合，应用AI化正呈现出起势的苗头。就像移动互联网逐步普及过程中，各种应用移动化后可以再做一遍一样，这次生成式AI浪潮中各种应用AI化后又可以再做一遍。我们准备好了吗？

（大众日报客户端记者汤代禄报道）