首页 >  加密研究 >  正文
专访王小川:开启大模型创业,年底追上 ChatGPT-3.5
发布日期:2023-04-10

专访王小川:开启大模型创业,年底追上 ChatGPT-3.5作者丨叶蓁 编辑丨康晓

出品丨深网・腾讯新闻小满工作室

专访王小川:开启大模型创业,年底追上 ChatGPT-3.5

图片来源:由无界 AI工具生成

4 月 10 日,搜狐网络大厦二层,搜狗创始人王小川正式对外宣布开启人工智能大模型领域创业。王小川与前搜狗 COO 茹立云联合成立人工智能公司百川智能,旨在打造中国版的 OpenAI 基础大模型及颠覆性上层应用。

百川智能早前已获得 5000 万美元启动资金,来自王小川与其业内好友的个人支持。

此前,王小川已经淡出公众视野一年半时间。2021 年 10 月 20 日,王小川卸任搜狗 CEO,这一年王小川 43 岁。从大学毕业进入搜狐,王小川一待就是 21 年。

在中国互联网圈,王小川有着独特的标签,他同时拥有深厚技术背景和游走斡旋大厂之间的管理经验。王小川崇尚“技术理想主义”,在搜狗期间参与共建了清华大学天工智能计算研究院,担任联席院长,推动搜狗和清华大学等学术机构合作。

离开搜狗的这一年半时间,王小川主要在思考用数学模型研究生命科学的难题。

“我在读研究生期间,做的课题就是跟基因测序拼接算法相关的。生命的复杂性远超物理世界,牛顿把物理问题变成了数学问题,但生命科学领域至今做不到。”王小川在接受腾讯新闻《深网》专访时表示。

2021 年,DeepMind 发布了 AlphaFold 蛋白质结构数据库(AlphaFold DB),王小川认为,“生命科学领域这个突破只是解决了一小段问题的数学化。”

ChatGPT 的横空出世为王小川打开了另一个路径。难掩兴奋感的王小川告诉《深网》,“当我发现语言可以变成数学问题,这个模型未来也能承接对生命的探索,会成为突破生命科学的一个支点,这也是我这次下场创业的原因。”

因此,对于王小川来说,这次在 AI 领域的创业是顺势而为,源自他长期对生命科学奥秘的兴趣和探索。

ChatGPT 让王小川看到了一个更广阔的未来。王小川告诉《深网》:“阿尔法狗证明用深度学习方法可以让机器产生一定的智能,但它的做法是让机器忘掉人的智慧,然后超越人;OpenAI 的做法是让机器大量学习人,这个突破,我们称为大模型或大语言模型的突破,核心的关键词是语言 AI。”

“NLP 自然语言处理是人工智能皇冠上的明珠,语言包含的内容要去理解它是个特别大的难题。ChatGPT 巧妙的是找到了新方法,这个模型掌握了人类的语言,让机器向人类已有的文明学习。我 2016 年谈到过,当机器掌握语言之后,强人工智能可能就到来了。”王小川进一步解释。

大模型研究,首先比拼的是专业人才。现在的王小川,懂技术,有资金,也有人脉。“你现在所经历的,将在你的生命中串联起来”,乔布斯如此感慨他的人生,王小川喜欢这句话,现在看来,王小川的人生亦是如此。

今年 1 月份开始,一些投资人和朋友,陆陆续续找到王小川,问他要不要开启创业。

“搜索是距离大模型特别近的业务,我们已经有了一个 500 亿的参数的模型在训练了,目前评价和进展效果都非常好。同事们都很兴奋。”王小川透露。

据品玩报道,搜狗曾建立包含 1.3 亿原始网页的 SogouT 开放数据库,以免费形式对科研机构开放,成为很多 NLP 研究者和从业者最常用的数据库之一。

“百川智能以前搜狗团队为基础,快速融合来自知名科技公司的核心团队。当然,我还需要吸引更多的人才,包括国外顶尖人才、国内的领军人物、优秀的管理人等等。”王小川告诉《深网》,预计在 4 月底公司将打造一只 50 人规模的 AI 团队,有信心在年底做出中国最好的大语言模型。

百川智能发布的官方信息显示,公司也得到清华相关院系及多位院士和教授的支持,建立合作突破通用人工智能基础科学问题,并吸引清华人才加入。

ChatGPT 是目前全球科技产业最大的风口,毋庸置疑,当下美国是领先的。今年二月份,王小川在微博上说中国需要自己的 OpenAI,也相信中国能诞生自己的 OpenAI。

在王小川看来,中国需要迎头赶上,现在也不算太晚。

“追上 ChatGPT 3.5 水平,我觉得今年内可能就能够实现,但对于 ChatGPT-4 或者 ChatGPT-5,我认为可能需要 3 年左右的时间,应该不会低于两年。”王小川对《深网》表示。

王小川表示,百川智能将借助语言 AI 的突破,构建中国最好的大模型底座,并在搜索、多模态、教育、医疗等方面增强,帮助大众轻松、普惠的获取世界知识和专业服务。

和搜索紧密结合、提供知识服务是新产品的几个关键词。王小川透露,6 月份可能会公布一个对标 ChatGPT-3.5 的更大规模模型,同时在今年内对于搜索增强,在几个垂直领域里面,让用户体验到新的知识服务。

附:王小川公开信全文:

今天我正式宣布,创建“百川智能”,一家研发并提供通用人工智能服务的中国公司。

生活在二十一世纪初是如此幸运,波澜壮阔的互联网革命还没有谢幕,通用人工智能时代又呼啸而来。多年前我曾断言,机器掌握语言,通用人工智能时代就来了;我也有畅想,搜索的未来是问答。ChatGPT 的腾空出世,地动山摇,这一切都开始成为现实。ChatGPT 发布到今天,仅仅 131 天,每天都有扑面而来的新进展、新突破。131 天恍如隔世!

大半个世纪以来,科学家们前赴后继,努力创造通用智能机器。这一天终于到来,我们找到了一条巧妙的路径,用 AI 成功将语言转化成了数学模型。语言是知识、思考、沟通和文化的载体。维特根斯坦说,语言的边界就是世界的边界。当 AI 掌握了语言后,就开始认知世界,成为有知识、能思考、善表达、会学习的智能体。我把这样的智能体称为“语言 AI”。

人类个体总有消亡的一天,但能够将毕生的知识通过语言记录下来供新生命学习、继承,文明因此延续。人类协作也需要个体之间通过语言沟通。掌握了沟通和世界知识的语言 AI 不再只是人类的“工具”,而将成为我们的伙伴和超级助理,成为人类文明的一部分。

智能时代会改写互联网时代的范式。‘连接’会被‘陪伴’取代,‘信息服务’会被‘知识服务’取代,‘免费与广告’会被‘付费与高品质’取代。

智能时代也会改写自工业时代以来的范式。曾经是专业化社会分工带来规模效应与效率提升,而未来会是逆专业化分工:之前需要很多公司协作完成的工作,会因为 AI 的赋能‘端到端’的完成。

智能时代将再一次开启“文艺复兴”。每个人都会因为 AI 的助力而变得更加强大。用好 AI,一个人就可能做一个公司,解决之前难以解决的难题,也更容易成为自己想成为的人。社会也会更加扁平,以前少数人才能享有的智力服务,也能更普惠。

告别搜狗后,我已开启新的远征:立志往后二十年,为生命科学和医学的发展尽一份力,为大众健康做出一点贡献,核心路径是构建生命健康数学模型,并已经付诸行动。ChatGPT 的出现,也将成为新远征的重要助力。

不仅如此,ChatGPT 是我过往经历的延续和升华。2019 年我将搜狗的使命升级为“让表达和获取知识更简单”,愿景定义为“帮助每个人轻松地对话和书写。便捷地获得知识和服务,提升工作效率和生活品质”。

搜狗输入法和搜狗搜索的数据制备和产品形态,也与 ChatGPT 接近。它们都是把互联网上的全部语言数据收集、清洗,压缩成数据库并构建超级产品。随着深度学习的发展,这些产品都多次迭代升级,全面用上了 Transformer/Bert 等技术。输入法猜你想说什么,搜索猜你想要什么。而 ChatGPT 把这些能力推到了一个全新的高度,是输入法、搜索之外,第三个把全网数据转化成语言服务的超级产品。搜狗未尽的使命在机器掌握了语言后终于可以实现。

很多朋友认可我的技术理想主义和技术驱动的创业经验,鼓励和支持我做中国的 OpenAI。也有很多搜狗和非搜狗的技术大拿,得知我有做大模型的想法,主动申请参与组队,甚至“带资入组”。

我最动心的是,能和一群有理想的人,用极致的技术驱动创造出颠覆性的智能产品。这一次,百川智能将借助语言 AI 的突破,构建中国最好的大模型底座,并在搜索、多模态、教育、医疗等方面增强,帮助大众轻松、普惠的获取世界知识和专业服务。

筹建百川智能不到两个月,已有多位技术合伙人和领军人物的加入。到这个月底将会有近 50 人规模的精英团队。大模型的训练也已经启动,进展顺利。按照现在的进度,争取年内发布国内最好的大模型和颠覆性的产品。

我们是中国公司,但我们并不希望只是“中国的 OpenAI”,而是能建立世界级的视野和技术品质,让中国享有世界级的产品,产生有世界影响力的技术的突破,进而服务海外。百川本意是众多的河流汇集奔赴海洋,象征着众多数据、行业知识汇聚成为一个强大的智能体系,生生不息。百川也象征着集百家智慧,更多人与我一道共赴山海。我们呼唤中国的领军人物、行业产品经理和远在美国的同仁的加入。

通用人工智能时代刚刚开启,我们作为第一批跨入新时代的人类,带着焦虑和好奇去拥抱它,思考和探索“我是谁?”我们还可以把自己的智慧注入它,做新时代的开创者,让后代们有一个更美好的未来,繁荣和延续人类文明。

百川智能 CEO 王小川
2023 年 4 月 10 日