第258章 南都大学人工智能会议(2/2)

“这项技术,我们称之为‘动作识别’(action recognition)。它不仅可以用于虚拟偶像和游戏动画制作,更将在人机交互、智能安防、运动科学分析、自动驾驶等领域,发挥出巨大的价值。”

如果说,之前的天元go展示的是ai在“思考”层面的颠覆性突破,那么此刻,ac娘和这段动作识别视频,则向所有人展示了ai在“感知”和“交互”层面的无限可能。

台下,来自斯坦福大学计算机视觉实验室的一位老教授,扶了扶自己的眼镜,眼神中充满了震撼。他喃喃自语道:“这太不可思议了……他们竟然已经走到了这一步。这种精度和实时性,已经超过了我们实验室目前最好的成果。”

会场再次沸腾了,掌声、惊叹声此起彼伏。人们交头接耳,激动地讨论着刚刚看到的一切。

林星石站在舞台中央,平静地等待着大家的情绪稍微平复。

他知道,自己今天带来的这两样东西,将会在平静的学术湖面,投下又一块巨石。

主题演讲结束后的茶歇时间,林星石立刻被一群热情的学者和研究者围了起来。

“林先生,您好!我是来自法国国家信息与自动化研究所的皮埃尔,我对您在论文中提到的蒙特卡洛树搜索(mcts)的改进非常感兴趣。”一位头发微白,眼神锐利的老者率先开口,他的胸牌上标注着他是本次会议的特邀专家之一。

他正是蒙特卡洛树搜索算法领域最重要的奠基人之一,他提出的uct算法(upper confidence bounds applied to trees)是现代mcts算法的核心。

林星石立刻认出了对方,恭敬地回答道:“皮埃尔教授,您好。能和您交流是我的荣幸。我们在天元go中,确实对传统的mcts做了一些调整。主要是将价值网络的快速评估结果,与mcts的模拟(rollout)过程进行了结合,用神经网络的‘棋感’来指导搜索的方向,从而在有限的计算时间内,探索更有价值的棋局变化。”

皮埃尔教授点点头,眼中闪烁着思索的光芒:“这是一个非常巧妙的思路。用一个训练好的‘专家’去指导搜索,而不是纯粹的随机模拟,这确实能极大地提升搜索效率。但是,你如何平衡价值网络的评估和mcts自身的探索性呢?如果价值网络在训练初期存在偏差,会不会导致mcts过早地放弃了一些有潜力的分支?”

这个问题切中了要害。

林星石微笑着解释道:“您提的问题非常关键。我们在算法中引入了一个动态调整的温度系数(temperature parameter)。在训练初期,我们会设置一个较高的温度系数,鼓励ai进行更广泛的探索,即使某些分支在价值网络的初步评估中得分不高,也有机会被深入搜索。随着训练的进行,ai的棋力增强,价值网络的判断越来越准,我们再逐步降低这个温度系数,让ai的决策更加倾向于它认为的最优解。”

“原来如此,通过退火(annealing)的思想来动态平衡探索和利用(exploration and exploitation),非常精彩的设计!”皮埃尔教授恍然大悟,毫不吝啬自己的赞美。

他们两人的讨论,吸引了旁边更多人的注意。

这时,一位看起来四十多岁,气质儒雅的华人教授走了过来。他来自斯坦福大学,是神经网络架构设计领域的知名专家。

“林总,你好。你的演讲非常震撼。”他先是礼貌地问候,然后直接切入了技术话题,“我注意到,天元go的策略网络和价值网络,使用的是相对传统的卷积神经网络结构。我有一个想法,不知道是否可行。”

“教授请讲。”林星石饶有兴致地看着他。

“在处理围棋这种全局性很强的任务时,棋盘上任何一个位置的变化,都可能对全局的局势产生影响。传统的卷积神经网络,其感受野(receptive field)是局部的,需要通过堆叠很多层才能捕捉到全局信息。”这位教授顿了顿,提出了自己的核心观点,“我们最近在自然语言处理领域的研究发现,一种叫做‘注意力机制(attention mechanism)’的模型,可以很好地解决长距离依赖的问题。它允许模型在处理序列数据时,动态地将‘注意力’集中在输入序列的特定部分。我想,这种机制或许也可以应用到围棋ai中,让神经网络在评估一个落子点时,能够‘看到’并‘关注’到棋盘上所有与之相关的重要位置,而不仅仅是其周围的局部区域。”

注意力机制!

林星石心中猛地一震。

他当然知道注意力机制,更知道它在未来几年,将如何彻底改变深度学习的版图,并最终催生出像transformer这样强大的模型。

他没想到,在这个时间点,就已经有学者开始思考将其应用于计算机视觉和棋类ai的可能性。

这位教授的想法,与他脑海中对天元go未来版本的规划,不谋而合。

“教授,您的这个想法……简直是天才!”林星石的眼神中爆发出强烈的光彩,“将注意力机制引入,让网络自主学习棋子之间的关联性,这无疑会让价值网络对局势的判断,以及策略网络对落子点的选择,提升到一个全新的高度。这太重要了!”

得到林星石如此高的评价,那位教授也显得非常高兴。两人立刻就注意力机制如何在卷积网络中实现、如何与mcts结合等技术细节,展开了深入的讨论。

他们的对话,充满了各种专业术语和复杂的数学公式,让旁边一些道行稍浅的研究者听得如痴如醉,却又云里雾里。

就在此时,一个略带英国口音的年轻声音插了进来。

“林先生,可以打扰一下吗?”

林星石转过头,看到一个金发碧眼,看起来和他年龄相仿的年轻人。他的脸上带着一丝腼腆,但眼神中却充满了对技术的热情。

“你好,我是来自deepmind的丹尼斯。”他做了个简单的自我介绍。

deepmind!

这个名字让林星石再次将目光聚焦。此时的deepmind,还只是英国一家初创公司,尚未被谷歌收购,也还没有因为alphago而名满天下。但林星石清楚地知道,这家公司里,正聚集着一群全世界最聪明的大脑,他们和自己一样,坚信着强化学习是通往通用人工智能的钥匙。

“你好,丹尼斯。很高兴认识你。”林星石友好地伸出手。

“你的演讲太棒了。”丹尼斯握住林星石的手,诚恳地说道,“我们也在尝试用深度强化学习来玩雅达利(atari)游戏,并且取得了一些不错的成果。但是,将它应用在围棋上,难度完全不是一个量级。我最好奇的是,你们在自对弈训练中,是如何处理奖励信号(reward signal)的?围棋的胜负结果,只有在棋局结束时才能知道,这种极其稀疏的奖励,对于模型的训练来说,是一个巨大的挑战。”

这又是一个核心问题。

林星石耐心地解释道:“你说的没错。所以我们并没有直接使用最终的胜负作为唯一的奖励信号。价值网络本身,就扮演了一个‘即时裁判’的角色。在自对弈的每一步,我们都会让价值网络对当前局面进行评估,得出一个胜率预测。我们将这个预测的胜率,作为一种内部的、稠密的奖励信号,来指导策略网络的学习。也就是说,策略网络的目标,不仅仅是赢得最终的胜利,更是在棋局的每一步,都尽可能地走向一个价值网络认为胜率更高的局面。”

“用一个动态的价值函数来塑造奖励……这太聪明了!”丹尼斯恍然大悟,“这相当于ai在自己为自己定义什么是‘好’的,什么是‘坏’的,而不是被动地等待最终的结果。这解决了强化学习在复杂任务中最头疼的问题。”

在与这些顶尖专家的交流中,林星石不仅分享了自己的思想,也收获了大量的灵感。无论是皮埃尔教授对mcts的深刻理解,还是斯坦福教授关于注意力机制的超前构想,都让他对天元go的下一步优化,有了更清晰的方向。

茶歇的后半段时间,他又被一群年轻的研究者和博士生围住。

这些年轻人,虽然在理论深度上可能不及那些成名已久的教授,但他们身处科研和工程的第一线,对很多实现层面的技术细节,有着更加敏锐的嗅觉。

“林总,你们的论文里提到,用了近三百块gpu进行训练。这么大规模的集群,你们是如何进行分布式训练的?模型并行和数据并行具体是怎么做的?”一个来自清大的博士生问道。

林星石笑着回答:“我们自己开发了一套分布式的训练框架。简单来说,就是将一份完整的模型参数保存在中心服务器上,然后将每一盘自我对弈的计算任务,分发给不同的计算节点。每个节点在本地完成一小批次的训练后,将计算出的梯度(gradient)上传给中心服务器,由服务器来更新全局的模型参数。这是一种异步的参数更新策略。”

“异步更新?那不会带来梯度过时(stale gradients)的问题吗?不同节点上传的梯度,是基于不同版本的模型计算出来的,这可能会影响收敛速度和最终效果。”另一位来自上海交大的学生立刻提出了质疑。

“说得好。”林星石赞许地看了他一眼,“所以,我们设计了一套梯度补偿算法。服务器会根据每个节点上传梯度时所携带的模型版本信息,对梯度进行一定的修正,从而减小梯度过时带来的负面影响。同时,我们的实践也发现,在超大规模的训练中,一定程度的梯度噪声,反而有助于模型跳出局部最优,增强了探索性。”

这些关于工程实现的细节讨论,虽然不如理论创新那般激动人心,但却同样充满了智慧的火花。林星石发现,这些年轻一代的研究者,他们的知识结构更加全面,不仅懂算法,也懂系统,对如何将复杂的模型高效地部署在硬件上,有着许多独到的见解。

一天的会议议程,在热烈而充实的交流中很快过去。

当晚,主办方在南都大学附近的一家酒店,为所有特邀嘉宾准备了一场精致的晚宴。

晚宴的氛围比白天要轻松许多。林星石终于有机会,和几位他仰慕已久的,在人工智能伦理和安全领域有着深厚造诣的资深学者坐在一起,深入地聊一聊。

其中一位,是来自牛津大学的尼克·波斯特洛姆教授,他的着作《超级智能》在未来将会成为ai安全领域的奠基之作。

“林,天元go的出现,让我们看到了强人工智能诞生的曙光,但也让我感到了更深的忧虑。”波斯特洛姆教授的表情严肃,“一个在特定领域超越人类的ai,已经展现出如此强大的力量。那么当一个在所有领域都超越人类的通用人工智能(agi)出现时,我们该如何确保它与人类的利益保持一致?这就是我一直担心的‘对齐问题(alignment problem)’。”

另一位来自伯克利大学的教授也附和道:“是的。我们如何向一个远比我们聪明的智能体,去定义和传达人类复杂的价值观?当ai的目标函数与我们的初衷发生哪怕一丝丝的偏离,都可能导致灾难性的后果。就像那个着名的思想实验,一个以‘制造回形针’为终极目标的超级ai,最终可能会为了最高效地制造回形针,而将整个地球的资源都转化成回形针。”

这些讨论,已经超出了纯粹的技术范畴,进入了哲学的领域。

林星石静静地听着,他知道,这些学者提出的,是关乎人类文明未来的终极问题。

“我同意各位前辈的担忧。”林星石放下酒杯,诚恳地说道,“技术的进步,永远是一把双刃剑。天元go的开源,一方面是为了推动技术的普及,但另一方面,也是希望将ai的未来,交到更多人的手中,而不是被少数几个巨头所垄断。我始终相信,开放和透明,是应对技术风险最好的方式。”

“当全世界的开发者和研究者,都能理解和参与到ai的构建中时,我们就能形成一个强大的社区,共同监督和引导ai的发展方向。我们可以通过制定开源协议、建立伦理规范、开发安全测试工具等方式,为ai的发展,装上‘护栏’和‘刹车’。”

他顿了顿,继续说道:“天元go只是一个开始。它的成功,证明了我们可以创造出强大的ai。而接下来的挑战,是如何确保我们创造出的ai,是友善的、可控的,并且是真正为全人类服务的。这需要我们技术专家、社会学家、哲学家、以及政府的共同努力。这不仅仅是一个技术问题,更是一个社会问题。”

他的话,让在座的几位学者都陷入了深思。

他们从这个年轻人的身上,看到的不仅仅是卓越的技术才华,更是一种超越年龄的远见和担当。

晚宴在友好而深刻的讨论中结束。

林星石走在南都大学宁静的校园里,晚风拂面,吹散了些许酒意。他的脑海中,却比任何时候都要清晰。