劳动节之际,一个即将百岁的复古大模型也投入了工作。有人将这个只有1930年知识的大模型微调成了一名软件工程师,过程比预期轻松得多,仅用250个训练样本就解决了它的第一个编程问题——为xarray库打了一个补丁。

这个从未见过电视机的AI现在开始涉足编程领域,与Claude等现代模型竞争程序员的工作。这个被称为“老头”的AI全名叫talkie-1930-13b,由AI研究员Nick Levine、多伦多大学副教授David Duvenaud和GPT系列之父Alec Radford共同开发。其训练数据严格限制在1931年1月1日之前,因此它对电视机、互联网乃至二战结局一无所知,世界永远停留在1930年的最后一天。

然而,当面对Python编程题时,这个老古董竟然写出了第一行代码,让许多人感到震惊。最近,团队再次对这个1930年代的模型进行了微调,让它解决SWE-bench上的真实软件工程问题。令人惊讶的是,经过250个训练样本后,它成功修复了xarray库的一个小问题。

尽管整个过程看起来有些笨拙,用了49轮才解决问题,但这种试错、反思和自我修正的能力展示了强大的推理能力。当训练数据扩展到约75K条轨迹(10亿token)时,模型在SWE-bench-Verified上达到了4.5%的通过率,相比原来在Humaneval上的4%通过率有了显著提升。
(更多资讯请关注56之窗资讯网:56news.ffsy56.com)

