麻省理工学院的“测试时训练技术”让语言模型在抽象推理上更出色
麻省理工学院的研究人员开发了一种名为“测试时训练”(Test-Time Training,TTT)的方法,提高了AI语言模型的逻辑推理能力。在这种方法中,模型的参数在应用过程中根据当前输入数据动态调整。
在使用抽象和推理语料库(ARC)进行的测试中,团队将一个80亿参数模型的准确率提高了6倍。在公共ARC验证数据集上,系统达到了53%的解决率,这是纯粹神经系统的最高发布分数。
该方法基于三个组成部分:在类似任务上对模型进行初始微调,特别格式化的辅助任务和数据变换,以及为每个问题实例分别训练模型参数。结合程序合成,系统达到了61.9%的准确率。
免责声明:除原创作品外,本平台所使用的文章、图片、视频及音乐属于原权利人所有,因客观原因或会存在不当使用的情况,如,部分文章或文章部分引用内容未能及时与原作者取得联系,或作者名称及原始出处标注错误等情况,非恶意侵犯原权利人相关权益,敬请相关权利人谅解并与我们联系。