为了生产一个机器学习势函数,你积累了大量的第一性原理数据,却发现训练模型的样本效率不足,迁移性差。如此大的花费只能体验“一次性”的机器学习分子动力学模拟 (MLMD)?这未免太贵了!
ChatGPT 等大规模语言模型的成功让我们看到了“预训练模型+少量新数据微调”解决这一难题的可能,势函数生产能否参考此训练策略进行?
图 1|预训练模型+少量新数据微调范式
在此思路上,深势科技以及北京科学智能研究院研究员张铎、毕航睿等人和合作者在 arXiv 上预发表了《DPA-1: Pretraining of Attention-based Deep Potential Model for Molecular Simulation》文章。
通过对元素类型更优的编码以及利用关键的注意力机制,极大提高了 Deep Potential 之前版本模型的容量和迁移能力,获得了覆盖元素周期表大多常见元素的大型预训练模型 DPA-1。在不同数据集上的迁移学习结果表明,模型能大幅降低新场景对数据的依赖。
现在,你已经知道了 DPA-1 是一个基于注意力机制的 DP 模型,它有效地描述了原子间相互作用;训练后,可以显著减少下游任务的额外工作。
为了生产一个机器学习势函数,你积累了大量的第一性原理数据,却发现训练模型的样本效率不足,迁移性差。如此大的花费只能体验“一次性”的机器学习分子动力学模拟 (MLMD)?这未免太贵了!
ChatGPT 等大规模语言模型的成功让我们看到了“预训练模型+少量新数据微调”解决这一难题的可能,势函数生产能否参考此训练策略进行?
图 1|预训练模型+少量新数据微调范式
在此思路上,深势科技以及北京科学智能研究院研究员张铎、毕航睿等人和合作者在 arXiv 上预发表了《DPA-1: Pretraining of Attention-based Deep Potential Model for Molecular Simulation》文章。
通过对元素类型更优的编码以及利用关键的注意力机制,极大提高了 Deep Potential 之前版本模型的容量和迁移能力,获得了覆盖元素周期表大多常见元素的大型预训练模型 DPA-1。在不同数据集上的迁移学习结果表明,模型能大幅降低新场景对数据的依赖。
现在,你已经知道了 DPA-1 是一个基于注意力机制的 DP 模型,它有效地描述了原子间相互作用;训练后,可以显著减少下游任务的额外工作。