罗三中团队在机器学习精准预测化合物pKa研究方向取得突破进展

酸解离常数(pKa)是最重要的有机化学基础数据之一,是衡量化合物解离氢质子能力的热力学标度,其在合成化学、生物化学、药物化学、精细化工等诸多领域均有重要应用。虽然目前已有近两万个化合物的35000个pKa实验数据被报道(iBond数据库统计),但受限于化合物稳定性、溶解性等多方面限制,众多重要化合物的pKa数据仍然缺失,并且目前大部分pKa测定是在水相进行的,对于合成化学及精细化工极其重要的有机溶剂中pKa数据极其匮乏。因此,开发化合物水相以及有机相pKa数据的精确预测方法是当前工业和学术界都广泛关注的热点问题。最近,清华大学化学系基础分子科学中心的罗三中研究团队依托ibond数据库丰富全面的pKa数据,采用机器学习策略开发了pKa全局预测模型,为快速获得可靠的pKa数据提供了解决方案。

iBond数据库是由清华大学程津培院士领衔创建的全球最权威的键能数据库,其收集了文献报道的两万余种化合物的约三万五千个准确pKa数据。研究团队对iBond数据库中已有数据进行了系统整理标记,形成了种类丰富、溶剂分布广泛、数据分布合理的数据集。在自此基础上,团队引入了结合化合物结构特征和物理化学性质的SPOC描述符对化合物进行精确描述,并采用当前流行的XGBoost和神经网络算法构建了高精度预测模型。该预测模型可以实现不同溶剂中化合物pKa的同时预测,并能够对包括O-H、N-H、C-H在内的各种不同酸性氢进行准确的pKa预测,精度可达到0.87pK单位。团队分别选择了若干药物分子和小分子催化剂对水相及有机相的预测能力进行了测试,研究表明对药物分子的水相pKa预测的平均误差可低至0.44,对有机小分子有机相pKa预测的平均误差则在1 pK单位左右。

该成果以“Holistic Prediction of pKa in Diverse Solvents Based on Machine Learning Approach”为题发表在国际著名期刊德国应用化学上(Angew. Chem. Int. Ed.),论文第一作者为杨骐博士,通讯作者为清华大学罗三中教授和张龙副研究员。同时论文成果以网站形式开放给学术界使用(http://pka.luoszgroup.com)。