AI+Drug 文献速递 | AI vs 人类专家,谁更强?MMPDB速度快,而REINVENT4生成的分子类药性更强
作者:微信文章1. Comparing Molecules Generated by MMPDB and REINVENT4 with Ideas from Drug Discovery Design Teams
期刊: Journal of Chemical Information and Modeling
链接:
https://doi.org/10.1021/acs.jcim.5c00250
代码:
https://github.com/djhuggins/Generative-Study、
https://github.com/rdkit/mmpdb、
https://github.com/MolecularAI/REINVENT4
简介: 论文对比了MMPDB和REINVENT4两种计算工具与药物发现设计团队所设计分子的差异,发现计算工具可拓展化学空间探索范围,且二者具有互补性。研究利用SureChEMBL库构建MMPDB所需数据库,用REINVENT4的不同生成器生成分子,并计算多种分子属性、进行筛选和聚类分析。在七个测试案例中,MMPDB生成分子速度快,REINVENT4生成的分子类药性更强。二者生成的分子化学空间覆盖范围比设计团队更广,但都无法完全覆盖。该研究为计算工具在药物发现早期阶段的应用提供了参考。
2. Transforming molecular cores, substituents, and combinations into structurally diverse compounds using chemical language models
期刊: European Journal of Medicinal Chemistry
链接:
https://doi.org/10.1016/j.ejmech.2025.117615
代码:
https://github.com/sana1312/dt_trans;
https://uni-bonn.sciebo.de/s/0CybajdigDRYpu0
简介: 论文利用基于Transformer的化学语言模型(CLMs),将分子核心、取代基及其组合转化为结构多样的化合物,为片段药物设计提供候选化合物。研究从ChEMBL获取生物活性化合物,构建核心-化合物、取代基-化合物及核心/取代基-化合物对,训练核心模型(C)、取代基模型(S)和核心/取代基组合模型(CS)。结果显示,CS模型生成有效候选化合物能力最强,且生成化合物化学多样性高、结构新颖,许多是已知生物活性化合物的类似物。
3. druglikeFilter 1.0: An AI powered filter for collectively measuring the drug-likeness of compounds
期刊: Journal of Pharmaceutical Analysis
链接:
https://doi.org/10.1016/j.jpha.2025.101298
简介: 该论文开发了基于深度学习的druglikeFilter 1.0工具,从四个维度评估化合物成药性,加速药物发现。工具读取化合物的SMILES或SDF形式,计算15种理化性质并结合12条规则进行筛选,整合约600个毒性警报及相关模型预测毒性,利用分子对接和序列AI模型评估结合亲和力,通过RDKit估计合成可及性并结合Retro*算法进行逆合成分析。该工具能处理约10000个分子,可自动过滤化合物库,为药物研发提供全面评估,在药物发现中具有重要潜力。
4. PepPCBench is a Comprehensive Benchmark for Protein-Peptide Complex Structure Prediction with AlphaFold3
期刊: bioRxiv
链接:
https://doi.org/10.1101/2025.04.08.647699
代码:
https://github.com/zhaisilong/PepPCBench
简介: 该论文提出PepPCBench基准框架,用于评估以AlphaFold3为主的蛋白质折叠神经网络(PFNNs)预测蛋白质-肽复合物结构的能力,弥补了现有评估的不足。研究人员从RCSB PDB数据库筛选构建PepPCSet数据集,用5种PFNNs进行预测,通过DockQ等多种指标评估。结果显示,AlphaFold3在预测准确性和结构验证方面表现较好,但存在结构记忆、中等长度肽段预测困难等问题。该研究为提高蛋白质-肽复合物结构预测能力及基于肽的疗法开发提供了有价值的参考。
5. Improving AlphaFold2 and 3-based protein complex structure prediction with MULTICOM4 in CASP16
期刊: bioRxiv
链接:
https://doi.org/10.1101/2025.03.06.641913v2
代码:
https://github.com/BioinfoMachineLearning/MULTICOM4
简介: 论文开发了MULTICOM4系统,整合AlphaFold2、AlphaFold3及多种技术提升蛋白质复合物结构预测能力,并在CASP16中进行测试。研究利用多种序列和结构比对工具生成多样MSA,结合多种模型评估方法对预测模型进行排序筛选,同时采用特殊技术处理超大或难预测的目标。在CASP16中,MULTICOM4在无和有化学计量信息的蛋白质复合物结构预测中均表现出色,优于AlphaFold2和AlphaFold3,但在抗体等靶点的模型选择和非球状蛋白结构生成方面仍面临挑战。该研究为基于AlphaFold的蛋白质复合物结构预测提供了改进方向。
6. Leveraging Bayesian Networks for Consensus Network Construction and Multi-Method Feature Selection to Decode Disease Prediction
期刊: bioRxiv
链接:
https://doi.org/10.1101/2025.04.07.647660
代码:
https://github.com/solislemuslab/CMIMN
简介: 文章提出一种综合框架,通过构建可靠的微生物共现网络和多方法特征选择来识别与疾病相关的微生物分类群。研究先利用贝叶斯网络算法CMIMN构建微生物网络,再结合SPIEC-EASI等三种方法构建共识网络,同时运用机器学习和基于网络的方法进行特征选择。对马铃薯疮痂病研究发现,不同网络构建方法结果差异大,共识网络可减少偏差;还确定了如Bacteroidota等与疾病状态相关的关键分类群。该研究为微生物组分析提供了新方法,有助于理解微生物群落动态和植物健康管理。
7. Improving structural plausibility in diffusion-based 3D molecule generation via property-conditioned training with distorted molecules
期刊: Digital Discovery
链接:
https://doi.org/10.1039/d4dd00331d
代码:
https://github.com/lucyvost/distorted_diffusion/tree/main
简介: 该论文提出一种条件训练框架,通过在训练集中加入扭曲分子并标注其质量,使扩散模型能生成结构更合理的3D类药分子。研究人员基于QM9、GEOM和ZINC数据集生成不同质量的分子数据集,用EDM等模型进行训练和采样,并使用RDKit和PoseBusters等进行评估。结果显示,该方法在生成较大、化学结构更复杂的分子时,能提高模型生成分子的有效性和合理性,且在不同模型上具有普适性。该研究为提高扩散模型生成3D分子的质量提供了有效方法。
8. ScaffoldGPT: A Scaffold-based GPT Model for Drug Optimization
期刊: arxiv
链接:
https://arxiv.org/abs/2502.06891v2
简介: 论文提出SCAFFOLDGPT,通过基于分子支架的三阶段优化过程改进药物优化,解决传统方法的局限性。研究采用基于SMILES字符串的两阶段增量训练法预训练GPT,用APO算法微调模型,并用TOP-N策略进行解码优化。在COVID和癌症相关数据集的实验中,SCAFFOLDGPT在多项指标上优于基线模型,能有效保留原始药物的有益特性并提升目标属性。
9. Compositional Flows for 3D Molecule and Synthesis Pathway Co-design
期刊: arxiv
链接:
https://arxiv.org/abs/2504.08051v1
简介: 文章提出Compositional Generative Flows(CGFlow)框架,通过扩展流匹配实现对象的组合生成并建模连续状态,应用于3D分子和合成路径的联合设计。研究以3DSynthFlow方法在LIT-PCBA和CrossDocked基准测试中进行实验,使用Enamine Catalog的分子片段和合成协议等。结果显示,3DSynthFlow在结合亲和力、采样效率和合成成功率等方面表现优异。
10. Knowledge Distillation for Molecular Property Prediction: A Scalability Analysis
期刊: Advanced Science
链接:
https://doi.org/10.1002/advs.202503271
代码:
https://github.com/PEESEgroup/Knowledge-Distillation-For-Molecular-Properties
简介: 论文研究知识蒸馏(KD)在分子性质预测中的有效性,利用SchNet等图神经网络,解决模型计算成本高和泛化性差的问题。研究人员在QM9数据集上进行域内特定蒸馏实验,在ESOL和FreeSolv数据集上进行跨域蒸馏实验,通过对比有KD和无KD的学生模型评估其效果。结果表明,KD能显著提升回归性能,不同架构模型在不同任务下有不同表现,且能有效转移嵌入。该研究为分子性质预测提供了更高效、泛化性更强的方法。
11. PoseidonQ: A Free Machine Learning Platform for the Development, Analysis, and Validation of Efficient and Portable QSAR Models for Drug Discovery
期刊: Journal of Chemical Information and Modeling
链接:
https://doi.org/10.1021/acs.jcim.4c02372
代码:
https://github.com/Muzatheking12/PoseidonQ
简介: 论文介绍了PoseidonQ这一免费的机器学习平台,它集成多种算法和工具,简化QSAR模型的开发、分析和验证流程,推动其在药物发现中的应用。该平台自动连接ChEMBL数据库获取数据,集成22种机器学习算法、17种分子指纹和208种分子描述符,能构建回归和分类模型,并自动评估适用性域。在三个与阿尔茨海默病相关的案例研究中,PoseidonQ构建的模型表现良好,如在预测大麻素受体1型配体的分类模型中,HistGradientBoosting算法的MCC值达0.64。
12. Generative protein design meets synthetic porphyrin assembly
期刊: ChemRxiv
链接:
https://doi.org/10.26434/chemrxiv-2025-5xfm8
简介: 文章通过整合从头蛋白质设计与合成超分子设计,构建了一种人工蛋白质组装体,拓展了人工蛋白质组装体的设计性。研究人员利用RFdiffusion和ProteinMPNN等工具,开发了BiPorphyrin Acquisition Designer protein(BiPAD),其能捕获两个合成卟啉,在镍离子作用下形成金属响应性环状组装体。实验使用大肠杆菌表达BiPAD,通过UV-vis光谱、ESI-TOF质谱和多种显微镜技术对其进行表征。结果显示,BiPAD-C3能成功结合Fe-TPP-phen并形成预期的C3对称环状结构,且HS-AFM观察到其动态结构变化。
13. MolRWKV: Conditional Molecular Generation Model Using Local Enhancement and Graph Enhancement
期刊: Journal of Computational Chemistry
链接:
https://doi.org/10.1002/jcc.70100
代码:
https://github.com/bigwestHan/MolRWKV
简介: 论文提出MolRWKV模型,结合RWKV、CNN和GCN,提升条件分子生成任务的性能,为药物研发提供新方法。模型以RWKV为基础,用CNN提取SMILES序列局部信息,GCN获取分子图拓扑结构信息。研究使用ZINC250K、Guacamol等数据集训练和评估模型,以有效性、独特性等指标衡量性能。实验结果表明,在无条件生成任务中,MolRWKV与基线模型表现相当;在条件生成任务中,它在生成有效性和条件控制精度上表现更优,如在多条件生成实验中,相比MolGPT,其生成分子的属性更接近预设值。
14. InertDB as a generative AI-expanded resource of biologically inactive small molecules from PubChem
期刊: Journal of Cheminformatics
链接:
https://doi.org/10.1186/s13321-025-00999-1
代码:
https://github.com/ann081993/InertDB
简介: 该论文介绍了InertDB数据库,它通过从PubChem中筛选及利用生成式AI扩展,提供生物活性阴性数据,解决了AI驱动药物发现中阴性数据稀缺问题。研究人员从PubChem超460万化合物记录筛选出3205个无活性化合物(CICs),并利用深度生成AI模型生成64368个无活性化合物(GICs)。使用LIT-PCBA和MUV数据集验证发现,基于InertDB训练的模型在预测化合物生物活性时,性能显著优于从PubChem或ZINC随机采样及使用DeepCoy生成诱饵化合物训练的模型。InertDB为药物发现的预测建模和虚拟筛选提供了有效资源。
15. Multi-view Contrastive Learning for Drug Repositioning on Heterogeneous Biological Networks
期刊: IEEE Journal of Biomedical and Health Informatics
链接:
https://doi.org/10.1109/JBHI.2025.3559570
代码:
https://github.com/OleCui/paper_MICLE
简介: 论文提出MICLE方法,通过多视图对比学习,整合蛋白质相关二分图和原始药物-疾病关联网络,提升药物重定位预测性能。该方法先构建语义视图和交互视图,利用图变压器和异构图变压器分别提取特征,再设计互补的视图间和视图内对比学习任务,最后通过多任务学习训练预测模型。在三个常用基准数据集上的实验显示,MICLE在10折交叉验证下多项指标优于基线模型,在处理数据稀疏问题和冷启动场景时表现良好,且对不同疾病类别预测效果稳定。该研究为药物重定位提供了有效方法。
16. Feature fusion with attributed deepwalk for protein–protein interaction prediction
期刊: Scientific Reports
链接:
https://doi.org/10.1038/s41598-025-96510-9
代码:
https://github.com/StacyMYCao/FFADW
简介: 文章提出FFADW方法,通过加权融合序列和网络特征,结合归因深度游走算法,提升蛋白质-蛋白质相互作用预测准确性。研究人员从多个数据库提取数据,用Levenshtein距离计算序列相似性,高斯核方法衡量网络相似性,再融合特征并利用归因深度游走算法得到低维嵌入,用于训练分类器。在酿酒酵母、幽门螺杆菌和人类三个数据集上的实验表明,FFADW在不同分类器下均表现良好,XGBoost分类器效果最佳,且该方法在特征融合后样本聚类效果更好,优于现有方法。
页:
[1]