一、选题的目的和意义
作为一个普遍并成功的方法,定量构效关系(QSAR)研究被广泛应用于药物的合理设计。定量构效关系(QSAR)是通过对已知结构且有生物活性的化合物进行计算,选用适当的数学模型来建立活性与化合物结构之间定量关系,以此来解释由于分子结构的变化影响化合物生物活性的改变,推测其可能的作用机理,然后建立有效的QSAR模型。如果有新化合物的出现,且其结构数据已知,可以预测其生物活性,也可以优化结构改变现有化合物的结构以提高其生物活性。随着新QSAR模型的建立,极大地缩短了新药合成的时间,降低了开发成本,并能在某种程度上预测药物对特定人群的有效性,为疾病治疗起到了积极地推动作用。
近来,以数学方法作为回归工具应用在QSAR分析中的发展十分迅速。选择并利用合适的数学方法有助于快速准确的建立模型,推进了QSAR研究的发展,为化合物活性预测和结构设计提供了更为有效的帮助。
- 课题拟解决的问题
利用一些已知的分子描述例如理化性质、分子编码、线性描述符等分子的结构和组成来预测其化学行为是QSAR研究十分重要的一项内容。而从一个巨大的参数空间得到QSAR模型时,特征选择是最重要的一步,在此我们要选择选择一组与一个已给定的生物反应变量最相关的分子描述符。所谓分子描述符,是指分子在某一方面性质的度量,既可以是分子的物理化学性质,也可以是根据分子结构通过各种算法推导出来的数值指标。理想下,如果不是近似正交的,选择的描述符不应该是高度相关的,应该是近似最佳的在解释反应变量的问题上。
本研究运用回归方法建立合适的解释性强的回归模型,来进行QSAR研究中化合物的活性预测。并通过回归算法降维选取分子描述符来减小数据集,提供最优化的建模数据,并且允许有关于最相关描述符的模型的解释。
三、知识准备与实现难度
本研究主要运用数学的回归方法,包括线性回归和单指标回归方法来进行模型的建立,并利用Lasso及其相关方法在线性回归中的应用来获得一个精炼的模型,旨在实现指标集合的精简应用于最相关描述符的降维选取。因此,掌握相应的数学回归算法知识是必要的。其次,本研究所有的算法均通过R来编写,以此建立验证模型。要写出效率高的算法,R软件编程思想也是不可或缺的。最后,由于该研究是对化合物结构功能进行预测,因此,对化合物的结构和相关性质也因当有一定的了解。
(1) 根据相关文献和化合物结构性质了解已知的分子活性数据的意义
(2) 根据文献和数学知识,确定相关回归算法的具体运用
(3) 掌握相关算法在R中的编程和R包应用
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。