相关工作
基于反绎学习和基因知识库的基因表达预测的相关工作
基因表达水平和基因调控通路,是生命科学研究中最重要的分析对象之一。
现有的对基因表达和调控通路预测任务的研究方法主要分为如下几类:
1. 组学测序及其数据分析
研究者通常基于转录组测序(Transcriptome Sequencing)、单细胞测序(Single-cell Sequencing)等组学方法,获取实验样本的基因表达水平,并通过大量后续数据分析,对其调控通路等生物学机制进行研究。组学测序实验成本高昂,且需要大量后续分析,在成本受限,或对实验进行初步分析、理论解释等应用场景下,适用性较差。
2. 调控通路知识库
生命科学研究者通过知识工程方法,基于人类专家总结的知识,构建了关于基因表达、调控等生物过程的知识本体或结构化数据库,如GO知识本体[3][4]或KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库[5]等。
研究者将此类知识库应用于基因表达和调控通路的研究时,通常需结合数据库中的条目及关系,基于其个人领域知识或经验,对实验涉及的生物学机制进行人工推测。该方法需人工处理大量结构化知识,工作量大,且极大依赖用户的个人经验,准确度低。
3. 基于机器学习的基因表达预测
随着人工智能与生命科学交叉领域的发展,基因表达的预测也开始受到人工智能或生物信息学领域学者的关注,进而出现了一些使用机器学习,尤其是深度学习方法解决该问题的尝试[6],[7],[8],[9]。
然而,基于深度学习的方法依赖大量通过实验测得的历史数据。而基因表达数据等生命科学领域的实验数据,通常通过组学测序等生物学湿实验测定得到,其获取成本高,数据质量普遍偏低,数据规模小,数据维度较高。对于深度学习等完全基于机器学习的方法,由于需要通过大量数据学习其隐含概率分布,依赖大规模、高质量的训练数据,且不易处理高维数据,在现实应用场景中,往往表现不佳。
同时,在生命科学研究领域,研究者通常需要借助模型的内部表示,了解模型预测结果的产生机制,进而对相应的生物学过程提供解释。而基于深度学习的模型通常无法保证其可解释性,用户在得到结果的同时无法了解结果的产生机制,将限制其在科研领域的应用。
综合上述问题,本项目尝试引入反绎学习方法。反绎学习是一种结合了机器学习和知识推理的新型范式,为解决基因表达预测中的复杂问题提供了新的思路。
通过深入分析现有方法的优缺点,并针对技术挑战提出解决方案,我们基于结合知识推理与机器学习的新方法,对更高效、准确且具有生物学解释性的预测模型的开发进行尝试。
Last updated