Introduction of EGOAL

南京大学人工智能程序设计大赛基于反绎学习和基因知识库的基因表达预测

项目简介：

随着人工智能与各基础科学科研领域的交叉融合，“AI for Science”逐渐成为人工智能研究的热点。由于生命科学研究中普遍涉及大量、高维数据的分析，生命科学与人工智能的交叉结合领域尤其受到关注。

基因表达水平和基因调控通路，是生命科学最重要的研究对象之一。本项目旨在探索一种结合知识推理和机器学习的解决路径，应用于生命科学科研中的基因表达和调控通路预测任务。

本项目构建一个结合机器学习和知识推理的人工智能模型EGOAL，对希瓦氏菌（Shewanella Oneidensis）和大肠杆菌（Escherichia Coli）在不同实验条件下的基因表达和调控通路进行预测，并应用于南京大学生命科学学院的实际科研工作。

EGOAL是一个基于反绎学习（Abductive Learning）范式[1][2]，结合Gene Ontology（GO）基因知识本体[3],[4]，进行基因表达预测的神经-符号人工智能模型。对生物学研究场景中给定的实验样本，输入其实验条件的具体描述，能够对实验样本的基因表达水平进行较为有效的预测。项目在历史实验数据上得到较高的预测准确性，并结合实际的生物学实验，使其可信度得到进一步验证。

本项目首次基于大规模、工业级的领域知识本体，通过反绎学习方法，解决人工智能与基础科学交叉领域的具体问题。在本项目的后续发展中，团队期望能够进一步扩展项目规模，基于更复杂、更大规模的基因组扩展其实现，在更广泛的生命科学研究领域进行应用。

本作品的主要研究内容包括：

实际应用问题向机器学习模型的转化。深入分析基因表达预测任务的实际需求，并将其转化为机器学习模型可以理解和处理的形式。
机器学习模型的训练、评估与选择。选择合适的机器学习算法，并利用基因表达数据进行模型训练。
基于基因组知识库的知识推理模型实现。为了提高预测的准确性和可解释性，本作品利用Gene Ontology（GO）基因组知识本体[1],[2]，构建知识推理模型。
学习模型和知识推理模型的结合。本作品的关键创新之一在于将机器学习模型与知识推理模型有效结合。通过设计合理的集成策略，使得两者能够互补优势，共同提升预测性能。
在实际生物学研究中的应用和验证。本作品完成后，结合南京大学生命科学学院iGEM（国际基因工程机器大赛）项目，在关于希瓦氏菌的研究项目中进行实际应用，并验证其结果可靠性。

本作品实现了一个Gene Ontology进行辅助基因表达预测的机器学习模型。在预先设定的、与实际生物学研究场景相匹配的实验场景中，输入实验样本的具体条件，能够对实验样本的基因表达水平进行较为有效的预测。项目在历史实验数据上得到较高的预测准确性，并结合实际的生物学实验，使其可信度得到进一步验证。

本作品首次基于大规模、工业级的领域知识本体，通过反绎学习方法，解决AI for Science领域的具体问题。在本作品的后续发展中，团队期望能够进一步扩展项目规模，基于更复杂、更大规模的基因组扩展其实现，在更广泛的生命科学研究领域进行应用。

项目源代码链接如下：

项目完成人员：

项远方：人工智能学院2022级本科生

王俊童：人工智能学院2022级本科生

韩飞扬：人工智能学院2022级本科生

Next相关工作

Last updated 5 months ago