项目展望
基于反绎学习和基因知识库的基因表达预测的项目展望
本项目的主要贡献如下:
1. 首次将神经-符号方法应用于基因表达预测任务中,提出一种基于机器学习与知识推理相结合的基因表达预测方法。缓解传统机器学习方法的可解释性和大规模数据依赖性问题,得到高度可解释的模型,以促进对相关生物学机制的理解;
2. 首次将反绎学习应用于人工智能与基础科学交叉领域的具体问题,拓宽了反绎学习的应用范围;
3. 首次将大规模、工业级的领域知识本体引入到反绎学习的研究和应用中,为后续反绎学习利用其他领域、其他表达力的知识库提供了基础。
近期人工智能与生命科学等基础科学交叉领域取得的成果,以基于深度学习的技术为主。如基于深度学习的蛋白质折叠和空间结构的预测等[21]。这些技术对人工智能和生命科学等基础科学的发展,均起到了巨大的推动作用。
但与此同时,深度学习等纯机器学习的方法,在基础科学研究中有其不可避免的问题,诸如模型的不可解释性、对数据的大量依赖等。本项目提出的EGOAL 模型,虽然受模型规模、训练开销等限制,测试表现等可能不及工业级的深度学习模型,但其为面向基础科学研究的人工智能模型提供一种新的,结合知识推理与机器学习的解决思路。
事实上,在缓解可解释性、数据依赖性等问题的同时,相比基于纯机器学习的方法,反绎学习框架也更适合模拟人类研究者在基础科学领域的工作方式,更适用于解决各类基础科学研究中的未知问题。以生物学研究中基本的“假说-演绎”模型(Hypothetico-Deductive Model)为例,反绎学习框架中的学习部分拟合历史数据中的潜在分布并得到伪标签,模拟了人类研究者基于经验提出“假设”的过程;推理部分则在结构化的领域知识上,利用演绎规则进行推理,对其与“假设”即伪标签的逻辑一致性进行检查,模拟了人类研究者基于生物学的一般规律进行逻辑演绎的过程。
人工智能与基础科学研究的交叉领域,即“AI for Science”当前受到广泛关注并取得大量显著成果,但以基于机器学习的方法为主。我们希望,本项目提出的基于反绎学习框架、均衡结合学习和推理两者能力的方法,或能够对“AI for Science”领域提供新的思路,并进一步促进相关基础科学领域的发展。
Last updated