后续工作及讨论
基于反绎学习和基因知识库的基因表达预测的后续工作及讨论
1. 面向应用的完善
为适应EGOAL模型的应用场景,将其服务于更多生命科学领域的研究应用,本项目除上述主要工作外,进行了如下完善:
- 构建了简单的图形用户界面,使非计算机科学领域的研究者方便地使用EGOAL模型;
- 大肠杆菌为生命科学中的模式物种,对其研究最为广泛,而本模型基于的希瓦氏菌则应用较少。因此本项目依照第二部分的相同方法,构建了大肠杆菌基因表达数据集,并在该数据集上训练得到应用于大肠杆菌模型,以促进EGOAL模型更广泛地应用于生命科学研究中。
2.计划改进方向
本大赛周期后,项目预计在EGOAL模型的基础上继续深入改进。目前计划的改进方向如下:
1. 采用更复杂的生物过程网络模型作为知识库。
目前采用的GO知识本体主要包含基因表达的调控关系,而生命体中的很多生物过程实际上不涉及基因表达的改变或调控。代谢网络(Metabolic Networks)则是从更细粒度描述生物体内各种化学反应等生命过程的模型,而其复杂度则远高于GO知识本体所描述的调控网络。引入代谢网络作为知识库,可以更精准地预测实验观察的背后机制和通路。例如生科院iGEM项目中涉及的部分生物过程,采用GO知识库时由于粒度较大而效果不佳,则需要考虑采用代谢网络。
由于代谢网络的复杂性,当前EGOAL模型的推理部分,采用的简单遍历规则集的方式,可能效率较低。因此也需要考虑在基于复杂网络模型的知识库下,更高效的逻辑编程(Logic Programming)方式,例如近期研究提出的基于布尔矩阵的逻辑编程等[16][17]。
2. 采取基于迁移系统的图学习模型作为基学习器。
佩特里网(Petri-Nets)是一种离散的、具有时序性质的迁移系统模型。生物过程的本质即为化学反应,而佩特里网适合用于各种化学反应、尤其是复杂的化学反应网络的建模。
我们尝试探讨将佩特里网等迁移系统模型直接用于机器学习,因其可以直接解释生物过程、具有更高的模型可解释性;且可能可以更好地拟合生物系统。我们也希望将此种模型引入反绎学习框架,与结构化的知识库结合。现有一些研究探讨可学习的佩特里网[18][19],但其仍不是成熟的机器学习模型,需要基于本项目进行更深入的理论探讨。
3. 考虑基于张量的逻辑编程,实现多细胞生物的预测。
EGOAL模型目前仅能预测希瓦氏菌、大肠杆菌等单细胞的原核细菌,而不能满足生命科学领域对更复杂的多细胞生物的应用需求。由于原核生物的调控网络较为简单,基因表达也可以由一维输出向量编码,但即使最简单的多细胞生物,也涉及复杂的胞间关系(Intracellular Interaction)和基因表达、调控,可能需要通过高阶张量进行描述。近期有研究提出基于张量的逻辑编程[20],但在多细胞生物上实现基因表达预测仍较为困难。
Last updated