技术实现与细节
基于反绎学习和基因知识库的基因表达预测的技术实现与细节
EGOAL模型的技术方案主要包括数据集的构建和机器学习模型的训练、评估。在机器学习模型的训练中,本项目采取两种不同技术路线进行尝试,分别为:基于知识表示嵌入(Embedding)技术,直接基于包含知识信息的向量,构建基于传统机器学习的参考模型;通过对GO知识本体进行简单处理,保留其知识结构,构建融合知识推理和机器学习的反绎学习模型。
EGOAL模型的技术实现主要由以下部分组成:
1.构建数据集
从GEO数据库[10]和文献中收集希瓦氏菌的基因表达数据,对其表达数值进行统一,并将对实验条件的自然语言描述转换为结构化表示的知识。
2.知识表示的嵌入(Embedding)方法与构建参考模型
使用Owl2vec*工具包[11],将数据样本输入的知识表示转换为实数空间中的向量。并直接以嵌入得到的向量作为输入,通过神经网络模型预测基因表达水平。
3.对知识图谱进行处理,得到规则集合
从知识图谱中提取子图,去除无关部分;将知识图谱中的RDF三元组转换为一阶逻辑公式;并进一步化简规则集合,去除无关的知识类。
4.基于反绎学习方法,构建机器学习与知识推理融合模型
基于随机森林算法构建机器学习模型,同时基于ABLkit工具包实现知识推理[12],并将二者结合。将预测任务进行拆分后,通过反绎学习训练得到EGOAL模型。
Last updated