知识表示的嵌入(Embedding)方法与参考模型的构建
基于反绎学习和基因知识库的基因表达预测 部分二 知识表示的嵌入(Embedding)方法与参考模型的构建
1.知识表示嵌入
本项目采用OWL2Vec工具包进行知识表示嵌入。OWL2Vec 是一种用于从Web本体语言(OWL)本体中提取特征的方法[11],它可以将本体中的实体(如类、属性和个体)表示为向量,使得机器学习模型可以直接利用这些实体的向量化表示。OWL2Vec* 的基本处理步骤如下:
OWL2Vec* 对输入的OWL本体进行预处理。这包括解析本体文件,提取本体中的类、属性、个体以及它们之间的关系(如子类关系、属性域和范围等)。
OWL2Vec* 根据本体中的信息生成语料库。这个语料库由一系列的句子组成,每个句子代表本体中的一个路径或者一个局部视图。路径是由本体中的关系连接的实体序列,而局部视图则是围绕某个实体的邻域信息。
生成语料库后,OWL2Vec* 应用Word2Vec模型(通常是Skip-Gram或CBOW模型)学习实体的向量表示。Word2Vec模型通过在语料库中的句子上进行训练,学习如何将本体中的实体映射到高维向量空间中,使得在语义上相似的实体在向量空间中距离较近。
通过Word2Vec模型的训练,每个实体都会有一个对应的向量表示。这些向量可以作为特征输入到各种机器学习算法中,用于本体对齐、分类、聚类等任务。
使用OWL2vec*工具包处理GO知识本体,得到其知识表示的嵌入向量。此时,知识本体中实体的嵌入向量即可与用作神经网络模型的训练输入。
2.神经网络模型的训练及评估
在经知识表示嵌入处理的希瓦氏菌基因表达数据集上,通过网格搜索对全连接神经网络的隐层维数、训练周期、优化器、学习率进行超参数优化。最终使用ReLU激活函数,BCEWithLogitsLoss损失函数,Adam优化器进行训练,得到一个含500维隐层的全连接神经网络模型用于基因预测,构建了基于神经网络的参考模型。
Last updated