构建数据集
基于反绎学习和基因知识库的基因表达预测 部分一 构建数据集
1.初始数据集的构建
NCBI Gene Expression Omnibus (GEO)数据库是一个生物和医学数据的公开平台[9],用于供全球的生命科学研究者提交并公开其实验中测得的基因表达数据(通常与公开发表的生物医学期刊文献等对应)。GEO数据库包含各物种的各类历史实验数据,但由于其数据以实验样本为单位进行组织,欲获取EGOAL模型所需的训练数据,需自行构建数据集。
截至本项目的数据集构建阶段,GEO数据库中共有希瓦氏菌的历史实验(GEO data series)40项,其中包含实验样本数据(GEO samples)526条。经去除无效数据,剩余421条实验样本,每个实验样本的基因表达矩阵数据,经预处理后组合构成初始数据集。
初始数据集的主要问题为:一、由于GEO数据库包含的数据是由全球各地的研究者自行提交,数据质量参差不齐,部分数据可能含有较多噪声,或不能反映真实的潜在分布。二、由于数据采用不同的测序平台得到,不同样本之间,基因表达水平的衡量指标及数值单位均不统一。
对于问题一,希瓦氏菌等原核细菌尚无更大规模、更高质量的基因表达数据。因此只能考虑通过结合知识推理的方法,更大程度上借助GO知识库的结构进行训练,并采用半监督学习等方法[15]。对于问题二,我们通过1.2和1.3所述两种方法,在每条数据内采用重要性特征提取方法、或在每项实验内计算相对表达水平,以消除不同数据间的数值差异。
2.重要性提取
该方法设计了一种无监督的度量标准,将其命名为重要性特征提取方法。以每条样本数据为单位,基于样本每个基因的表达水平数值,根据该标准计算表达水平可能发生显著变化的基因,以此消除不同数据的数值差异。
在具体实现中,EGOAL模型选取方差作为度量标准,刻画不同基因表达水平差异程度。如果两个基因表达水平数值之间的差异程度越大,则方差越大,认为该基因的相对表达水平变化越显著。基于该方法得到基因相对表达的显著性,将数值表达水平规范为0/1值,以去除不同数据间的数值差异。
3.自然语言到知识表示的转换
在GEO数据集中,每条实验样本通过实验指南(protocol)描述其实验条件、过程、操作和结果等。我们将这些自然语言编写的protocol作为模型的输入,以此预测基因表达。而为了利用知识GO知识库进行训练,我们需将自然语言的输入转换成GO中的知识表示。
本作品采用了基于BERT开发的Sentence Transformers预训练模型[13],通过句子embedding模型,分别将实验样本数据中的实验protocol文本,和GO知识本体中的concept names(terms)对应的自然语言标签文本,映射至380维实数向量空间,并计算相似度距离(embedding similarity)。实际处理中,对每条实验样本数据,取和其protocol最接近的10个concept names作为该条数据对应的知识表示。
Last updated