测试分析
基于反绎学习和基因知识库的基因表达预测的测试分析
Last updated
基于反绎学习和基因知识库的基因表达预测的测试分析
Last updated
对于EGOAL模型使用数据集的421条有标签数据样本,按约40%的比例随机划分测试数据集,在其余数据上训练得到模型后使用测试数据集评估其表现。
模型评估分为两部分:在有标签训练集上训练基学习器后,测试各子任务基学习器模型的分类准确率;在有标签及无标签数据集基于反绎学习训练后,测试各子任务反绎学习模型的分类准确率。
对比反绎学习训练前后,学习部分的分类准确率和推理部分中和知识库一致的测试数据比例(推理部分准确率)均得到显著提升。划分上的平均准确率如下:
Before training
0.522
0.522
After training
0.779
0.964
所有子任务上的评估结果如下:
将经过知识表示嵌入的数据集的80%划分为训练集,20%划分为测试集。在训练集上通过基于神经网络的纯机器学习方法训练得到参考模型,并测试集上进行测试评估,得到准确度为0.650。
通过对分类概率的分析,发现对于很多标签,参考模型在测试集上预测为正类的分类概率均接近0.5,且此时模型误差趋于稳定。因此可认为传统机器学习在此项目上准确度不足,可能由于数据集规模过小、数据质量不足导致。
参考模型在各的评估结果如下: