市场活动

欧易探云指南 | 随机森林分析

进行了大样本量实验(如微生物多样性测序)后,如何对样本进行有效且准确的分类,并且获得特征的重要性结果?

 


一、概念



01 简答题·随机森林可以解决什么问题?

随机森林是一种常用的机器学习算法,可以用于解决分类问题和回归问题。

 


02 名词解释题·何谓决策树?何谓随机森林?

决策树可以简单地理解为达到某一特定结果的一系列决策,让我们通过一张图来了解这棵树是如何工作的。
 


 

预测贷款用户是否具有还款能力?首先判断用户是否拥有房产,如果是,则可以偿还,否则继续判断。然后判断用户是否结婚,如果是,则可以偿还,否则继续判断。接着判断月收入指标,如果大于4k,则可以偿还,否则不能偿还。决策便是采用这样的树形结构,由包含样本的全集,对不同属性节点层层推导,直到无对应属性测试,最终获得分类。

 

随机森林是由很多随机创造的决策树构成的森林,每棵树之间沒有关联,随机森林将单颗树的输出结果整合起来生成最终的输出。



 

二、延伸


03 论述题·构造随机森林的步骤?

Step1.  随机抽样,训练决策树;

Step2.  随机选取属性作为节点分裂属性;

Step3.  重复步骤2直到不能分裂为止;

Step4.  建立大量决策树形成森林。

 


04 开放题·随机森林的优点有哪些?

1.  可以判断特征的重要程度;

2.  可以判断出不同特征之间的相互影响性;

3.  容易实现;

4.  若有大部分的特征缺失,仍能保持准确度;

5.  不容易过拟合;

6.  训练时可以并行操作,速度快。



 

三、研究


05 实践题·随机森林的云上分析工具在哪找?
 

当然是欧易云平台!本次介绍的这款小工具,只需两个输入文件,即可获得建立随机森林分类模型特征集的重要性信息。特征的选择是决定使用哪些特征来做决策判断的关键,其中样本集越大机器学习算法越准确,因此建议进行分析的数据组内有生物学重复且单组样本大于50。
 

【输入数据矩阵】

(如上图为不同物种在各样本中的相对丰度矩阵)


 

【输入分组文件】

(如上图为样本集的分组信息)


 在一个训练数据集中,每个样本的属性可能存在多个,不同属性的作用大小不一哦。

 

【输出MeanDecreaseGini 系数图】

(横坐标为MeanDecreaseGini值,用来评判物种对模型分类的情况。MeanDecreaseGini 值越大,说明类别分类情况越好。纵坐标为 biomarker,按照 MeanDecreaseGini 系数的大小降序排列。注意:该图是根据输入文件的特征数目绘制。)


 

【输出特征重要性数据】

(MeanDecreaseGini为节点不纯度的平均减少值;MeanDecreaseAccuracy为准确度的平均减少值。)


 


06 想象题·获得了特征后还能做些什么?
 

构建模型、绘制ROC曲线、混淆矩阵等等,下回小编便带大家熟悉ROC曲线的绘制,敬请期待~


 


文末彩蛋

 

看到这里的老师有福了~诚意满满的小编其实这次有给大家准备礼物哦~ 随着高通量测序的不断发展,单组学研究日趋成熟,多个组学整合越来越为研究的热点。其中,相关性分析是多组学分析中常见的分析方法之一,在此各大高校开学之际,欧易生物转录业务线推出免费R语言培训课程相关性分析在多组学中的应用、原理及实战,助力广大老师科研工作。

 

本次培训主要内容:

1. 相关性分析在多组学中的应用

2. 常用相关性分析方法以及原理

3. 组学数据前期处理和分析实战


课程对象:

从事生命科学、医学领域研究对R语言感兴趣的科研工作者

 

培训时间:

2021年3月24日(周三) 19:30-20:30 

 

报名方式和培训地点:

1. 添加下方欧易生物转录调控交流qq群(746716637)即可报名

2. 建议R语言零基础的老师可以先看一下 B站上欧易生物R语言视频的基础课程(https://search.bilibili.com/all?keyword=欧易生物  R语言)进行预习,听课效果更佳哦~

上一页:会议预告 | 欧易生物邀您相约第六届易贸生物产业大会下一页:空间转录组,只做1个透化够吗?