• 中文
  • English
끠
  • 网站首页
  • 关于SBC
    • 公司简介
    • 公司战略
    • 股东资源
    • 专家委员会
    • 交流合作
    • 资质荣誉
    • 组织架构
    • 成员企业
  • 新闻中心
  • 资源中心
    • 技术文章
    • 视频精选
    • 资料下载
    • 生信资源
    • 策源平台
  • 联系我们
    • 在线咨询
    • 联系方式
    • 招贤纳士
  • 产品服务
  • 技术平台
  • 类器官库
    类器官芯片
    类器官科研应用方案-3DSc
    iPSC来源类器官服务
    “亚洲一号”类器官与器官芯片服务
    器官芯片服务
    组织来源类器官服务
    验证服务
    Real-time PCR验证
    基因编辑
    Digital PCR验证
    多色免疫荧光
    生信分析服务
    细胞实验
    动物实验
    蛋白组服务
    蛋白质组服务
    免疫检测分析
    组织芯片
    组织芯片服务
    定制组织芯片
    转录组服务
    表观组服务
    基因组服务
    基因组、表观遗传组服务
    “芯空一号”单细胞多组学服务
    PCF单细胞原位空间蛋白组
    “芯空一号”空间多组学服务
    GeoMx DSP空间转录组/蛋白组
    LCM+质谱-深度空间蛋白组
    试剂盒产品
    核酸提取试剂盒
    类器官培养基及相关试剂盒
    低丰度蛋白检测试剂盒
    CosMx SMI单细胞空间原位转录组/蛋白组
    Visium CytAssist(HD)空间转录组
    • 生物样本库
    • 基因芯片
    • 新一代测序
    • 基因编辑
    • 蛋白检测
    • 组织芯片
    • 分子病理
    • 分子检测
    • 分子诊断
    • 生物信息
网站首页  ꄲ  技术文章  ꄲ  生物学家的机器学习指南(二)

新闻中心   News Senter

生物学家的机器学习指南(二)

 

在上一篇文章中,我们介绍了机器学习的基础知识和执行流程。在本文中,我们会介绍机器学习领域的关键概念术语。在介绍时会尽量使用生物学事例,希望能帮助老师们更好地理解和掌握机器学习。

 

 

01 监督学习和无监督学习

1.监督学习

指将模型拟合到已标注的数据(通常是实验测量或人为指定的,标注可认为是对数据的分组)。例如,蛋白质二级结构预测和基因组调控因子的可及性预测。在这些情况下,真实数据通常来自实验室观察,但原始数据通常会经过预处理。例如,蛋白质二级结构的真实数据来自蛋白质数据库中的晶体结构数据,而基因组调控因子的可及性数据则来自DNA测序实验。

 

2.无监督学习

能够在未标注的数据中识别模式,无需提供预先确定的标签。例如,在基因表达研究中找到具有相似表达水平的患者子集,或从基因序列共变异预测突变效应。有时,监督学习和无监督学习会结合使用,形成半监督学习,即少量标注数据与大量未标注数据结合,以提高性能,特别是在标注数据获取成本较高的情况。

 

 

02 分类、回归和聚类问题

1.分类问题

涉及将数据点分配到一组离散类别中,例如“癌症”或“非癌症”。任何执行此类分类的算法都可以称为分类器。

 

2.回归问题

输出连续值,例如预测蛋白质中某个残基突变后的自由能变化。连续值可以设置阈值或以其他方式离散化,这意味着通常可以将回归问题重新表述为分类问题。

 

3.聚类问题

用于预测数据集中相似数据点的分组,通常基于数据点之间的某种相似性度量。聚类方法是无监督的,不需要数据集中的示例有标签。例如,在基因表达研究中,聚类可以找到具有相似基因表达的患者子集。

 

img1

图1. 监督/非监督学习和回归、分类与聚类算法模型

 

 

03 类别(class)和标签(label)

1.类别

分类器输出的预测结果,通常是一组互斥的离散值。举例说明,当预测蛋白质结构中一个残基的二级结构时,一个氨基酸只能属于多个二级结构类别中的一种。

 

2.标签

可明确表明训练集中数据点归属的既定事实,不必互斥。举例说明,当预测蛋白质结构中一个残基的二级结构时,训练集中氨基酸的标签可以是“α螺旋且跨膜的”。

img2

图2. 预测蛋白质中一个氨基酸残基的二级结构时,二级结构是类别,且输出结果是互斥的,而训练集中氨基酸的标签可以是“α螺旋且跨膜的”

 

 

04 损失或成本函数

机器学习模型的输出从来都不是理想的,会偏离真实值。衡量这种偏离或更一般地说,衡量获得的输出与理想输出之间“不一致”程度的数学函数称为“损失函数”或“成本函数”。在监督学习设置中,损失函数是输出相对于真实输出的偏离度量。例如,回归问题中的均方误差损失和分类问题中的二元交叉熵。

 

 

05 参数和超参数

1.参数

模型中可调整的值,用于在训练过程中优化模型性能。例如,在简单的回归模型中,每个特征都有一个参数,这些参数乘以特征值后相加得到预测值。

 

2.超参数

不属于模型本身的可调整值,因为在训练过程中它们不会更新,但仍然对模型的训练和性能有影响。一个常见的超参数是学习率,它控制模型参数在训练过程中改变的速度或速率。

 

 

06 训练、验证和测试

1.训练

在用于预测之前,模型需要通过自动调整模型参数以提高其性能。在监督学习中,这涉及修改参数(比如:最小化损失或成本函数的平均值),使模型在训练数据集上的表现良好。

 

2.验证

通常使用一个单独的验证数据集来监控训练过程,但不影响训练过程,以便检测潜在的过拟合。

 

3.测试

一旦模型训练完成,可以在未用于训练的数据上进行测试,以评估模型的泛化能力。

 

img3

图3. 训练、验证和测试

 

 

07 过拟合和欠拟合

1.过拟合

模型在训练数据上表现很好,但在未见过的数据上表现较差。通常是因为模型参数过多。

 

2.欠拟合

模型未能充分捕捉数据中的关系,可能是由于选择了不合适的模型类型、假设不正确、参数太少或训练不充分。

 

img4

图4. 无法学习变量之间的潜在关系称为“欠拟合”,而学习训练数据中的噪声称为“过拟合”

 

 

08 归纳偏倚和偏差-方差权衡

1.归纳偏倚

模型在学习算法中所做的假设,使其倾向于某种特定的解决方案。例如,递归神经网络(RNN)的归纳偏倚是输入数据中存在顺序依赖性,如代谢物浓度随时间的变化。不同模型的不同归纳偏倚使它们更适合特定类型的数据,通常性能也更好。

 

2.偏差-方差权衡

高偏差模型对训练模型有较强的约束,而低偏差模型对建模属性的假设较少,理论上可以建模多种函数类型。模型的方差描述了在不同训练数据集上训练的模型的变化程度。通常,我们希望模型具有低偏差和低方差,但这两个目标往往是矛盾的。控制偏差-方差权衡是避免过拟合或欠拟合的关键。

 

 

本文详细介绍了机器学习的关键概念术语。在后续的文章中,小编将详细介绍机器学习领域的各种模型算法,包括传统模型与神经网络模型,敬请期待。

ꄴ上一篇: 无
ꄲ下一篇: 无

新闻中心

News Senter

  • 新闻中心

上海生物芯片有限公司

Shanghai Biochip Co., Ltd. 

版权所有©上海生物芯片有限公司

电子邮箱:

marketing@shbiochip.com

地址: 上海市浦东新区张江高科技园区李冰路151号

技术电话:

4001002131

   沪ICP备05045514号-1

微信公众号 上海生物芯片

扫描查看

微信公众号

沪公网安备31011502004591号

 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6
 本网站由阿里云提供云计算及安全服务
本网站支持 IPv6