生物学家的机器学习指南(二)
在上一篇文章中,我们介绍了机器学习的基础知识和执行流程。在本文中,我们会介绍机器学习领域的关键概念术语。在介绍时会尽量使用生物学事例,希望能帮助老师们更好地理解和掌握机器学习。
01 监督学习和无监督学习
1.监督学习
指将模型拟合到已标注的数据(通常是实验测量或人为指定的,标注可认为是对数据的分组)。例如,蛋白质二级结构预测和基因组调控因子的可及性预测。在这些情况下,真实数据通常来自实验室观察,但原始数据通常会经过预处理。例如,蛋白质二级结构的真实数据来自蛋白质数据库中的晶体结构数据,而基因组调控因子的可及性数据则来自DNA测序实验。
2.无监督学习
能够在未标注的数据中识别模式,无需提供预先确定的标签。例如,在基因表达研究中找到具有相似表达水平的患者子集,或从基因序列共变异预测突变效应。有时,监督学习和无监督学习会结合使用,形成半监督学习,即少量标注数据与大量未标注数据结合,以提高性能,特别是在标注数据获取成本较高的情况。
02 分类、回归和聚类问题
1.分类问题
涉及将数据点分配到一组离散类别中,例如“癌症”或“非癌症”。任何执行此类分类的算法都可以称为分类器。
2.回归问题
输出连续值,例如预测蛋白质中某个残基突变后的自由能变化。连续值可以设置阈值或以其他方式离散化,这意味着通常可以将回归问题重新表述为分类问题。
3.聚类问题
用于预测数据集中相似数据点的分组,通常基于数据点之间的某种相似性度量。聚类方法是无监督的,不需要数据集中的示例有标签。例如,在基因表达研究中,聚类可以找到具有相似基因表达的患者子集。

图1. 监督/非监督学习和回归、分类与聚类算法模型
03 类别(class)和标签(label)
1.类别
分类器输出的预测结果,通常是一组互斥的离散值。举例说明,当预测蛋白质结构中一个残基的二级结构时,一个氨基酸只能属于多个二级结构类别中的一种。
2.标签
可明确表明训练集中数据点归属的既定事实,不必互斥。举例说明,当预测蛋白质结构中一个残基的二级结构时,训练集中氨基酸的标签可以是“α螺旋且跨膜的”。

图2. 预测蛋白质中一个氨基酸残基的二级结构时,二级结构是类别,且输出结果是互斥的,而训练集中氨基酸的标签可以是“α螺旋且跨膜的”
04 损失或成本函数
机器学习模型的输出从来都不是理想的,会偏离真实值。衡量这种偏离或更一般地说,衡量获得的输出与理想输出之间“不一致”程度的数学函数称为“损失函数”或“成本函数”。在监督学习设置中,损失函数是输出相对于真实输出的偏离度量。例如,回归问题中的均方误差损失和分类问题中的二元交叉熵。
05 参数和超参数
1.参数
模型中可调整的值,用于在训练过程中优化模型性能。例如,在简单的回归模型中,每个特征都有一个参数,这些参数乘以特征值后相加得到预测值。
2.超参数
不属于模型本身的可调整值,因为在训练过程中它们不会更新,但仍然对模型的训练和性能有影响。一个常见的超参数是学习率,它控制模型参数在训练过程中改变的速度或速率。
06 训练、验证和测试
1.训练
在用于预测之前,模型需要通过自动调整模型参数以提高其性能。在监督学习中,这涉及修改参数(比如:最小化损失或成本函数的平均值),使模型在训练数据集上的表现良好。
2.验证
通常使用一个单独的验证数据集来监控训练过程,但不影响训练过程,以便检测潜在的过拟合。
3.测试
一旦模型训练完成,可以在未用于训练的数据上进行测试,以评估模型的泛化能力。

图3. 训练、验证和测试
07 过拟合和欠拟合
1.过拟合
模型在训练数据上表现很好,但在未见过的数据上表现较差。通常是因为模型参数过多。
2.欠拟合
模型未能充分捕捉数据中的关系,可能是由于选择了不合适的模型类型、假设不正确、参数太少或训练不充分。

图4. 无法学习变量之间的潜在关系称为“欠拟合”,而学习训练数据中的噪声称为“过拟合”
08 归纳偏倚和偏差-方差权衡
1.归纳偏倚
模型在学习算法中所做的假设,使其倾向于某种特定的解决方案。例如,递归神经网络(RNN)的归纳偏倚是输入数据中存在顺序依赖性,如代谢物浓度随时间的变化。不同模型的不同归纳偏倚使它们更适合特定类型的数据,通常性能也更好。
2.偏差-方差权衡
高偏差模型对训练模型有较强的约束,而低偏差模型对建模属性的假设较少,理论上可以建模多种函数类型。模型的方差描述了在不同训练数据集上训练的模型的变化程度。通常,我们希望模型具有低偏差和低方差,但这两个目标往往是矛盾的。控制偏差-方差权衡是避免过拟合或欠拟合的关键。
本文详细介绍了机器学习的关键概念术语。在后续的文章中,小编将详细介绍机器学习领域的各种模型算法,包括传统模型与神经网络模型,敬请期待。
新闻中心
News Senter
上海生物芯片有限公司
Shanghai Biochip Co., Ltd.
版权所有©上海生物芯片有限公司
电子邮箱:
marketing@shbiochip.com
地址: 上海市浦东新区张江高科技园区李冰路151号
技术电话:
4001002131
扫描查看
微信公众号