网站首页 ꄲ 技术文章 ꄲ 生物学家的机器学习指南（二）

新闻中心 News Senter

生物学家的机器学习指南（二）

在上一篇文章中，我们介绍了机器学习的基础知识和执行流程。在本文中，我们会介绍机器学习领域的关键概念术语。在介绍时会尽量使用生物学事例，希望能帮助老师们更好地理解和掌握机器学习。

01 监督学习和无监督学习

1.监督学习

指将模型拟合到已标注的数据（通常是实验测量或人为指定的，标注可认为是对数据的分组）。例如，蛋白质二级结构预测和基因组调控因子的可及性预测。在这些情况下，真实数据通常来自实验室观察，但原始数据通常会经过预处理。例如，蛋白质二级结构的真实数据来自蛋白质数据库中的晶体结构数据，而基因组调控因子的可及性数据则来自DNA测序实验。

2.无监督学习

能够在未标注的数据中识别模式，无需提供预先确定的标签。例如，在基因表达研究中找到具有相似表达水平的患者子集，或从基因序列共变异预测突变效应。有时，监督学习和无监督学习会结合使用，形成半监督学习，即少量标注数据与大量未标注数据结合，以提高性能，特别是在标注数据获取成本较高的情况。

02 分类、回归和聚类问题

1.分类问题

涉及将数据点分配到一组离散类别中，例如“癌症”或“非癌症”。任何执行此类分类的算法都可以称为分类器。

2.回归问题

输出连续值，例如预测蛋白质中某个残基突变后的自由能变化。连续值可以设置阈值或以其他方式离散化，这意味着通常可以将回归问题重新表述为分类问题。

3.聚类问题

用于预测数据集中相似数据点的分组，通常基于数据点之间的某种相似性度量。聚类方法是无监督的，不需要数据集中的示例有标签。例如，在基因表达研究中，聚类可以找到具有相似基因表达的患者子集。

图1. 监督/非监督学习和回归、分类与聚类算法模型

03 类别（class）和标签（label）

1.类别

分类器输出的预测结果，通常是一组互斥的离散值。举例说明，当预测蛋白质结构中一个残基的二级结构时，一个氨基酸只能属于多个二级结构类别中的一种。

2.标签

可明确表明训练集中数据点归属的既定事实，不必互斥。举例说明，当预测蛋白质结构中一个残基的二级结构时，训练集中氨基酸的标签可以是“α螺旋且跨膜的”。

图2. 预测蛋白质中一个氨基酸残基的二级结构时，二级结构是类别，且输出结果是互斥的，而训练集中氨基酸的标签可以是“α螺旋且跨膜的”

04 损失或成本函数

机器学习模型的输出从来都不是理想的，会偏离真实值。衡量这种偏离或更一般地说，衡量获得的输出与理想输出之间“不一致”程度的数学函数称为“损失函数”或“成本函数”。在监督学习设置中，损失函数是输出相对于真实输出的偏离度量。例如，回归问题中的均方误差损失和分类问题中的二元交叉熵。

05 参数和超参数

1.参数

模型中可调整的值，用于在训练过程中优化模型性能。例如，在简单的回归模型中，每个特征都有一个参数，这些参数乘以特征值后相加得到预测值。

2.超参数

不属于模型本身的可调整值，因为在训练过程中它们不会更新，但仍然对模型的训练和性能有影响。一个常见的超参数是学习率，它控制模型参数在训练过程中改变的速度或速率。

06 训练、验证和测试

1.训练

在用于预测之前，模型需要通过自动调整模型参数以提高其性能。在监督学习中，这涉及修改参数（比如：最小化损失或成本函数的平均值），使模型在训练数据集上的表现良好。

2.验证

通常使用一个单独的验证数据集来监控训练过程，但不影响训练过程，以便检测潜在的过拟合。

3.测试

一旦模型训练完成，可以在未用于训练的数据上进行测试，以评估模型的泛化能力。

图3. 训练、验证和测试

07 过拟合和欠拟合

1.过拟合

模型在训练数据上表现很好，但在未见过的数据上表现较差。通常是因为模型参数过多。

2.欠拟合

模型未能充分捕捉数据中的关系，可能是由于选择了不合适的模型类型、假设不正确、参数太少或训练不充分。

图4. 无法学习变量之间的潜在关系称为“欠拟合”，而学习训练数据中的噪声称为“过拟合”

08 归纳偏倚和偏差-方差权衡

1.归纳偏倚

模型在学习算法中所做的假设，使其倾向于某种特定的解决方案。例如，递归神经网络（RNN）的归纳偏倚是输入数据中存在顺序依赖性，如代谢物浓度随时间的变化。不同模型的不同归纳偏倚使它们更适合特定类型的数据，通常性能也更好。

2.偏差-方差权衡

高偏差模型对训练模型有较强的约束，而低偏差模型对建模属性的假设较少，理论上可以建模多种函数类型。模型的方差描述了在不同训练数据集上训练的模型的变化程度。通常，我们希望模型具有低偏差和低方差，但这两个目标往往是矛盾的。控制偏差-方差权衡是避免过拟合或欠拟合的关键。

本文详细介绍了机器学习的关键概念术语。在后续的文章中，小编将详细介绍机器学习领域的各种模型算法，包括传统模型与神经网络模型，敬请期待。

ꄴ上一篇：无

ꄲ下一篇：无

新闻中心

News Senter

新闻中心

上海生物芯片有限公司

Shanghai Biochip Co., Ltd.

电子邮箱：

marketing@shbiochip.com

地址：上海市浦东新区张江高科技园区李冰路151号

技术电话：

4001002131

沪ICP备05045514号-1

扫描查看

微信公众号