1.2.2 监督式机器学习

1.离散标签预测

离散标签预测是一种机器学习或数据分析任务,其主要目标是将输入数据点或样本映射到一组离散的类别或标签中。标签分类任务在离散标签预测中扮演关键角色,下面我们来详细介绍离散标签预测中的标签分类任务。

标签分类任务涉及两个关键步骤,如图1-2所示。第一步,我们会看到一组物品,这组物品通常称为训练集。第二步,通过分析这个训练集,我们可以学习到不同类别的特征。例如,第一种水果的类别特征可能包括红色和圆形,第二种水果的分类特征可能是黄色和椭圆形。这些特征的学习是通过分析大量的训练集数据来实现的。一旦从训练集中学到了这些特征,我们就可以将它们用于分类未知物品。这意味着,当拿到一个新的水果时,我们可以使用之前学到的分类特征来识别它,将其归于某一类水果。这是分类任务的一个简单示例。

图1-2 水果的标签分类任务

下面来看两个例子。

第一个例子的数据如图1-3所示。在表格中,年龄和收入是两个特征,“发展评估”是要学习的一个类别标签。如果想知道一个客户的信用等级,就要对已标注信用评估等级的训练集进行学习建模,在此基础上得到类别特征。通过客户数据的训练集,可以学习到年龄在30岁到40岁之间,且收入高的客户的信用等级为良好这个特征。

图1-3 信用等级评估

第二个例子的数据如图1-4所示,其中记录了飞机的机长、面积、空中、速度特征,是否为F16型号的飞机是要学习的类别标签。利用表格数据总结出来的分类规律可以绘制出决策树,根据对特征条件的判断实现精准分类。

图1-4 飞机型号的分类

2.连续标签预测

连续标签预测和离散标签预测的区别在于预测的输出是一个具体的值。以房价预测为例,根据图1-5所示的数据得到房屋的一系列基本信息后,通过对房屋销售价格以及房屋的基本信息建立模型,构建相关的预测函数,就可以预测在此期间其他房屋的销售价格。

图1-5 房价预测数据