机器学习简介

当今计算领域最流行的两个流行语是人工智能 (AI) 和机器学习。很多时候人们交替使用它们。事实是，人工智能不仅仅包含机器学习，而且机器学习是人工智能最有前途的方面之一。

什么是机器学习？

机器学习是机器（通常是一台计算机或一系列计算机）在没有被明确指示如何完成该任务的情况下完成任务的过程。一个普通的计算机应用程序将遵循一系列控制结构，告诉它如何以各种方式做出反应。例如，我看到红灯，然后停下来，或者如果房子是 1200 平方英尺，那么在特定市场上的价格将是 150,000 美元。

机器学习与人工智能的区别是什么？

ML 和 AI 之间的区别在于，AI 没有一组特定的指令，而是经过训练以查看大量数据，然后推断或猜测类似数据集的结果可能是什么。在我们的住房定价示例中，系统可能会收到如下信息：

#	平方英尺	销售价格
1	1200	150,000 美元
2	900	120,000 美元
3	1500	160,000 美元
4	1000	140,000 美元
5	1350	?

该系统拥有前四栋房屋的价格，根据这些信息，人工智能将尝试根据提供的先前数据集预测估计价格。

如果我们绘制这些价格的图表，我们可以直观地看到数据的样子，这可以帮助我们了解机器学习系统将做什么：

预测 1350 平方英尺房屋的价格的一种简单方法是尝试绘制一条与我们集合中的数据尽可能相交的线。输出将类似于以下内容：

我们可以看到这不是一个完美的拟合，实际上没有一条直线是完美的，但是如果我们尽力将这条线拟合到现有数据中，那么我们可以做出很好的猜测，或者推断出1350平方英尺的房子的价格是多少。它可能会比 1200 平方英尺的房子多一点，比 1500 平方英尺的房子小一点。

定义一条直线的数学方程有两个变量：它与垂直轴的交点和直线的斜率。我们机器学习算法的目标是选择这两个值以最适合数据。我们不会深入研究这个解决方案背后的所有数学，但可以将一条线描述为：Y = a + bX

其中 a 是与 Y 轴的交点，b 描述了直线的斜率。

事实证明，如果您使用二次方程 (Y = aX2 + bX +c)，它将为我们提供一条更适合该数据的曲线。该曲线将如下所示：

如您所见，这更适合，但这样的数据与现实世界不同。事实是，我们将尽最大努力将曲线拟合到我们拥有的数据中。

机器学习的类型

有几种类型的机器学习系统。他们根据他们如何使用数据来学习以及他们使用什么类型的数据进行分类。我们将在本文中介绍的三种机器学习类型是监督学习、无监督学习和强化学习。

监督学习

上面的房价示例是监督学习的一种形式。通过监督学习，我们为算法提供了一堆真实输入和真实结果的数据。在我们的示例中，我们可能有数百栋房屋及其平方英尺。该数据称为训练数据。该算法将寻找适合训练数据的曲线或直线。当它发生时，它可以使用该曲线或线来预测不同房屋的价格适合的位置。

无监督学习

通过监督学习，您拥有一个包含真实输入和真实输出的数据“训练集”。这使我们能够推断或猜测新输入的输出是什么。对于无监督学习，我们只有输入数据。此数据在输入之前尚未标记或分类。无监督学习的目标是将相似的项目组合在一起。

例如，我们将使用基于 2019-2020 堪萨斯城酋长队进攻先发球员的数据集。我们将绘制他们的身高和体重，并尝试在不了解其他任何信息的情况下对他们进行分类。数据集是：

高度（英寸）	重量（磅）
70	185
79	315
78	309
75	300
77	321
77	320
75	260
73	211
75	230
71	224
70	242

如果我们将这些信息绘制在图表上，它看起来像这样：

适当调整的无监督学习算法将能够轻松地将四名球员归为一组（红色圆圈），将另外五名球员归为另一组（绿色圆圈），从而使两名球员可能不那么容易归类。

事实证明，红色圆圈是跑卫和外接手，他们往往是更小、更快的球员，而绿色圆圈则是进攻线卫，他们往往是更大、更强壮的球员。两名未归类的球员是四分卫（随着时间的推移，四分卫在 NFL 中变得越来越大）和近端锋，后者是接球手和边锋的混合体。无监督学习系统将使用各种统计模型来尝试对数据集中所有玩家进行逻辑分组。

强化学习

强化学习是一个系统，它根据所提供的选择向系统提供正反馈和负反馈。一个很好的例子可能是个人推荐系统。

如果您曾经看过 Netflix，就会知道它会根据您的观看历史为您提供合适的推荐。 Netflix 使用强化学习系统来确定您可能喜欢或不喜欢什么。该数据集的输入是您之前看过的节目，以及其他看过类似节目的人也喜欢的节目。

该系统然后建议表明它认为与您的口味相似。回应（或强化）是你是否真的选择并观看了推荐的节目。如果您喜欢某个特定节目，并且其他 100 人喜欢该节目，也喜欢类似节目，那么系统可能会根据所有这些选择推荐与您的口味相关的另一个节目。

随着时间的推移，系统会根据您是否选择接受建议来了解更多关于您和您的偏好的信息。然后，它会改进其算法以提高知识水平，然后根据这些先前的选择提出未来的建议。

一个实际例子

垃圾邮件过滤器

您可能每天都会收到大量垃圾邮件。过去，这是一个巨大的问题，但近年来，电子邮件提供商已开始使用机器学习来解决这个现实世界的问题。

使用的一个系统将一系列电子邮件作为训练数据。一半是垃圾邮件，一半不是垃圾邮件。

然后系统会跟踪两个数据集中的每个单词（甚至每个短语或单词系列）。然后，垃圾邮件过滤器可以预测电子邮件中包含的特定术语、短语或一系列单词是垃圾邮件或非垃圾邮件的可能性。使用此数据，您可以根据新邮件的字词确定该电子邮件是否为垃圾邮件的可能性。

鉴于此数据集：

单词	垃圾邮件
受益人	97
现金	82
是	50
姨	2
家	20

如果一条包含“受益人”、“现金”和“是”字样的邮件，我们可以确定该邮件有大约 77% 的可能性是垃圾邮件。但是，如果消息说“你的阿姨将在下午 5 点回家”，则该消息是垃圾邮件的可能性约为 11%。现代垃圾邮件过滤器拥有更多的数据，因此在确定邮件是否为垃圾邮件方面变得更加准确。

结论

机器学习是一个已经存在很长时间的概念。它的应用程序最近在我们的日常生活中变得越来越有用。随着这项技术的改进，这些系统将能够以更少的人为干预完成更复杂的任务。

立即咨询专家！

您是否正在想办法尝试并利用最新的机器学习技术来解决更大的业务问题或解决您可能遇到的问题？如果是这样，我们的解决方案团队可能会提供一种方法，使您能够利用这一热门新技术在当今竞争激烈的市场中获得所需的优势。

给我们打电话 800.580.4985，或打开一个聊天或立即与我们联系，与我们经验丰富的托管专家之一交谈！