数据科学-机器学习


机器学习使机器能够自动从数据中学习,从经验中提高性能,并在无需显式编程的情况下预测事物。机器学习主要涉及算法的开发,使计算机能够自行从数据和过去的经验中学习。机器学习一词由 Arthur Samuel 于 1959 年首次提出。

数据科学是一门从数据中获得有用见解的科学,以获得最重要和最相关的信息源。并在给定可靠的数据流的情况下,使用机器学习生成预测。

数据科学和机器学习是计算机科学的子领域,专注于分析和利用大量数据来改进产品、服务、基础设施系统等的开发和引入市场的流程。

两者之间的关系类似于正方形是长方形,但长方形不是正方形。数据科学是一个包罗万象的矩形,而机器学习是一个有其自身实体的正方形。它们都是数据科学家在工作中普遍采用的,并且越来越多地被几乎所有企业所接受。

什么是机器学习?

机器学习 (ML) 是一种算法,可以让软件更准确地预测未来会发生什么,而无需专门进行编程。机器学习背后的基本思想是创建可以将数据作为输入并使用统计分析来预测输出的算法,同时在新数据可用时更新输出。

机器学习是人工智能的一部分,它使用算法来查找数据中的模式,然后预测这些模式未来将如何变化。这使得工程师可以使用统计分析来寻找数据中的模式。

Facebook、Twitter、Instagram、YouTube 和 TikTok 收集有关其用户的信息,根据您过去的Behave,它可以猜测您的兴趣和要求,并推荐适合您需求的产品、服务或文章。

机器学习是数据科学中使用的一组工具和概念,但它们也出现在其他领域。数据科学家经常在工作中使用机器学习来帮助他们更快地获取更多信息或找出趋势。

机器学习的类型

机器学习可以分为三种类型的算法 -

  • 监督学习

  • 无监督学习

  • 强化学习

监督学习

监督学习是机器学习和人工智能的一种。它也被称为“监督机器学习”。它的定义是,它使用标记数据集来训练算法如何正确分类数据或预测结果。当数据输入模型时,其权重会发生变化,直到模型正确拟合为止。这是交叉验证过程的一部分。监督学习可以帮助组织找到针对各种现实问题的大规模解决方案,例如将垃圾邮件分类到收件箱中的单独文件夹中,就像在 Gmail 中我们有一个垃圾邮件文件夹一样。

监督学习算法

一些监督学习算法是 -

  • 朴素贝叶斯- 朴素贝叶斯是一种基于贝叶斯定理的类条件独立原则的分类算法。这意味着一个特征的存在不会改变另一特征的可能性,并且每个预测变量对结果/结果具有相同的影响。

  • 线性回归- 线性回归用于查找因变量与一个或多个自变量的关系,并预测未来会发生什么。简单线性回归是指只有一个自变量和一个因变量的情况。

  • 逻辑回归- 当因变量连续时,使用线性回归。当因变量是分类变量时,例如“真”或“假”或“是”或“否”,则使用逻辑回归。线性回归和逻辑回归都试图找出数据输入之间的关系。然而,逻辑回归主要用于解决二元分类问题,例如确定特定邮件是否是垃圾邮件。

  • 支持向量机(SVM) - 支持向量机是 Vladimir Vapnik 开发的一种流行的监督学习模型。它可用于对数据进行分类和预测。因此,通常通过制作两组数据点之间距离最大的超平面来解决分类问题。这条线称为“决策边界”,因为它划分了平面两侧的数据点组(例如,橙子和苹果)。

  • K 最近邻- KNN 算法也称为“k 最近邻”算法,根据数据点与其他数据点的接近程度和相关程度对数据点进行分组。该算法的工作原理是可以找到彼此接近的相似数据点。因此,它尝试使用欧几里德距离计算出数据点之间的距离,然后根据最常见或平均类别分配一个类别。然而,随着测试数据集大小的增加,处理时间也会增加,这使得它对于分类任务的用处不大。

  • 随机森林- 随机森林是另一种有监督的机器学习算法,它很灵活,可用于分类和回归。“森林”是一组相互不相关的决策树。然后将这些树组合起来以减少变化并做出更准确的数据预测。

无监督学习

无监督学习,也称为无监督机器学习,使用机器学习算法来查看未标记的数据集并将它们分组在一起。这些程序发现隐藏的模式或数据组。它能够发现信息中的相似性和差异性,使其非常适合探索性数据分析、交叉销售策略、客户细分和图像识别。

常见的无监督学习方法

无监督学习模型用于三个主要任务:聚类、建立连接和减少维数。下面,我们将描述学习方法和常用算法 -

聚类- 聚类是一种数据挖掘方法,根据相似性或差异来组织未标记的数据。聚类技术用于根据数据中的结构或模式将未分类、未处理的数据项组织成组。聚类算法有多种类型,包括排他性、重叠性、层次性和概率性。

K 均值聚类是聚类方法的一个流行示例,其中根据数据点与每个组质心的距离将数据点分配到 K 个组。最接近某个质心的数据点将被分为同一类别。K 值越高,表示分组越小,粒度越大;K 值越低,表示分组越大,粒度越小。K-means 聚类的常见应用包括市场细分、文档聚类、图片分割和图像压缩。

降维- 虽然更多的数据通常会产生更准确的结果,但它也可能会影响机器学习算法的有效性(例如过度拟合)并使数据集可视化变得困难。降维是当数据集具有过多特征或维度时使用的策略。它将数据输入的数量减少到可管理的水平,同时最大程度地保留数据集的完整性。降维通常用于数据预处理阶段,有多种方法,其中之一是 -

主成分分析(PCA) - 这是一种降维方法,用于通过特征提取消除冗余并压缩数据集。这种方法采用线性变换来生成新的数据表示,从而产生“主要成分”的集合。第一个主成分是最大化方差的数据集方向。尽管第二个主成分类似地找到数据中的最大方差,但它与第一​​个主成分完全不相关,导致方向与第一个主成分正交。根据维数重复此过程,下一个主要分量是与变化最大的先前分量正交的方向。

强化学习

强化学习 (RL) 是一种机器学习,允许代理利用自身Behave和经验的反馈,通过反复试验在交互式环境中进行学习。

强化学习的关键术语

描述强化学习问题基本组成部分的一些重要概念是 -

  • 环境- 代理发挥作用的物理环境

  • 条件- 代理人的当前地位

  • 奖励- 基于环境的反馈

  • 策略- 代理状态和操作之间的映射

  • 价值- 代理人在给定条件下采取行动将获得的未来补偿。

数据科学与机器学习

数据科学是对数据以及如何从中获取有意义的见解的研究,而机器学习是对使用数据来提高性能或提供预测信息的模型的研究和开发。机器学习是人工智能的一个子领域。

近年来,机器学习和人工智能 (AI) 已在数据科学领域占据主导地位,在数据分析和商业智能中发挥着至关重要的作用。机器学习可以自动进行数据分析,并使用模型和算法收集和分析特定人群的大量数据来进行预测。数据科学和机器学习彼此相关,但并不完全相同。

数据科学是一个广阔的领域,涵盖了从数据中获取见解和信息的各个方面。它涉及收集、清理、分析和解释大量数据,以发现可指导业务选择的模式、趋势和见解。

机器学习是数据科学的一个子领域,专注于开发可以从数据中学习并根据所获得的知识做出预测或判断的算法。机器学习算法旨在通过获取新知识来自动提高其性能。

换句话说,数据科学将机器学习作为其众多方法之一。机器学习是数据分析和预测的强大工具,但它只是整个数据科学的一个子领域。

下面给出一个比较表,以便清楚地理解。

数据科学 机器学习

数据科学是一个广泛的领域,涉及使用各种技术(包括统计分析、机器学习和数据可视化)从大型复杂数据集中提取见解和知识。

机器学习是数据科学的一个子集,涉及定义和开发算法和模型,使机器能够从数据中学习并做出预测或决策,而无需显式编程。

数据科学专注于理解数据、识别模式和趋势以及提取见解以支持决策。

另一方面,机器学习专注于构建预测模型并根据学习到的模式做出决策。

数据科学包括广泛的技术,例如数据清理、数据集成、数据探索、统计分析、数据可视化和机器学习。

另一方面,机器学习主要侧重于使用回归、分类和聚类等算法构建预测模型。

数据科学通常需要大型且复杂的数据集,需要大量处理和清理才能获得见解。

另一方面,机器学习需要可用于训练算法和模型的标记数据。

数据科学需要统计、编程和数据可视化方面的技能,以及所研究领域的领域知识。

机器学习需要对算法、编程和数学有深入的了解,以及特定应用领域的知识。

数据科学技术可用于预测之外的多种用途,例如聚类、异常检测和数据可视化

机器学习算法主要侧重于根据数据进行预测或决策

数据科学通常依赖统计方法来分析数据,

机器学习依靠算法来做出预测或决策。