数据科学 - 快速指南


数据科学 - 入门

数据科学是从数据中提取和分析有用信息以解决难以通过分析解决的问题的过程。例如,当您访问电子商务网站并在购买前查看一些类别和产品时,您正在创建数据,分析师可以使用这些数据来确定您的购买方式。

它涉及不同的学科,例如数学和统计建模、从源中提取数据以及应用数据可视化技术。它还涉及处理大数据技术来收集结构化和非结构化数据。

它可以帮助您找到隐藏在原始数据中的模式。“数据科学”一词的演变是因为数理统计、数据分析和“大数据”随着时间的推移而发生了变化。

数据科学是一个跨学科领域,可让您从有组织和无组织的数据中学习。通过数据科学,您可以将业务问题转化为研究项目,然后应用于现实世界的解决方案。

数据科学史

John Tukey 在 1962 年使用“数据分析”一词来定义一个类似于当前现代数据科学的领域。1985 年,CF Jeff Wu 在北京向中国科学院演讲时首次引入了“数据科学”一词作为统计学的替代词。随后,1992 年在蒙彼利埃第二大学举行的统计会议上,与会者认识到一个以多种来源和形式的数据为中心的新领域的诞生,它将统计和数据分析的已知思想和原理与计算机相结合。

Peter Naur 于 1974 年建议用“数据科学”作为计算机科学的替代名称。国际分类协会联合会于 1996 年首次召开会议,强调数据科学作为一个特殊主题。然而,这个概念仍然在变化。继 1985 年在北京的中国科学院演讲之后,CF Jeff Wu 于 1997 年再次主张将统计学更名为“数据科学”。他认为新名称可能会助长统计学的不准确刻板印象和认知,例如与会计相关联。或仅限于数据描述。Hayashi Chikio 于 1998 年提出数据科学作为一个新的、多学科的概念,由三个组成部分:数据设计、数据收集和数据分析。

在 20 世纪 90 年代,“知识发现”和“数据挖掘”是识别规模不断增长的数据集中模式的过程的流行短语。

2012 年,工程师 Thomas H. Davenport 和 DJ Patil 提出了“数据科学家:21 世纪最热门的工作”这一术语,并被《纽约时报》和《波士顿环球报》等主要都市出版物采用。十年后他们又重复了一遍,并补充说“这个职位的需求量比以往任何时候都多”

William S. Cleveland 经常与目前对数据科学作为一个独立领域的理解联系在一起。在 2001 年的一项研究中,他主张将统计学发展到技术领域;需要一个新名称,因为这将从根本上改变主题。在接下来的几年里,“数据科学”变得越来越流行。2002 年,科学技术数据委员会出版了《数据科学杂志》。哥伦比亚大学于2003年创办了《数据科学杂志》。美国统计协会统计学习和数据挖掘分会于2014年更名为统计学习和数据科学分会,反映出数据科学的日益普及。

2008 年,DJ Patil 和 Jeff Hammerbacher 被授予“数据科学家”的专业称号。尽管国家科学委员会在 2005 年的研究“长期数字数据收集:支持 21 世纪的研究和教学”中使用了该词,但它指的是管理数字数据收集中的任何重要作用。

关于数据科学的含义尚未达成一致,有些人认为它是一个流行词。大数据是营销中类似的概念。数据科学家负责将大量数据转化为有用信息,并开发软件和算法来帮助企业和组织确定最佳运营。

为什么是数据科学?

据 IDC 称,到 2025 年,全球数据将达到 175 ZB。数据科学帮助企业理解来自不同来源的大量数据,提取有用的见解,并做出更好的数据驱动选择。数据科学广泛应用于多个工业领域,例如营销、医疗保健、金融、银行和政策工作。

以下是使用数据分析技术的显着优势 -

  • 数据是现代的石油。借助适当的工具、技术和算法,我们可以利用数据创造独特的竞争优势。

  • 数据科学可以帮助使用复杂的机器学习技术检测欺诈。

  • 它可以帮助您避免严重的经济损失。

  • 推动智能机器的发展

  • 您可以使用情感分析来确定客户的品牌忠诚度。这可以帮助您做出更好、更快的选择。

  • 它使您能够向合适的消费者推荐合适的产品,以发展您的公司。

对数据科学的需求

我们拥有的数据以及我们生成的数据量

据《福布斯》报道,2010 年至 2020 年间,全球生成、复制、记录和消费的数据总量激增约 5,000%,从 1.2 万亿吉字节增至 59 万亿吉字节。

公司如何从数据科学中受益?

  • 一些企业正在经历数据转型(将其 IT 架构转换为支持数据科学的架构),周围有数据训练营等等。事实上,对此有一个简单的解释:数据科学提供了有价值的见解。

  • 公司正在被基于数据做出判断的公司所击败。例如,福特公司2006年亏损126亿美元。失败后,他们聘请了一位高级数据科学家来管理数据,并进行了为期三年的改造。最终实现汽车销量近230万辆,2009年全年实现盈利。

数据科学家的需求和平均工资

  • 据《今日印度》报道,由于公司和服务的快速数字化,印度成为世界第二大数据科学中心。分析师预计,到 2026 年,全国将拥有超过 1100 万个就业机会。事实上,自 2019 年以来,数据科学领域的招聘人数激增了 46%。

  • 十年前,美国银行是首批向消费者提供移动银行服务的金融机构之一。最近,美国银行推出了其第一位虚拟财务助理 Erica。它被认为是世界上最好的金融发明。

    Erica 现在担任全球超过 4500 万消费者的客户顾问。Erica 使用语音识别来接收客户反馈,这代表了数据科学的技术发展。

  • 数据科学和机器学习曲线很陡峭。尽管印度每年都有大量数据科学家涌入,但拥有所需技能和专业知识的人相对较少。因此,对具有专业数据技能的人才的需求量很大。

数据科学的影响

数据科学对现代文明的多个方面产生了重大影响。数据科学对组织的重要性不断增加。根据一项研究,到 2023 年,全球数据科学市场将达到 1150 亿美元。

医疗保健行业受益于数据科学的兴起。2008 年,谷歌员工意识到他们可以实时监测流感毒株。以前的技术只能提供实例的每周更新。谷歌能够利用数据科学构建第一个监测疾病传播的系统。

体育行业也同样从数据科学中获益。2019 年,一位数据科学家找到了衡量和计算射门次数如何增加足球队获胜几率的方法。实际上,数据科学可用于轻松计算多种运动的统计数据。

政府机构也每天使用数据科学。全球各国政府都使用数据库来监控有关社会保障、税收和其他居民数据的信息。政府对新兴技术的使用不断发展。

由于互联网已成为人类交流的主要媒介,电子商务也日益普及。借助数据科学,在线公司可以监控整个客户体验,包括营销工作、购买和消费者趋势。广告肯定是电子商务公司使用数据科学的最好例子之一。您是否曾经在网上查找过任何东西或访问过电子商务产品网站,结果却遭到社交网站和博客上该产品广告的轰炸?

广告像素是用户信息在线收集和分析不可或缺的一部分。公司利用在线消费者Behave来重新定位整个互联网上的潜在消费者。客户信息的这种使用超出了电子商务的范围。Tinder 和 Facebook 等应用程序使用算法来帮助用户准确找到他们正在寻找的内容。互联网是一个不断增长的数据宝库,这些数据的收集和分析也将不断扩大。

数据科学 - 什么是数据?

数据科学中的数据是什么?

数据是数据科学的基础。数据是计算机对指定字符、数量或符号进行运算的系统记录,可以存储和传输。它是用于特定目的(例如调查或分析)的数据的汇编。当结构化时,数据可以称为信息。数据来源(原始数据、二手数据)也是一个重要的考虑因素。

数据有多种形状和形式,但通常可以被认为是某些随机实验的结果 - 其结果无法提前确定的实验,但其工作原理仍需分析。随机实验的数据通常存储在表格或电子表格中。表示变量的统计约定通常称为特征或列,而单个项目(或单位)称为行。

数据类型

主要有两种类型的数据,它们是 -

定性数据

定性数据由无法计数、量化或简单地用数字表达的信息组成。它是从文本、音频和图片中收集的,并使用数据可视化工具进行分发,包括文字云、概念图、图形数据库、时间线和信息图表。

定性数据分析的目标是回答有关个人活动和动机的问题。收集和分析此类数据可能非常耗时。处理定性数据的研究人员或分析师被称为定性研究人员或分析师。

定性数据可以为任何部门、用户组或产品提供重要的统计数据。

定性数据的类型

定性数据主要有两种类型,它们是 -

标称数据

在统计学中,名义数据(也称为名义尺度)用于指定变量而不给出数值。它是最基本的测量秤类型。与有序数据相反,名义数据不能排序或量化。

例如,人名、头发颜色、国籍等。让我们假设一个名叫 Aby 的女孩,她的头发是棕色的,她来自美国。

名义数据可以是定性的和定量的。然而,不存在与定量标签(例如,识别号)相关的数值或链接。相反,一些定性数据类别可以用名义形式表示。这些可能由单词、字母和符号组成。个人姓名、性别和国籍是最常见的名义数据实例。

分析标称数据

使用分组方法,可以分析名义数据。可以将变量分类成组,并且可以确定每个类别的频率或百分比。数据还可以以图形方式显示,例如使用饼图。

分析标称数据

尽管名义数据不能使用数学运算符进行处理,但仍然可以使用统计技术对其进行研究。假设检验是评估和分析数据的一种方法。

对于名义数据,可以使用卡方检验等非参数检验来检验假设。卡方检验的目的是评估所提供值的预测频率和实际频率之间是否存在统计上显着的差异。

序数数据

序数数据是统计学中的一种数据类型,其中值按自然顺序排列。关于序数数据最重要的事情之一是您无法分辨数据值之间的差异。大多数时候,数据类别的宽度与基础属性的增量不匹配。

在某些情况下,可以通过对数据值进行分组来找到区间或比率数据的特征。例如,收入范围是序数数据,而实际收入是比率数据。

序数数据不能像间隔或比率数据那样使用数学运算符进行更改。因此,中位数是确定一组有序数据的中间位置的唯一方法。

这种数据类型广泛存在于金融和经济领域。考虑一项检查各国 GDP 水平的经济研究。如果报告根据国内生产总值对各国进行排名,则排名是顺序统计数据。

分析序数数据

使用可视化工具评估序数数据是最简单的方法。例如,数据可以显示为表格,其中每一行代表一个单独的类别。此外,它们可以使用不同的图表以图形方式表示。条形图是用于显示这些类型数据的最流行的图表样式。

分析序数数据

也可以使用复杂的统计分析方法(例如假设检验)来研究序数数据。请注意,t 检验和方差分析等参数过程不能用于这些数据集。仅非参数检验(例如 Mann-Whitney U 检验或 Wilcoxon 配对检验)可用于评估有关数据的原假设。

定性数据收集方法

以下是收集定性数据的一些方法和收集方法 -

  • 数据记录- 利用现有的数据作为数据源是进行定性研究的最佳技术。与访问图书馆类似,您可以查阅书籍和其他参考资料以获取可用于研究的数据。

  • 访谈- 个人访谈是获取定性研究演绎数据的最常见方法之一。面试可能是随意的,没有固定的计划。这通常就像一场对话。采访者或研究人员直接从受访者那里获取信息。

  • 焦点小组- 焦点小组由 6 至 10 人组成,彼此交谈。主持人的工作是密切关注对话并根据焦点问题进行引导。

  • 案例研究-案例研究是对个人或群体的深入分析,重点是发展特征与环境之间的关系。

  • 观察- 这是一种研究人员观察物体并记下记录笔记以找出本能反应和无需提示的反应的技术。

定量数据

定量数据由数值组成,具有数值特征,可以对这类数据进行加法等数学运算。定量数据由于其定量特征,在数学上是可验证和评估的。

其数学推导的简单性使得控制不同参数的测量成为可能。通常,通过对一部分人群进行调查、民意调查或问卷调查来收集数据进行统计分析。研究人员能够将收集到的发现应用于整个人群。

定量数据的类型

主要有两种类型的定量数据,它们是 -

离散数据

这些数据只能采用某些值,而不是范围。例如,有关人群的血型或性别的数据被视为离散数据。

离散定量数据的示例可能是您网站的访问者数量;您一天内可以有 150 次访问,但不可能有 150.6 次访问。通常,统计图、条形图和饼图用于表示离散数据。

离散数据的特点

由于离散数据易于汇总和计算,因此常用于基础统计分析。让我们来看看离散数据的一些其他基本特征 -

  • 离散数据由有限、可测量、可数且不能为负(5、10、15 等)的离散变量组成。

  • 简单的统计方法,如条形图、折线图和饼图,可以轻松显示和解释离散数据。

  • 数据也可以是分类的,这意味着它具有固定数量的数据值,例如人的性别。

  • 受时间和空间限制的数据以随机方式分布。离散分布使查看离散值变得更加容易。

连续数据

这些数据可能取一定范围内的值,包括可能的最大值和最小值。最大值和最小值之间的差称为数据范围。例如,您学校孩子的身高和体重。这被认为是连续数据。连续数据的表格表示称为频率分布。这些可以使用直方图直观地描述。

连续数据的特征

另一方面,连续数据可以是数字,也可以随时间和日期分布。此数据类型使用高级统计分析方法,因为可能的值有无限多个。连续数据的重要特征是 -

  • 连续数据随着时间的推移而变化,并且在不同的时间点,它可以具有不同的值。

  • 随机变量(可能是整数,也可能不是整数)构成连续数据。

  • 折线图、倾斜等数据分析工具用于测量连续数据。

  • 经常使用的一种连续数据分析是回归分析。

定量数据收集方法

以下是收集定量数据的一些方法和收集方法 -

  • 调查和问卷-这些类型的研究有助于从用户和客户那里获得详细的反馈,特别是关于人们对产品、服务或体验的感受。

  • 开源数据集- 有很多公共数据集可以在线找到并免费分析。研究人员有时会查看已经收集的数据,并尝试以适合自己研究项目的方式找出其含义。

  • 实验- 一种常见的方法是实验,通常有一个对照组和一个实验组。实验的设置使其可以控制并且可以根据需要改变条件。

  • 抽样- 当有很多数据点时,可能无法调查每个人或数据点。在这种情况下,定量研究是在抽样的帮助下完成的。抽样是选择能够代表整体的数据样本的过程。抽样的两种类型是随机抽样(也称为概率抽样)和非随机抽样。

数据收集的类型

数据收集根据来源可分为两种类型 -

  • 主要数据- 这些是调查人员出于特定目的首次获取的数据。主要数据是“纯粹的”,因为它们没有经过任何统计操作并且是真实的。原始数据的例子包括印度人口普查。

  • 辅助数据- 这些是最初由某个实体收集的数据。这表明此类数据已经由研究人员或调查人员收集,并且可以以已发表或未发表的形式获取。该数据是不纯的,因为之前可能已经对其进行了统计计算。例如,可在印度政府或财政部网站或其他档案、书籍、期刊等中访问的信息。

大数据

大数据被定义为数据量较大,需要克服逻辑挑战来处理它们。大数据是指更大、更复杂的数据集合,特别是来自新颖数据源的数据集合。有些数据集非常广泛,传统的数据处理软件无法处理它们。但是,这些大量的数据可以用来解决以前无法解决的业务挑战。

数据科学是研究如何分析大量数据并从中获取信息的学科。您可以将大数据和数据科学与原油和炼油厂进行比较。数据科学和大数据源于统计学和传统的数据管理方式,但现在它们被视为独立的领域。

人们经常使用三个V来描述大数据的特征 -

  • 体积- 有多少信息?

  • 多样性- 不同类型的数据有何不同?

  • 速度- 新信息的生成速度有多快?

我们如何在数据科学中使用数据?

每个数据都必须经过预处理。这是一系列重要的过程,将原始数据转换为更易于理解和更有价值的格式以供进一步处理。常见程序是 -

  • 收集和存储数据集

  • 数据清理

    • 处理缺失数据

    • 噪声数据

  • 数据整合

  • 数据转换

    • 概括

    • 正常化

    • 属性选择

    • 聚合

我们将在接下来的章节中详细讨论这些过程。

数据科学 - 生命周期

什么是数据科学生命周期?

数据科学生命周期是一种寻找数据问题解决方案的系统方法,它显示了开发、交付/部署和维护数据科学项目所采取的步骤。我们可以假设一个通用的数据科学生命周期,其中包含一些最重要的常见步骤,如下图所示,但有些步骤可能因项目而异,因为每个项目都不同,因此生命周期可能会有所不同,因为并非每个数据科学项目都是以同样的方式建造

标准数据科学生命周期方法包括使用机器学习算法和统计程序,从而产生更准确的预测模型。数据提取、准备、清理、建模、评估等是数据科学最重要的阶段。该技术在数据科学领域被称为“数据挖掘的跨行业标准程序”。

数据科学生命周期有几个阶段?

数据科学生命周期主要有六个阶段 -

数据科学生命周期

识别问题并了解业务

数据科学生命周期始于“为什么?” 就像任何其他业务生命周期一样。数据科学过程中最重要的部分之一是找出问题所在。这有助于找到一个明确的目标,围绕该目标可以规划所有其他步骤。简而言之,尽早了解业务目标很重要,因为它将决定分析的最终目标是什么。

此阶段应评估业务趋势,评估可比分析的案例研究,并研究行业领域。该小组将根据可用的员工、设备、时间和技术评估该项目的可行性。当发现并评估这些因素时,将制定初步假设来解决现有环境所产生的业务问题。这句话应该 -

  • 明确问题为何必须立即解决并要求答复。

  • 指定业务项目的潜在价值。

  • 识别与项目相关的危险,包括道德问题。

  • 创建并传达灵活、高度集成的项目计划。

数据采集

数据科学生命周期的下一步是数据收集,这意味着从适当且可靠的来源获取原始数据。收集的数据可以是有组织的,也可以是无组织的。数据可以从网站日志、社交媒体数据、在线数据存储库,甚至使用 API、网络抓取从在线源流式传输的数据或 Excel 或任何其他来源的数据中收集。

从事这项工作的人员应该了解可用的不同数据集之间的区别以及组织如何投资其数据。专业人士发现很难跟踪每条数据的来源以及它是否是最新的。在数据科学项目的整个生命周期中,跟踪这些信息非常重要,因为它可以帮助测试假设或运行任何其他新实验。

这些信息可以通过调查或更流行的自动数据收集方法来收集,例如互联网 cookie,它是未经分析的数据的主要来源。

我们还可以使用辅助数据,即开源数据集。例如,我们可以从许多可用网站收集数据

python 中提供了一些预定义的数据集。让我们从 python 导入 Iris 数据集并使用它来定义数据科学的阶段。

from sklearn.datasets import load_iris
import pandas as pd

# Load Data
iris = load_iris()

# Create a dataframe
df = pd.DataFrame(iris.data, columns = iris.feature_names)
df['target'] = iris.target
X = iris.data

数据处理

从可靠来源收集高质量数据后,下一步就是对其进行处理。数据处理的目的是确保获取的数据是否存在问题,以便能够在进入下一阶段之前解决问题。如果没有这一步,我们可能会产生错误或不准确的发现。

所获得的数据可能存在一些困难。例如,数据可能在多行或多列中存在多个缺失值。它可能包括多个异常值、不准确的数字、不同时区的时间戳等。数据可能存在日期范围问题。在某些国家/地区,日期格式为 DD/MM/YYYY,而在其他国家/地区,日期格式为 MM/DD/YYYY。在数据收集过程中可能会出现许多问题,例如,如果从许多温度计收集数据并且其中任何一个有缺陷,则可能需要丢弃或重新收集数据。

在此阶段,必须解决与数据有关的各种问题。其中一些问题有多种解决方案,例如,如果数据包含缺失值,我们可以用零或列的平均值替换它们。但是,如果该列缺少大量值,则最好完全删除该列,因为它的数据太少,无法在我们的数据科学生命周期方法中使用它来解决问题。

当时区全部混合时,我们无法利用这些列中的数据,并且可能必须删除它们,直到我们可以定义提供的时间戳中使用的时区。如果我们知道收集每个时间戳的时区,我们可以将所有时间戳数据转换为某个时区。通过这种方式,有多种策略可以解决所获取的数据中可能存在的问题。

我们将访问数据,然后使用 python 将其存储在数据框中。

from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

# Load Data
iris = load_iris()

# Create a dataframe
df = pd.DataFrame(iris.data, columns = iris.feature_names)
df['target'] = iris.target
X = iris.data

对于机器学习模型,所有数据都必须采用数字表示形式。这意味着如果数据集包含分类数据,则必须先将其转换为数值,然后才能执行模型。所以我们将实现标签编码。

标签编码

species = []
for i in range(len(df['target'])):
   if df['target'][i] == 0:
      species.append("setosa")
   elif df['target'][i] == 1:
      species.append('versicolor')
   else:
      species.append('virginica')
df['species'] = species
labels = np.asarray(df.species)
df.sample(10)
labels = np.asarray(df.species)
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit(labels)
labels = le.transform(labels)
df_selected1 = df.drop(['sepal length (cm)', 'sepal width (cm)', "species"], axis=1)

数据分析

数据分析 探索性数据分析(EDA)是一套用于分析数据的可视化技术。通过这种方法,我们可以得到具体的详细数据的统计汇总。此外,我们将能够处理重复的数字、异常值,并识别集合中的趋势或模式。

在此阶段,我们尝试更好地了解获取和处理的数据。我们应用统计和分析技术来得出有关数据的结论,并确定数据集中多个列之间的链接。使用图片、图表、图表、绘图等,我们可以使用可视化来更好地理解和描述数据。

专业人员使用平均值和中位数等数据统计技术来更好地理解数据。他们还使用直方图、频谱分析和总体分布来可视化数据并评估其分布模式。将根据问题对数据进行分析。

例子

下面的代码用于检查数据集中是否有空值 -

df.isnull().sum()

输出

sepal length (cm) 0 
sepal width (cm) 0 
petal length (cm) 0 
petal width (cm) 0 
target 0 
species 0 
dtype: int64

从上面的输出我们可以得出结论,数据集中不存在空值,因为列中所有空值的总和为 0。

我们将使用形状参数来检查数据集的形状(行、列) -

例子

df.shape

输出

(150, 5)

现在我们将使用 info() 检查列及其数据类型 -

例子

df.info() 

输出

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
 4   target             150 non-null    int64  
dtypes: float64(4), int64(1)
memory usage: 6.0 KB

只有一列包含类别数据,而其他列包含非空数值。

现在我们将对数据使用describe()。describe() 方法对数据集执行基本统计计算,例如极值、数据点数量、标准差等。任何缺失值或 NaN 值都会立即被忽略。describe()方法准确地描述了数据的分布。

例子

df.describe()

输出

数据分析输出

数据可视化

目标列- 我们的目标列将是“物种”列,因为我们最终只希望基于物种的结果。

Matplotlib 和seaborn 库将用于数据可视化。

以下是物种计数图 -

例子

import seaborn as sns
import matplotlib.pyplot as plt

sns.countplot(x='species', data=df, )
plt.show()

输出

数据可视化

数据科学中还有许多其他可视化图。要了解有关它们的更多信息,请参阅https://www.tutorialspoint.com/machine_learning_with_python

数据建模

数据建模是数据科学最重要的方面之一,有时被称为数据分析的核心。模型的预期输出应来自准备和分析的数据。在达到指定标准之前,将选择并构建执行数据模型所需的环境。

在此阶段,我们开发用于训练和测试生产相关任务模型的数据集。它还涉及选择正确的模式类型并确定问题是否涉及分类、回归或聚类。分析完模型类型后,我们必须选择合适的实现算法。必须谨慎执行,因为从提供的数据中提取相关见解至关重要。

这里机器学习就出现了。机器学习基本上分为分类、回归或聚类模型,每种模型都有一些应用于数据集以获得相关信息的算法。这些模型在此阶段使用。我们将在机器学习章节中详细讨论这些模型。

模型部署

我们已经到达数据科学生命周期的最后阶段。经过详细的审查过程后,该模型最终准备好以所需的格式和选择的渠道进行部署。请注意,机器学习模型除非部署在生产中,否则没有任何用处。一般来说,这些模型与产品和应用相关联并集成。

模型部署包含建立将模型部署到市场消费者或另一个系统所需的交付方法。机器学习模型也正在设备上实施并获得认可和吸引力。根据项目的复杂性,此阶段的范围可能从 Tableau 仪表板上的基本模型输出到具有数百万用户的复杂的基于云的部署。

谁都参与了数据科学生命周期?

从个人层面到组织层面,数据正在生成、收集并存储在大量服务器和数据仓库中。但是您将如何访问这个庞大的数据存储库呢?这就是数据科学家的用武之地,因为他或她是从非结构化文本和统计数据中提取见解和模式的专家。

下面,我们介绍了参与数据科学生命周期的数据科学团队的许多工作概况。

序列号 职位简介和角色
1 业务分析师

了解业务需求并找到合适的目标客户。

2 数据分析师

格式化和清理原始数据,解释和可视化它们以执行分析并提供相同的技术摘要

3 数据科学家

提高机器学习模型的质量。

4 数据工程师

他们负责从社交网络、网站、博客和其他内部和外部网络来源收集数据,以备进一步分析。

5 数据架构师

连接、集中、保护和跟上组织的数据源。

6 机器学习工程师

设计和实现机器学习相关的算法和应用程序。

数据科学 - 先决条件

您需要具备多种技术和非技术技能才能成为一名成功的数据科学家。有些技能是成为一名精通数据科学家所必需的,而有些技能只是为了让数据科学家的事情变得更容易。不同的工作角色决定了您需要具备的特定技能的熟练程度。

以下是成为数据科学家所需的一些技能。

技术能力

Python

数据科学家经常使用 Python,因为它是最流行的编程语言之一,易于学习,并且拥有广泛的可用于数据操作和数据分析的库。由于它是一种灵活的语言,因此可以在数据科学的所有阶段使用,例如数据挖掘或运行应用程序。Python 拥有庞大的开源库,其中包含强大的数据科学库,如 Numpy、Pandas、Matplotlib、PyTorch、Keras、Scikit Learn、Seaborn 等。这些库有助于完成不同的数据科学任务,例如读取大型数据集、绘制和可视化数据和相关性、训练机器学习模型并将其拟合到数据、评估模型的性能等。

SQL

SQL 是开始数据科学之前的另一个重要先决条件。与其他编程语言相比,SQL 相对简单,但它是成为数据科学家所必需的。该编程语言用于管理和查询关系数据库存储的数据。我们可以使用 SQL 检索、插入、更新和删除数据。为了从数据中提取洞察,能够创建复杂的 SQL 查询(包括联接、分组依据、具有等)至关重要。联接方法使您能够同时查询多个表。SQL 还可以执行分析操作和转换数据库结构。

R 是一种高级语言,用于创建复杂的统计模型。R 还允许您使用数组、矩阵和向量。R 以其图形库而闻名,它可以让用户绘制漂亮的图形并使其易于理解。

借助 R Shiny,程序员可以使用 R 制作 Web 应用程序,R 用于将可视化嵌入网页中,并为用户提供多种与其交互的方式。此外,数据提取是数据科学的关键部分。R 允许您将 R 代码连接到数据库管理系统。

R 还为您提供了许多用于更高级数据分析的选项,例如构建预测模型、机器学习算法等。R 还提供了许多用于处理图像的包。

统计数据

在数据科学中,存储和转换数据模式以进行预测的高级机器学习算法在很大程度上依赖于统计数据。数据科学家利用统计学来收集、评估、分析数据并得出结论,并应用相关的定量数学模型和变量。数据科学家担任程序员、研究人员和商业高管等角色,所有这些学科都有统计基础。统计在数据科学中的重要性与编程语言相当。

Hadoop

数据科学家对海量数据进行运算,但有时系统的内存无法对这些海量数据进行处理。那么如此海量的数据将如何进行数据处理呢?这里 Hadoop 就应运而生了。它用于快速划分数据并将其传输到众多服务器以进行数据处理和过滤等其他操作。虽然 Hadoop 基于分布式计算的概念,但一些公司要求数据科学家对分布式系统原理有基本的了解,例如 Pig、Hive、MapReduce 等。一些公司已经开始使用 Hadoop 即服务 (HaaS) ),云中 Hadoop 的另一个名称,这样数据科学家就不需要了解 Hadoop 的内部工作原理。

火花

Spark 是一个类似于 Hadoop 的大数据计算框架,在数据科学领域已经获得了一定的知名度。Hadoop从磁盘读取数据并将数据写入磁盘,而Spark则在系统内存中计算计算结果,比Hadoop相对简单、快速。Apache Spark 的功能是促进复杂算法的速度,它是专为数据科学而设计的。如果数据集很大,那么它会分散数据处理,从而节省大量时间。使用 apache Spark 的主要原因是它的速度以及它提供的运行数据科学任务和流程的平台。Spark可以在单台机器或机器集群上运行,这使得使用起来很方便。

机器学习

机器学习是数据科学的重要组成部分。机器学习算法是分析大量数据的有效方法。它可以帮助实现各种数据科学相关操作的自动化。然而,在这个行业开始职业生涯并不需要深入了解机器学习原理。大多数数据科学家缺乏机器学习技能。只有一小部分数据科学家在推荐引擎、对抗性学习、强化学习、自然语言处理、异常值检测、时间序列分析、计算机视觉、生存分析等高级主题方面拥有广泛的知识和专业知识。因此,这些能力将有助于您在数据科学行业中脱颖而出。

非技术技能

对业务领域的理解

人们对特定业务领域或领域的了解越多,数据科学家就越容易对该特定领域的数据进行分析。

对数据的理解

数据科学都是关于数据的,因此了解数据是什么、数据如何存储、表、行和列的知识非常重要。

批判性和逻辑思维

批判性思维是一种清晰、逻辑性思考的能力,同时弄清楚和理解想法如何组合在一起。在数据科学中,您需要能够批判性思考以获得有用的见解并改善业务运营。批判性思维可能是数据科学中最重要的技能之一。这使他们更容易深入挖掘信息并找到最重要的事情。

产品理解

设计模型并不是数据科学家的全部工作。数据科学家必须提出可用于提高产品质量的见解。通过系统化的方法,专业人士如果了解整个产品,就可以快速加速。它们可以帮助模型启动(引导)并改进特征工程。这项技能还可以通过揭示他们以前可能没有想到的产品的想法和见解来帮助他们提高讲故事的能力。

适应性

在现代人才获取过程中,数据科学家最抢手的软技能之一就是适应能力。由于新技术的诞生和使用速度越来越快,专业人员必须快速学习如何使用它们。作为数据科学家,您必须跟上不断变化的业务趋势并能够适应。

数据科学 - 应用

数据科学涉及不同的学科,例如数学和统计建模、从源中提取数据以及应用数据可视化技术。它还涉及处理大数据技术来收集结构化和非结构化数据。下面,我们将看到数据科学的一些应用 -

博彩业

通过在社交媒体上建立影响力,体育组织可以解决许多问题。Zynga 是一家游戏公司,生产了 Zynga Poker、Farmville、Chess with Friends、Speed Guess Something 和 Words with Friends 等社交媒体游戏。这产生了许多用户连接和大量数据。

为了使用从所有社交网络的玩家那里获取的数据,游戏业务中需要数据科学。数据分析为玩家提供了一种引人入胜的创新游戏,让他们在竞争中保持领先!数据科学最有趣的应用之一是游戏创建的功能和过程。

卫生保健

数据科学在医疗保健领域发挥着重要作用。数据科学家的职责是将所有数据科学方法集成到医疗保健软件中。数据科学家帮助从数据中收集有用的见解,以创建预测模型。数据科学家在医疗保健领域的总体职责如下 -

  • 收集患者信息

  • 分析医院需求

  • 对数据进行组织和分类以供使用

  • 通过多种方法实施数据分析

  • 使用算法从数据中提取见解。

  • 与开发人员一起开发预测模型。

以下是数据科学的一些应用 -

医学图像分析

数据科学通过对扫描图像进行图像分析来帮助确定人体的异常情况,从而帮助医生制定适当的治疗计划。这些图片检查包括 X 射线、超声检查、MRI(磁共振成像)和 CT 扫描等。医生可以通过研究这些测试照片来获取重要信息,从而为患者提供更好的护理。

预测分析

患者的病情是通过使用数据科学开发的预测分析模型来预测的。此外,它还有助于制定适合患者的治疗策略。预测分析是数据科学的一个非常重要的工具,在医疗保健业务中发挥着重要作用。

图像识别

图像识别是一种图像处理技术,可识别图像中的所有内容,包括人物、图案、徽标、物品、位置、颜色和形式。

数据科学技术已经开始识别人脸并将其与数据库中的所有图像进行匹配。此外,带有摄像头的手机正在生成无数的数字图像和视频。企业正在利用大量的数字数据为客户提供优质、更便捷的服务。一般来说,人工智能的面部识别系统会分析所有面部特征,并将其与数据库进行比较以找到匹配项。

例如,iPhone 中面部锁定功能中的面部检测。

推荐系统

随着网上购物变得越来越普遍,电子商务平台能够捕捉用户的购物偏好以及市场上各种产品的表现。这导致了推荐系统的创建,该系统创建预测购物者需求的模型并显示购物者最有可能购买的产品。亚马逊和 Netflix 等公司使用推荐系统,以便帮助用户找到他们正在寻找的正确电影或产品。

航线规划

航空业的数据科学提供了许多机会。高空飞行的飞机提供了大量有关发动机系统、燃油效率、天气、乘客信息等的数据。当业界使用更多配备传感器和其他数据收集技术的现代飞机时,将会产生更多数据。如果使用得当,这些数据可能会为该行业提供新的可能性。

它还有助于决定是直接降落在目的地还是在中间停留,就像航班可以有直达航线一样。

金融

数据科学在银行业的重要性和相关性与数据科学在企业决策其他领域的重要性和相关性相当。金融数据科学专业人士为公司内的相关团队(特别是投资和财务团队)提供支持和帮助,协助他们开发工具和仪表板以增强投资流程。

改善医疗保健服务

医疗保健行业处理多种数据,可分为技术数据、财务数据、患者信息、药品信息和法律规则。所有这些数据都需要以协调的方式进行分析,以产生见解,从而为医疗保健提供者和被护理者节省成本,同时保持法律合规性。

计算机视觉

计算机识别图像的进步涉及处理来自同一类别的多个对象的大量图像数据。例如,人脸识别。对这些数据集进行建模,并创建算法以将模型应用于较新的图像(测试数据集)以获得满意的结果。处理这些巨大的数据集和创建模型需要数据科学中使用的各种工具。

高效的能源管理

随着能源消耗需求的增加,能源生产公司需要更有效地管理能源生产和分配的各个阶段。这涉及优化生产方法、储存和分配机制以及研究客户的消费模式。将所有这些来源的数据联系起来并获得洞察力似乎是一项艰巨的任务。通过使用数据科学工具,这可以变得更容易。

互联网搜索

一些搜索引擎使用数据科学来理解用户Behave和搜索模式。这些搜索引擎使用不同的数据科学方法为每个用户提供最相关的搜索结果。随着时间的推移,谷歌、雅虎、必应等搜索引擎越来越有能力在几秒钟内回复搜索。

语音识别

谷歌的语音助手、苹果的 Siri 和微软的 Cortana 都利用大型数据集,并由数据科学和自然语言处理 (NLP) 算法提供支持。随着数据科学的应用,随着更多数据的分析,语音识别软件可以改善并加深对人性的理解。

教育

尽管全球经历了新冠肺炎 (COVID-19) 疫情,但大多数学生始终携带着电脑。印度教育系统已使用在线课程、电子提交作业和考试等。对于我们大多数人来说,“在线”做所有事情仍然具有挑战性。技术和当代已经发生了质变。因此,当数据科学进入我们的教育系统时,教育中的数据科学比以往任何时候都更加重要。

现在,教师和学生的日常互动正在通过各种平台进行记录,并评估课堂参与度和其他因素。因此,在线课程数量的增加增加了教育数据深度的价值。

数据科学-机器学习

机器学习使机器能够自动从数据中学习,从经验中提高性能,并在无需显式编程的情况下预测事物。机器学习主要涉及算法的开发,使计算机能够自行从数据和过去的经验中学习。机器学习一词由 Arthur Samuel 于 1959 年首次提出。

数据科学是一门从数据中获得有用见解的科学,以获得最重要和最相关的信息源。并在给定可靠的数据流的情况下,使用机器学习生成预测。

数据科学和机器学习是计算机科学的子领域,专注于分析和利用大量数据来改进产品、服务、基础设施系统等的开发和引入市场的流程。

两者之间的关系类似于正方形是长方形,但长方形不是正方形。数据科学是一个包罗万象的矩形,而机器学习是一个有其自身实体的正方形。它们都是数据科学家在工作中普遍采用的,并且越来越多地被几乎所有企业所接受。

什么是机器学习?

机器学习 (ML) 是一种算法,可以让软件更准确地预测未来会发生什么,而无需专门进行编程。机器学习背后的基本思想是创建可以将数据作为输入并使用统计分析来预测输出的算法,同时在新数据可用时更新输出。

机器学习是人工智能的一部分,它使用算法来查找数据中的模式,然后预测这些模式未来将如何变化。这使得工程师可以使用统计分析来寻找数据中的模式。

Facebook、Twitter、Instagram、YouTube 和 TikTok 收集有关其用户的信息,根据您过去的Behave,它可以猜测您的兴趣和要求,并推荐适合您需求的产品、服务或文章。

机器学习是数据科学中使用的一组工具和概念,但它们也出现在其他领域。数据科学家经常在工作中使用机器学习来帮助他们更快地获取更多信息或找出趋势。

机器学习的类型

机器学习可以分为三种类型的算法 -

  • 监督学习

  • 无监督学习

  • 强化学习

监督学习

监督学习是机器学习和人工智能的一种。它也被称为“监督机器学习”。它的定义是,它使用标记数据集来训练算法如何正确分类数据或预测结果。当数据输入模型时,其权重会发生变化,直到模型正确拟合为止。这是交叉验证过程的一部分。监督学习可以帮助组织找到针对各种现实问题的大规模解决方案,例如将垃圾邮件分类到收件箱中的单独文件夹中,就像在 Gmail 中我们有一个垃圾邮件文件夹一样。

监督学习算法

一些监督学习算法是 -

  • 朴素贝叶斯- 朴素贝叶斯是一种基于贝叶斯定理的类条件独立原则的分类算法。这意味着一个特征的存在不会改变另一特征的可能性,并且每个预测变量对结果/结果具有相同的影响。

  • 线性回归- 线性回归用于查找因变量与一个或多个自变量的关系,并预测未来会发生什么。简单线性回归是指只有一个自变量和一个因变量的情况。

  • 逻辑回归- 当因变量连续时,使用线性回归。当因变量是分类变量时,例如“真”或“假”或“是”或“否”,则使用逻辑回归。线性回归和逻辑回归都试图找出数据输入之间的关系。然而,逻辑回归主要用于解决二元分类问题,例如确定特定邮件是否是垃圾邮件。

  • 支持向量机(SVM) - 支持向量机是 Vladimir Vapnik 开发的一种流行的监督学习模型。它可用于对数据进行分类和预测。因此,通常通过制作两组数据点之间距离最大的超平面来解决分类问题。这条线称为“决策边界”,因为它划分了平面两侧的数据点组(例如,橙子和苹果)。

  • K 最近邻- KNN 算法也称为“k 最近邻”算法,根据数据点与其他数据点的接近程度和相关程度对数据点进行分组。该算法的工作原理是可以找到彼此接近的相似数据点。因此,它尝试使用欧几里德距离计算出数据点之间的距离,然后根据最常见或平均类别分配一个类别。然而,随着测试数据集大小的增加,处理时间也会增加,这使得它对于分类任务的用处不大。

  • 随机森林- 随机森林是另一种有监督的机器学习算法,它很灵活,可用于分类和回归。“森林”是一组相互不相关的决策树。然后将这些树组合起来以减少变化并做出更准确的数据预测。

无监督学习

无监督学习,也称为无监督机器学习,使用机器学习算法来查看未标记的数据集并将它们分组在一起。这些程序发现隐藏的模式或数据组。它能够发现信息中的相似性和差异性,使其非常适合探索性数据分析、交叉销售策略、客户细分和图像识别。

常见的无监督学习方法

无监督学习模型用于三个主要任务:聚类、建立连接和减少维数。下面,我们将描述学习方法和常用算法 -

聚类- 聚类是一种数据挖掘方法,根据相似性或差异来组织未标记的数据。聚类技术用于根据数据中的结构或模式将未分类、未处理的数据项组织成组。聚类算法有多种类型,包括排他性、重叠性、层次性和概率性。

K 均值聚类是聚类方法的一个流行示例,其中根据数据点与每个组质心的距离将数据点分配到 K 个组。最接近某个质心的数据点将被分为同一类别。K 值越高,表示分组越小,粒度越大;K 值越低,表示分组越大,粒度越小。K-means 聚类的常见应用包括市场细分、文档聚类、图片分割和图像压缩。

降维- 虽然更多的数据通常会产生更准确的结果,但它也可能会影响机器学习算法的有效性(例如过度拟合)并使数据集可视化变得困难。降维是当数据集具有过多特征或维度时使用的策略。它将数据输入的数量减少到可管理的水平,同时最大程度地保留数据集的完整性。降维通常用于数据预处理阶段,有多种方法,其中之一是 -

主成分分析(PCA) - 这是一种降维方法,用于通过特征提取消除冗余并压缩数据集。这种方法采用线性变换来生成新的数据表示,从而产生“主要成分”的集合。第一个主成分是最大化方差的数据集方向。尽管第二个主成分类似地找到数据中的最大方差,但它与第一​​个主成分完全不相关,导致方向与第一个主成分正交。根据维数重复此过程,下一个主要分量是与变化最大的先前分量正交的方向。

强化学习

强化学习(RL)是一种机器学习,它允许