用于数据分析的机器学习


机器学习是计算机科学的一个子领域,涉及模式识别、计算机视觉、语音识别、文本分析等任务,并与统计学和数学优化有密切的联系。应用包括搜索引擎的开发、垃圾邮件过滤、光学字符识别 (OCR) 等。数据挖掘、模式识别和统计学习领域之间的界限并不明确,基本上都指的是类似的问题。

机器学习可以分为两种类型的任务 -

  • 监督学习
  • 无监督学习

监督学习

监督学习是指一类问题,其中输入数据定义为矩阵X并且我们有兴趣预测响应y。其中X = {x 1 , x 2 , …, x n }n 个预测变量,并有两个值y = {c 1 , c 2 }

一个示例应用程序是使用人口统计特征作为预测变量来预测网络用户点击广告的概率。这通常被用来预测点击率 (CTR)。然后y = {点击,不点击},预测变量可以是使用的 IP 地址、他进入网站的日期、用户的城市、国家以及其他可用的功能。

无监督学习

无监督学习解决的问题是在没有类可供学习的情况下找到彼此相似的群体。有多种方法可以完成学习从预测变量到查找在每个组中共享相似实例且彼此不同的组的映射的任务。

无监督学习的一个示例应用是客户细分。例如,在电信行业,一项常见任务是根据用户对电话的使用情况对用户进行细分。这将使营销部门能够针对每个群体提供不同的产品。