最广泛采用的机器学习方法有两种:监督学习和无监督学习但也有其他机器学习方法以下是最流行类型。
监督学习算法使用标有标记的例子进行训练,例如已知期望输出的输入。例如,一个设备的数据点可以标记为“F”(失败)或“R”(运行)。该学习算法接收一组输入以及相应的正确输出,该算法通过比较其实际输出和正确输出来学习以查找错误。然后对模型进行相应的修改。通过分类、回归、预测和梯度提升等方法,监督学习利用模式来预测附加未标记数据的标签值。在历史数据预测未来可能发生的事件的应用中,通常使用监督学习。例如,它可以预测信用卡交易何时可能具有欺诈性,或者哪个保险客户可能提出索赔。
无监督学习用于处理没有历史标签的数据。这个系统没有被告知“正确的答案”。算法必须找出所显示的内容。目标是探索数据并找到内部的一些结构。无监督学习在事务性数据上运行良好。例如,它可以识别具有相似属性的部分客户,这些客户在营销活动中可以得到类似的待遇。或者,它可以找到将客户细分的主要属性。常用的技术包括自组织映射、最近邻映射、k均值聚类和奇异值分解.这些算法还用于分割文本主题、推荐项和识别数据异常值。
数据挖掘
数据挖掘可以被认为是从数据中提取洞察力的许多不同方法的超集。它可能涉及到传统的统计方法和机器学习。数据挖掘应用许多不同领域的方法从数据中识别以前未知的模式。这可以包括统计算法、机器学习、文本分析、时间序列分析和其他分析领域。数据挖掘还包括数据存储和数据操作的研究和实践。
机器学习
机器学习的主要区别在于,就像统计模型一样,目标是了解数据的结构因此,对于统计模型,有一种理论在数学上得到了证明,但这需要数据也满足某些强有力的假设。机器学习是基于使用计算机探测结构数据的能力发展起来的,即使我们还没有关于这种结构的理论。机器学习模型的检验是对新数据的验证误差,而不是证明无效假设的理论检验。因为机器学习通常使用迭代方法从数据中学习,所以学习可以很容易地自动化。传递将在数据中运行,直到找到健壮的模式为止。