机器学习,通过自主学习大量数据中存在的规律,获得新经验和知识从而提高计算机智能,使得计算机拥有类似人类的决策能力。
一、机器学习分类
(1)监督学习:给学习算法提供标记的数据和所需的输出,对于每一个输入,学习者都被提供了一个回应的目标。监督学习被用于解决分类和回归的问题。常见的算法有:决策树、人工神经网络算法、支持向量机、朴素贝叶斯、随机森林等。
(2)无监督学习:给学习算法提供的数据是未标记的,并且要求算法识别输入数据中的模式,主要是建立一个模型,对输入的数据进行解释,并用于下次输入。主要用于解决聚类和降维问题,常见的算法有:聚类算法、降维算法。
(3)强化学习:该算法与动态环境相互作用,把环境的反馈作为输入,通过学习选择能达到其目标的最优动作。强化学习这一方法背后的数学原理与监督、非监督学习略有差异。监督、非监督学习更多地应用了统计学,而强化学习更多地结合了离散数学、随机过程这些数学方法。常见的算法有:马尔可夫决策过程等。
作为人工智能的核心,机器学习的主要功能是使得计算机模拟或实现人类的学习行为,通过获取新的信息,不断对模型进行训练以提高模型的泛化能力。由于机器学习具有强大的数据处理能力,该方法广泛应用于数据挖掘、语音识别、计算机视觉、故障诊断与寿命预测等领域。基于机器学习的剩余寿命预测方法是预测性维护方法的一个重要分支,能够较为准确地对剩余寿命进行预测,成为维护策略评估的重要指标。
二、建立用于预测性维护应用的机器学习模型包括以下几个步骤
历史数据选择;数据预处理;模型选择、模型训练和模型验证;模型维护。历史数据选择,即收集和存储设备运行过程中产生的数据集,以便为机器学习模型设计选择有价值的数据,其目的是获取与系统状况相关的信息。通过数据预处理步骤,对数据进行处理和分析收集的数据,可以使系统更好地解释数据。数据预处理步骤包括数据转换(标准化)、数据清理(缺失数据处理和异常值去除)和数据缩减(维度缩减和数量缩减),以保证数据能够被机器学习模型有效地处理。模型的开发步骤包括:选择模型、训练模型、验证模型。模型维护可以随着时间的推移保持模型性能,因为工业生产可能会随着时间的推移而发生变化,导致模型性能下降。机器学习算法在寿命预测中应用最多是基于神经网络、支持向量机、聚类算法和随机森林,并在这些算法的基础上灵活运用其他算法或模型进行优化改进,从而提高寿命预测的精度。
三、机器学习算法介绍
1、人工神经网络
人工神经网络是受生物神经元启发的智能计算技术,是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的,具有自动学习和总结的能力。其主要包含输入层、隐含层及输出层,常用于解决分类、回归等问题。
人工神经网络模型以原始测量数据或基于原始测量数据所提取的特征为输入,通过一定的训练算法不断调整网络的结构和参数,利用优化后的网络在线预测设备的剩余寿命,并根据预测结果判断设备的维护策略。Biswal等人采用人工神经网络提出一种用于模拟风力涡轮机的模型,该模型能够模拟风力涡轮机关键部件的故障工况,也可以用缺陷的部件替换健康的部件,从而收集健康和故障工况下的涡轮机的振动数据,再通过人工神经网络模型预测,对设备健康状态进行预测识并别决定维护策略,实验结果准确性为92.6%。Gebraeel 等人基于BP 神经网络建立单个轴承和批量轴承的寿命预测模型,利用寿命周期内的振动监测信息,以一定权重融合各轴承指数回归模型参数,同时进行参数在线更新,有效保证寿命预测的准确性。
Bezazi等人采用基于多层感知器的人工神经网络对复合材料结构监测数据进行建模,通过极大似然估计和贝叶斯推理对神经网络模型进行训练,结果表明该模型具有较好的泛化能力。Wang 等人提出一种极限学习机模型,避免隐含层神经元的数目选择问题,实现了非平稳序列的在线预测。Kolokas等人使用运行期间的过程传感器数据,实时检测某工业阳极生产设备的实时故障,并将人工神经网络与其他机器学习进行了比较。Sheng等人针对齿轮寿命预测问题,提出一种基于权值放大的长短时记忆神经网络,并加入一种将隐含层的输入权值和递归权值进行不同程度放大的注意机制,结果表明预测方法具有更高的精度。基于人工神经网络的预测性维护技术的主要优势包括:训练模型基于历史数据,不需要专家知识决策;人工神经网络的稳定性较强,数据的少量波动不会影响模型。然而,人工神经网络有一些缺点:训练模型有概率获得有悖于维护策略的结论;为获得最合适的人工神经网络模型,可能会花费很多时间;人工神经网络是一种“黑箱”算法,无法对神经网络模型输出的预测结果进行解释;人工神经网络需要大量的数据集才能正确学习。
2、支持向量机
支持向量机是执行分类和回归任务的另一种广泛使用的机器学习方法,具有高精度。它是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,具有稀疏性和稳健性。支持向量机可以通过核方法进行非线性分类,是常见的核学习方法之一。支持向量机根据用途可分为支持向量回归机SVR和支持向量分类机SVC。
Susto 等人提出基于支持向量机的多类分类器,可以识别由于累积效应和违规使用而在机器上发生的故障。Nieto等人提出一种基于混合粒子群优化算法和支持向量机算法的模型,用于预测航天器发动机的工况,解决了支持向量机训练过程中超参数的优化问题,提高了设备工况预测精度。Maior等人提出一种将经验模态分解与支持向量机相结合的方法,可以实现退化数据分析和剩余寿命预测,结果表明该方法能够改善电动机的剩余寿命预测性能。Mathew等人使用改进回归核的支持回归向量的支持向量机来预测剩余寿命,通过一组模拟时间序列对算法进行测试,其结果表明所提出的支持向量回归模型优于标准支持向量回归模型。
Song等人采用支持向量机对电池容量进行预测,利用卡尔曼滤波对输出信号进行优化,该方法减少了系统噪声和测量不确定性因素的影响,实现了对电池剩余寿命的长期预测。Lasisi 等人比较了支持向量机、随机森林和三层贝叶斯概率模型来检测铁路轨道的缺陷。戴邵武等人提出基于时域特征和支持向量机的滚动轴承退化趋势预测方法,准确地预测了滚动轴承全寿命故障周期。王瀛洲等人提出一种基于蚁狮优化和支持向量回归的方法,利用蚁狮优化算法优化核参数,有效提高锂离子电池剩余使用寿命预测的准确性和鲁棒性。Liu等人利用支持向量机建立了橡胶材料疲劳寿命预测模型,提出一种重力搜索算法来优化支持向量机的参数,提升了预测精度和预测效率。
支持向量机算法的优势在于:学习过程简单、训练速度快;在预测性维护中可以解决设备工况识别问题,简单分类问题处理较为精确;在参数优化方面可以结合先进的算法进行优化,提高分类准确率。
但支持向量机也存在一些问题:选择合适的核函数较为困难;在进行大规模数据训练时间时间较长;最终模型不容易理解和解释;将实际应用与仿真模型相适应比较困难;无法解决多分类问题;理论上只能提供次优解。
3、聚类算法
聚类是一种无监督的学习算法,可以对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,主要目的是找到数据集的聚类,以便彼此接近的样本与同一个聚类相关联,而彼此远离的样本与不同的聚类相关联[29]。传统的聚类算法可以分为五类:基于划分的聚类、基于网格的聚类、基于层次的聚类、基于密度的聚类、基于模型的聚类。近年来产生了多种新的聚类算法:基于粒度的聚类算法、基于熵的聚类算法、不确定聚类算法、谱聚类算法、核聚类算法等。
4、随机森林
随机森林法最初是由Leo提出的。随机森林在以决策树为基学习器构建bagging 集成的基础上,进一步在决策树的训练过程中引入了随机属性选择进行预测。它用随机的方式建立一个森林,森林由许多决策树组成,每一棵决策树之间没有关联,利用多棵树对样本进行训练并预测。当变量的数量大于样本的数量时,随机森林表现出良好的性能。决策树算法有ID3、C4.5、CRAT、SLIQ等。
随机森林的优势在于:
随机森林是一类判别模型,支持分类问题、回归问题和多分类问题;随机森林结合其他算法,得到更优的预测结果,可以将新的理论引入随机森林,结合不同的算法提升模型预测的性能;决策树越多,可以提供越多的观察结果作为预测的依据;在某些情况下,决策树可以减少波动,增强随机森林模型泛化能力。
随机森林方法也有缺点:
少量的决策树的分类能力有限,只有产生大量的决策树才有可能得到有效的分类效果,与其他机器学习相比需要更多的计算时间;不能很好地处理非平衡数据,随机选取的训练集加剧了数据的非平衡性;对连续性变量的处理需要进行离散化,分析计算节点分裂标准花费大量时间;通过剪枝的方法避免决策树的过拟合问题会提高算法的复杂性,性能提升有局限性。
四、应用领域
图像识别:用于面部识别、物体检测和图像分类等任务;
自然语言处理:包括语音识别、机器翻译、情感分析和文本分类等;
推荐系统:为用户推荐商品、新闻、视频等内容;
医疗诊断:分析医疗数据以辅助疾病的诊断和治疗;
金融风险评估:用于信用评分、欺诈检测和股票市场预测等;
自动驾驶:用于车辆的感知、决策和控制。
更多精彩: 全民检测中心 http://www.quanminjiance.com