首页 > 范文 > 优秀文章 > 基于Bi-LSTM和自注意力机制的旋转机械故障诊断方法研究

基于Bi-LSTM和自注意力机制的旋转机械故障诊断方法研究

来源：优秀文章发布时间：2023-01-23 点击：

高玉才，付忠广，王诗云，谢玉存

（华北电力大学电站能量传递转化与系统教育部重点实验室，北京 102206）

旋转机械的功能主要通过旋转动作来实现，广泛应用于各大工业领域中，在现代工业生产中发挥着重要作用。随着机械加工制造技术的进步和自动化程度的提高，旋转机械系统各设备之间的联系也越发紧密，一旦设备某一部件发生故障，会导致连锁反应，最终造成重大经济损失，甚至对工作人员的生命安全造成严重威胁。因此，利用智能化方法快速定位旋转机械故障类型成为故障诊断领域的主要研究方向［1］。

旋转机械的故障诊断方法主要包括传统的故障诊断方法和新兴的故障诊断方法。早期传统的旋转机械故障诊断技术需要借助专业知识手动提取故障特征，效率较低。随着旋转设备向着大型化、高速化、精密化的方向发展，基于信号处理的故障诊断方法难以满足故障诊断精度的需要。如今，大数据和人工智能技术方兴未艾，基于数据驱动的神经网络技术已经应用于故障诊断领域之中［2-4］。例如，针对风机运行过程中可能发生的故障，文献［5］首先对风机的振动信号进行预处理，然后利用经验模态分解（ensemble empirical mode decomposition，EEMD）技术获取故障信息，最后利用长短时记忆网络（LSTM）进行故障诊断。实验表明，LSTM网络能够准确监测风机的运行状态。

综上所述，针对采用传统方法进行旋转机械故障诊断时效率低、精度低的问题，本文提出一种新型智能化故障诊断方法。首先，利用Bi-LSTM 对时序数据超强的感知能力自动提取原始振动信号中的故障特征；
然后，在Bi-LSTM 网络模型输出结果的基础上施加自注意力，从而获得深层的特征表示；
最后，利用全连接神经网络和softmax 分类器预测旋转机械的运行状态，实现旋转机械故障的智能化诊断。

大部分前馈神经网络只能映射数据之间的静态关系，不擅于处理时间序列信号之间的动态关系，往往对时间序列信号所蕴含的信息产生不合理的预测。

循环神经网络是一种深层神经网络，与传统前馈神经网络最大的不同之处在于循环神经网络中加入了反馈连接，允许内部状态信息在网络自身中传递，从而建立数据之间的依赖关系。正是由于循环神经网络具有这种长程依赖性的建模能力，使得循环神经网络在自然语言处理、语音识别等领域取得巨大成功，在时间序列信号的处理问题中具有广阔的应用前景。

1.1 循环神经网络（RNN）

循环神经网络继承于Hopfield 网络［6］，通过建立网络内部前后节点之间的联系，可以实现神经元内部的反馈连接，因此特别适用于处理具有时间依赖性的信号。

循环神经网络的基本结构如图1 所示。在t时刻，主体结构A 以当前时刻的输入Xt和上一时刻的隐含状态信息ht-1为输入，通过非线性映射后得到输出Ot，主体结构A 的内部参数在不同时刻保持共享，并随网络模型的更新不断变化。因此，循环神经网络某一时刻的输出受到当前信息和历史状态信息的双重影响，能够充分挖掘时间序列信号中所蕴含的信息，做出与时序数据相关联的预测。

图1 循环神经网络结构Fig.1 Schematic diagram of cyclic neural network structure

1.2 长短时记忆网络LSTM

双向循环神经网络由Schuster 等［7］首次提出，其可以同时使用时序数据中某个输入的历史和未来的信息，从而增加循环神经网络中可以利用的信息，具有更加强大的特征提取能力。本文构建双向长短时记忆网络（Bi-LSTM）模型，并在此基础上引入自注意力机制捕捉数据的内部相关性，从而进一步提高模型的性能。本文所提模型架构由下而上分为4 部分：Bi-LSTM 层、自注意力层、全连接层和Softmax层。

2.1 Bi-LSTM层

Bi-LSTM 网络的结构如图2 所示。由图可知，Bi-LSTM 网络由2 个正、反方向的LSTM 网络拼接而成。假设X=[x1，x2，…，xn]为某段振动信号的输入，xt为t时刻转子的径向振动位移值，将X输入Bi-LSTM 网络模型分别得到t时刻前向LSTM 网络的输出和后向LSTM 网络的输出为Bi-LSTM 在t时刻的输出，所有时刻的输出构成状态集合H=[h1，h2，…，hn]。

图2 Bi-LSTM网络结构Fig.2 Schematic diagram of Bi-LSTM network structure

2.2 自注意力层

本文首先建立Bi-LSTM模型，然后在状态集合H上施加注意力，通过自注意力机制学习内部节点之间的权重矩阵［8］为所有内部节点输出信息的加权求和形式，代表整个序列状态表示信息。自注意力层循环神经网络层如图3所示。

图3 自注意力循环神经网络层Fig.3 Self-attention recurrent neural network layer

为自注意力层t时刻的输出，自注意力层的计算式为

式中：hk为Bi-LSTM 在k时刻的输出；
注意力权重矩阵

t时刻自注意力层的输出为Bi-LSTM 各时刻输出的加权求和，即

2.3 全连接层和Softmax输出层

全连接层的输入由H中的各个向量拼接而成，输出节点个数为5，分别对应旋转机械的5 种运行状态，选择Softmax 激活函数对全连接层的输出进行概率归一化［9］。振动信号输入模型后产生的输出应该与目标值具有相近的概率分布，可以用交叉熵损失衡量目标概率分布p(x)与网络模型输出概率分布q(x)之间的差异，网络模型的训练以降低交叉熵损失为目标。交叉熵损失函数为

实验设备为INV1612型柔性转子系统如图4所示。转子模型系统由直流电机、数显式调速器、等直径转轴、圆盘、轴承等配件组成，转子的转速可以通过改变电机的电压实现，模型可模拟旋转机械质量不平衡、碰摩、支承松动、油膜失稳故障，测量振动位移的传感器安装在转轴径向位置的固定支架上。

“56岁”的美加净和“59岁”的大白兔奶糖跨界合作，前一段时间在网上的讨论度是盛况空前。两者推出联名款——美加净牌大白兔奶糖味润唇膏，完美保留大白兔奶糖的经典味道。9月20号十点整在天猫旗舰店限量销售920套，不到半秒被抢空。据悉，这款润唇膏10月正式推出，“双十一”之前面市。

图4 INV1612型多功能柔性转子实验台上的转子模型Fig.4 Rotor model on the INV1612 multifunctional flexible rotor experiment platform

3.1 数据集

本文采集转子系统正常运行状态和以下4 种故障的振动信号：质量不平衡故障、碰摩故障、支撑松动故障和油膜失稳故障。

转子系统运行频率为50 Hz，实验台采样频率为1 000 Hz，共分为5种运行状态：正常状态、质量不平衡故障、碰摩故障、支承松动故障和油膜失稳故障。数据集包含每种运行状态下的数据样本各400个，每个数据样本包含100个数据点（5个信号周期）和一个独-热向量（one-hot）表示的标签编码。

3.2 参数选择

本文采用Tensorflow 设计了基于Bi-LSTM 和自注意力机制的旋转机械故障诊断模型［10］，优化算法采用自适应动量法，即Adam 算法，随着网络模型训练次数的增加，Adam 算法能够自适应地调整每个参数的学习率，从而减小模型陷入局部最优解的可能［11］。模型的超参数选择如下：设置初始学习率为0.01，每批训练样本数量batch_size=256，最大迭代次数为300，LSTM 输出层神经元数目为16，注意力权重矩阵wα∈R16×32。

3.3 诊断结果

本文将转子系统运行状态识别准确率作为模型的评价指标，其定义为转子系统运行状态被正确识别的样本数与样本总数之比。模型训练前，需要将模型参数进行随机初始化，为消除随机初始化带来的影响，本文采用5 折交叉验证法测试模型的诊断效果，最终评价结果为5次实验结果的平均值。

为探究自注意力机制对Bi-LSTM 模型的优化作用，将本文方法与未引入自注意力机制的Bi-LSTM 模型进行对比分析。参数设置和实验方法均与本文方法相同，区别在于Bi-LSTM 模型最后一个时间步的输出直接与最终输出层相连接。某次试验2 种模型训练过程中，训练集数据和测试集数据的识别准确率的变化情况如图5 所示。通过观察可知，与未引入自注意力机制的Bi-LSTM 模型相比，本文所提出的方法收敛速度更快、稳定性更好、故障识别准确率更高，能够比较准确地识别出旋转机械的各种运行状态。

图5 模型训练过程中识别准确率的变化情况Fig.5 Changes in recognition accuracy during model training

为进一步反映本文所提方法的优越性，利用Python 中的Sklearn 工具，建立K近邻模型和决策树模型，进行旋转机械的故障诊断。模型输入为原始振动信号的14 个时域特征参数指标，包括最大值、最小值、平均幅值、峰值、方差、均方根幅值、方根幅值、歪度、峭度、裕度因子、波形因子、峰值因子、歪度因子、峭度因子。通过遗传算法搜索最佳超参数，使得2 种模型在测试集上的故障识别准确率达到最高，其中K近邻方法中超参数K=2，决策树的最大深度max_depth=7。为防止过拟合，采用CART 算法对决策树进行剪枝处理［12］。各种方法在测试集上的故障诊断精度见表1，表中数据均为5次实验结果的平均值。

表1 不同模型在测试集上平均计算结果Tab.1 Average calculation results for different models on the test set %

3.4 数据可视化

为更加直观地展示本文所提方法的有效性，探索模型的性能和学习过程，本文采用T-SNE（T-stochastic neighbor embedding）算法［3］对原始信号、时域特征参数、Bi-LSTM 方法分类器的输入特征和本文方法分类器的输入特征进行降维，降维后的数据在二维平面上的显示结果如图6 所示。

图6 特征可视化图Fig.6 Diagram of the feature visualization

从图中可以看出，对原始信号图6（a）和时域特征参数图6（b）进行降维后，正常状态、碰摩故障和油膜失稳故障的数据样本紧密地聚集在一起，因此，直接利用这些数据建立分类器模型，不能有效实现旋转机械的故障诊断。通过图6（c）和图6（d）的对比分析可知，相比于Bi-LSTM 方法，本文方法全连接层输出的特征使得数据样本具有更小的类内距离和更大的类间距离，因此，本文所提出的模型能够更加有效地提取故障特征信息，从而提高旋转机械故障诊断的精度。

本文针对旋转机械故障诊断问题提出了一种基于Bi-LSTM网络和自注意力机制的故障诊断方法，实验结果表明该方法切实可行，并得出以下结论：

（1）相比于基于信号处理技术的传统机器学习方法，如K近邻、决策树模型，本文方法无需依赖专家经验人工提取信号中的特征参数，能够通过有监督学习自动提取原始信号中反映旋转机械运行状态的信息，并进行故障分类，具有更高的诊断精度，能够实现快速、高效的智能化故障诊断。

（2）在传统的Bi-LSTM 网络模型输出结果的基础上施加自注意力，能够更加有效地捕捉数据的内部相关性，模型训练过程中收敛速度和稳定性得到大幅度提高，整体故障识别准确率提高了2%。

（3）本文提出的方法能够监测旋转机械的运行状态，具有较高的诊断精度，能够及时发现并反馈故障类型，避免发生安全事故。

猜你喜欢故障诊断注意力神经网络基于递归模糊神经网络的风电平滑控制策略现代电力(2022年2期)2022-05-23让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09基于包络解调原理的低转速滚动轴承故障诊断一重技术(2021年5期)2022-01-18如何培养一年级学生的注意力甘肃教育(2020年22期)2020-04-13神经网络抑制无线通信干扰探究电子制作(2019年19期)2019-11-23基于神经网络的中小学生情感分析电子制作(2019年24期)2019-02-23数控机床电气系统的故障诊断与维修电子制作(2018年10期)2018-08-04基于Q-Learning算法和神经网络的飞艇控制北京航空航天大学学报(2017年12期)2017-04-23基于量子万有引力搜索的SVM自驾故障诊断北京航空航天大学学报(2016年6期)2016-11-16A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21推荐访问:注意力故障诊断旋转

上一篇：汽车底盘维修中单手上举操作对肌肉疲劳的影响研究
下一篇：论习近平关于马克思主义理论教育重要论述的理论出场、主要内容及时代意蕴

推荐文章

推荐内容

优秀文章推荐文章

优秀文章热门文章