每周文章分享-80
2022-11-5 13:28:18 Author: 网络与安全实验室(查看原文) 阅读量:15 收藏

每周文章分享

2022.10.31-2022.11.06

标题: Intelligent Fault Diagnosis for Rotary Machinery Using Transferable Convolutional Neural Network

期刊: IEEE Transactions on Industrial Informatics, vol. 16, no. 1, pp. 339-349, Jan. 2020.

作者: Zhuyun Chen, Konstantinos Gryllias, and Weihua Li.

分享人: 河海大学——张雨濛

01

研究背景

BACKGROUND

研究背景

有效的故障检测与诊断技术对于保证复杂机械系统的安全可靠运行具有重要意义。齿轮和滚动轴承是重要的部件,往往是旋转机械的主要故障来源。为了及早、准确、及时地发现故障的产生,无数的故障诊断和故障预测方法被提出。

近年来,深度学习方法也被提出用于机械故障诊断和预测,然而,深度学习技术发展的优势还没有被充分利用。在实际的工业应用中,很难收集到足够的故障样本用于训练模型。此外,每当将模型应用到一个新的诊断任务时,都需要对其进行重新训练。因此,学习到的模型在测试阶段可能不如在训练阶段有效。

基于此,迁移学习提供了一种处理这些问题的方法。通过故障模拟可以在实验室实验中获得大量的数据,从而对模型进行充分的训练。

02

关键技术

TECHNOLOGY

关键技术

本文提出了一种可迁移卷积神经网络(TCNN)来改善目标任务的学习。首先,基于大型源任务数据集构造和预训练一维CNN;然后采用迁移学习策略,重用预训练的网络,对目标任务进行深度模型训练。因此,该方法既利用了深度网络的学习能力,又利用了来自源任务的先验知识。

TCNN的贡献可以总结如下:

1)该方法可用于处理缺乏训练数据的故障诊断问题,适用于工作条件不同的设备,甚至适用于不同设施(任务相似)的故障诊断问题。在实际工业应用中具有广阔的应用前景。

2)该方法通过预训练策略对目标模型进行合理的参数初始化。因此,它为快速、高效、低过拟合风险地训练基于深度网络的诊断系统提供了一种潜在的工具。它可以提高模型的性能,并节省时间。

3)从模型迁移的角度来看,所提出的方案不仅可以用于CNN模型,而且可以扩展到其他深度学习算法,如DBN(深度置信网络)、SAE(稀疏自动编码器)、LSTM(长短期记忆)等。

03

算法介绍

ALGORITHMS

算法介绍

1. 体系结构

图1 TCNN体系结构

本文提出了一种新的TCNN体系结构,以提高从原始数据中学习有效鉴别特征的能力。TCNN是WDCNN(宽卷积核深度卷积神经)的修改版本,其中添加了dropout技术、内核编号和全连接层。

如图1所示,首先将一维原始振动信号输入到第一卷积层中,获得信号局部特征。然后实现批归一化(图1中的BN),通过对每个训练小批进行归一化,减少每层输入的分布。最大池用于对输入进行下采样,并在较大的局部区域上创建位置不变量。Dropout被添加为正则化约束,以减少节点交互并学习鲁棒特征。然后,通过正向传播,逐层进行非线性映射。最后一个Softmax用于转换类别的概率输出。通过反向传播算法和最小化交叉熵误差来更新每一层的参数。

2. 参数设计 

在本文的实验中,考虑到诊断精度和计算成本,探索了不同网络层的TCNN。在相对小的层范围内进行网格搜索,以发现源域数据集上的次优架构。TCNN的最优架构如表I所示。

表Ⅰ TCNN参数

TCNN的层数和参数被细分为六个构建块(B1-B6),每个构建块包含特定的层数。前五个块由卷积层、最大池层、BN层和Dropout层组成。在最后,设计输出层,用B6表示。它包括全连接层FC1、FC2和一个Softmax分类器,其中嵌入了BN和dropout的多个非线性层。

在一维振动信号的情况下,第一个卷积层从原始输入中提取特征,其中应用了一个大卷积核(具体地说,64 * 1,步幅为16)。设置过滤器个数为32。在这之后,剩下的四个卷积层分别有32、64、64和64个核。它们每个都具有较小的内核大小(具体地说,步长为2的3 * 1)。采用大内核是为了抑制高频噪声,下面几层的小内核是为了增强特征学习能力,提高网络性能。

此外,使用零填充来保持卷积操作前后的大小相同。对于池化层,每个构建块中的核数与卷积层中的核数相同,通过执行池大小为2*1和步幅2的下采样,特征映射大小减半。最后,网络以两个完全连接的层(1000和100个节点)和用于分类的Softmax函数结束。

3. 迁移学习的使用

图2 迁移学习用于TCNN故障诊断构

由于CNN是一个有监督的转发网络,因此使用了完全标记的源域数据集。在该方案中,首先收集大型源任务数据集,然后基于源域数据集对CNN进行预训练,以获得TCNN。在传输阶段,由于源域数据集的标签通常与目标任务的标签不相等,因此将TCNN模型中B6的Softmax输出替换为新的输出,对应于不同目标任务的类别,如图2所示。最后,在使用少量训练样本的目标数据上对不同层的参数进行微调。

04

实验结果

EXPERIMENTS

实验结果

在本节中,基于20类齿轮和轴承故障的源域数据集,应用了所提出的方法,并与四种最先进的方法进行了比较,证明了迁移学习的优越性,分析了算法的特征学习能力和迁移有效性。

1. 源域数据集的评估

将TCNN与在源域训练集上进行训练并在相应测试集上进行评估的CNN- wen、二维CNN、一维CNN和WDCNN进行比较。分类过程重复十次,最终结果在所有实验中取平均值。训练阶段和测试阶段的平均精度和标准差(STD)如表2所示。

 表2 不同方法的结果比较

从结果可以看出,其他四种方法都获得了较高的训练精度,但测试精度低于提出的方法。相比之下,TCNN在测试准确性和标准差STD方面与其他四种方法具有很强的竞争力。该方法的检测精度为99.03%,STD为0.21%,表明了改进的TCNN的优越性。

2. TCNN中基于模型的迁移学习

为了研究训练样本量对分类率的影响,首先在训练阶段使用精简数据集和完整训练数据集对TCNN进行微调。在齿轮数据(C1和C2)的情况下,简化数据集包含30%的训练样本,而在轴承数据(C3和C4)的情况下,简化50%的训练样本。

数据集C1和C2,分别包含恒定转速为1250 r/min和组合转速为1000和1250 r/min时采集的振动数据(目标域和源域数据来自同一平台)。数据集C3和C4,分别包含恒转速为1100 r/min,组合转速分别为800和1100 r/min时的采集数据。图3显示了四种情况下不同微调层的分类精度。x轴(S1-S6)表示微调层数,y轴表示相应的分类结果。

图3 精度与微调层之间的关系(abcd分别代表C1、C2、C3、C4)

可以注意到,通过微调最后的输出层B6,保持其余层(B1-B5)的参数不变,C1和C2获得了相对较高的精度,但C3和C4的精度不够高。此外,随着层数的增加,分类性能也逐渐提高。此外,对于减少的训练样本,当重新调整所有层时,分类性能会显著下降。

3. 与CNN的比较(没有迁移)

为了验证TCNN模型的可靠性和可扩展性,我们对TCNN模型在目标案例中的分类准确率是否比基础的CNN提高进行了评估。两种模型的不同之处在于网络的权重不同。对于目标域任务,CNN使用随机权重随机初始化,而TCNN已经经过了预先训练,具有相对“好的”权重。TCNN和CNN训练阶段在C1、C2、C3、C4上得到的训练和测试损失分别如图4所示。


图4 CNN和TCNN的损失曲线(a)C1 (b)C2 (c)C3 (d)C4

如图所示,以CNN为例,训练损失在所有情况下都是平稳的,但测试损失即使在80次迭代后仍呈现出较大的波动。相反,TCNN在所有四种情况下都取得了更好的性能。损失曲线收敛得更快。经过20期的训练,TCNN的训练损失和测试损失逐渐接近一个固定值,并保持稳定。相比之下,CNN的测试损失发散,直到达到一定的迭代次数。

为了深入了解网络在高级层中学到了什么,我们使用了第20层的激活输出。可以预期,更接近输出层的特征是更线性可分的。这些特征分别通过TCNN和CNN对C1和C3的测试样本进行了分析。此外,通过将数据维数从192降至2,采用主成分分析技术进行可视化。聚类结果如图5所示。

图5 测试样本可视化(a)CNN for C1 (b)TCNN for C1 (c)CNN for C3 (d)CNN for C3.

可以看出,在CNN的案例中,不同的类别严重重叠。特别是C1,大多数点彼此混合,只有第10类(10)中的点是很好区分的。因此,可以预期的是,分类性能将不够好。在C1和C3的情况下,TCNN获得的不同类的高级特征比CNN中的低维空间更具鉴别性。结果表明,TCNN得到的特征聚类较好,大部分分类是可分离的,重叠较少。

4. 与其他方法的比较

此外,针对精简训练数据集和完整训练数据集,将提出的方法与四种不同的方法进行了比较。本文方法与其他算法的识别精度如图6和图7所示。

图6 五种方法在减少训练样本上的准确率比较(一)C1(b) C2(c) C3(d) C4

从图6中可以看出,与二维CNN和DNN相比,WDCNN在C3和C4上的表现相似,准确率分别为95.5%和88.7%。而在故障类型较多的C1和C2中,准确率分别为40%和42.5%,表现较差。WDCNN和其他传统深度学习网络通过增加如图7所示的训练样本,都提高了分类性能.

图7 五种方法在全训练样本上的准确性比较(一)C1(b) C2(c) C3(d) C4

在C3和C4中,虽然有5个分类,TCNN的最高准确率为95.5%,而在C1和C2的10个分类中获得的准确率为98.7%。这可以归因于它与源数据集的相似性。随着源数据集和目标数据集的相似度降低,特征转移的有效性会逐渐下降。

05

总结

CONCLUSION

总结

本文提出了一种基于TCNN的转移学习框架,用于机械系统故障诊断。该方法的关键思想是利用从故障诊断问题和不同机器(历史数据)中获得的知识来提高目标任务问题的性能。TCNN是WDCNN的修改版本,其中添加了dropout技术、核数和全连接层,以改进从原始数据中学习有效的鉴别特征。不同的诊断案例以及不同的数据集被用于测试和验证所提出的方法的性能,呈现出良好的稳定性和鲁棒性,与最先进的体系结构相比,获得了更好的结果。该方法不仅可以用于复杂的诊断情况,还可以用于其他数据驱动的任务,包括状态监测、异常检测、轴承寿命预测、预测等。未来,有可能将把提出的方法扩展到无监督或半监督的设置。

END

扫描二维码关注我们

==河海大学网络与安全实验室==

微信搜索:Hohai_Network

联系QQ:1084561742

责任编辑:何宇


文章来源: http://mp.weixin.qq.com/s?__biz=MzI1MTQwMjYwNA==&mid=2247494460&idx=1&sn=56b95c9c1ccee304ebb25f1bd835a59d&chksm=e9f12b3fde86a229cb109ed12adbf81dc21581edd0553075c3e3d4818a73120ff481254bb810#rd
如有侵权请联系:admin#unsafe.sh