基于顺序嵌入结合关联嵌入的呼吸运动预测

来源：优秀文章发布时间：2023-02-17 点击：

张昆鹏，于佳弘，靳爽，苏哲，徐晓桐，张华，2，3

南方医科大学1生物医学工程学院，2广东省医学图像处理重点实验室，3广东省医学影像与诊断技术工程实验室，广东广州 510515

在胸腹部肿瘤放射治疗过程中，呼吸运动的存在可能会导致射线束照射位置偏离原定计划靶区位置［1-3］。克服呼吸运动的影响，临床上最先进的方法为自适应运动补偿［4-8］。然而，在跟踪肿瘤治疗过程中，加速器放疗系统的复杂性使其不可避免的在检测到内部肿瘤运动到治疗射线束做出调整反应的过程中存在特定的延迟。为了保证治疗射束与运动靶区相对不变的空间位置，可以通过追踪体表替代运动信号和肿瘤内部植入物的运动信号进行运动建模，从而预测相应延迟时间后的肿瘤位置［9-11］。

目前学者已经提出了各种呼吸运动预测算法。其中基于回归分析的算法通过历史数据的线性组合进行计算［12］，不能对复杂的非线性很好的建模预测。支持向量回归法对大规模训练样本难以实施［13］。Ramrath 等［14］使用扩展的卡尔曼滤波模型预测，该算法相对复杂，且预测结果并未更优。记忆学习法［15］在小样本、长延时的条件下会出现“病态矩阵”，导致误差过大。近几年来随着深度学习的发展，专门用于序列分析建模的循环神经网络（RNN）以及其变体长短记忆神经网络（LSTM）受到很大的关注［16-20］。使用LSTM进行呼吸运动预测，并取得了不错的效果［21］。同时卷积神经网络（CNN）也被应用于呼吸运动预测，有学者提出CNN-driven的预测模型［22］。呼吸运动信号是一个包含前后（AP），上下（SI）和左右（LR）的多元时间序列，然而，现存的方法是各个方向独立进行建模，分别进行预测，并未考虑不同方向的关联，预测准确性有待提高。

本文提出基于顺序嵌入结合关联嵌入的深度学习模型，首次把各个方向运动作为一个整体，通过长短记忆神经网络（LSTM）和自注意力模块（Self-Attention）［23-25］充分挖掘运动序列的时间依赖和空间关联，各个方向共同进行建模预测，进一步提高了预测准确性。

图1为对本文提出的模型框架示意图，包括顺序嵌入层、关联嵌入层、预测层和自回归模块。每层的具体结构在以下被阐明。将给定长度的包含上下、左右和前后的呼吸运动信号输入训练好的网络模型，便可得到位置预测。

图1 模型结构Fig.1 Structure of the prediction model for respiratory motion.A:Overall structure of the network model.B:Long Short-Term Memory neural network.C:Self-attention structure.

1.1 顺序嵌入层

在呼吸运动预测任务中，由于每个方向都存在特定时间动态模式，因此每个方向的历史运动状态对于未来的预测是极为重要的。在这里，我们使用一个顺序嵌入层去捕获历史运动状态的顺序依赖。具体的，我们使用循环神经网络的变体长短记忆神经网络（LSTM）［26］，如（图1B）所示，去捕获历史运动状态的顺序依赖。LSTM能够保持对过去更长期的记忆，同时克服长序列训练的梯度消失和梯度爆炸问题。我们把单个方向的历史运动状态序列分别输入LSTM，使用最后一个隐藏状态作为这个方向顺序嵌入表示，这个过程称为顺序嵌入。

LSTM的功能通过遗忘门，输入门和输出门来实现，各个控制门主要由一个sigmoid函数和点乘操作组成，决定信息传递与丢弃。其过程可以通过以下公式表示

遗忘门：选择忘掉过去某些信息

输入门：记忆现在的某些信息

输出门：进行输出

Wi_∈Rh×d,Wh_∈Rh×h,bh_∈Rh代表需要在训练中更新的权重矩阵和偏差向量，其中d和h代表分别代表输入维度和隐藏状态输出维度，σ代表sigmoid激活函数。ft、it和ot分别代表遗忘门、输入门和输出门。ct和ht分别代表不同时间步胞体状态向量和隐藏状态向量。得益于门控设置和中间记忆状态，LSTM具有捕获时间序列长依赖的能力。

1.2 关联嵌入层

我们通过自注意力机制［23］，如（图1C）所示，实现关联嵌入，其基本思想是每个方向的顺序嵌入表示会和自身以及其他方向的顺序嵌入表示生成注意力值，最后根据这些注意力值进行加权求和，得到的每个方向表示聚合了不同方向的信息，称为关联嵌入表示。自注意力的实现由以下公式表示。

f3×n表示3个方向的顺序嵌入表示组成的矩阵，n表示嵌入表示的维度。对f3×n进行线性变换得到Q、K、V三个矩阵。A是注意力矩阵，(a)i,j表示第i个方向和第j个方向的关联权值。

1.3 预测层与自回归模块

预测层由非线性预测分量和线性预测分量两部分组成。将顺序嵌入层得到的顺序嵌入表示和关联嵌入层得到的关联嵌入表示进行串联拼接，通过全连接层生成非线性预测分量。自回归模块平行于整个结构，由全连接层构成，历史运动信号直接输入该模块得到线性预测分量，使输出对输入值的尺度变化更敏感，增加整体预测的鲁棒性。线性预测分量和非线性预测分量直接相加得到最终的预测。

自回归模块是通过对历史信号的各个时间状态进行加权求和，是一个线性输出的过程，因此会随输入尺度的变化而明显变化，可由以下公式表示：

1.4 实验设计

1.4.1 实验数据和平台数据采用德国吕贝克大学机器人与认知系统研究所［4］（Institute for Robotics and Cognitive System,University of Lubeck,Germany），提供的在线数据（signals.rob.uni-luebeck.de）。数据包括在CyberKnife治疗期间被记录的304例呼吸运动轨迹，每例呼吸运动信号平均有60 min的数据采集量。同时还包括对7位志愿者分别进行5～6 min的体内运动信号采集，采样频率为20 Hz。本研究实验利用python进行编程实现，使用pytorch［27］进行模型的构建。

1.4.2 模型训练和测试数据预处理阶段我们使用已经获得的在线数据，将各个方向的运动信号分别减去对应的基线值，即运动范围的中值。我们使用“模型预训练+微调”的训练模式，使得当针对具体病人时能够适应其特有的运动模式和空间关联。我们使用CyberKnife治疗期间被记录的304例呼吸运动轨迹作为模型预训练的数据集，使用滑动窗口获得训练数据对，包括给定长度的历史运动信号和对应延迟间隔的值，进行模型的预训练。我们使用在线数据提供的7位志愿者呼吸运动信号作为测评样例数据。如图2，每一位志愿者呼吸运动信号的前4/5被用来进行模型微调，其余的部分进行测试。历史运动信号长度是一个超参数，其选择要在一半的周期长度到1个周期长度之间，呼吸周期一般在3 s左右。在我们的实验中选择历史运动信号长度选为32个采样点，即1.6 s，每个志愿者以20 HZ频率进行5～6 min的信号采样，对于每一个志愿者可获得大约4800对训练数据进行预训练模型微调，1200对数据进行测试。使用训练数据进行模型的训练，采用小批量随机梯度下降，使用adam优化器，学习率设置为0.0001，使用MSE损失函数。

图2 滑动窗口获得数据对及数据划分Fig.2 Data partitioning of the respiratory signals. T represents the signal history length, YT the historical respiratory motion signal,l the length of the delay interval,and yT+l the value of the motion signal at the delay interval.

1.4.3 评价指标为了评估模型的性能，本研究采用了不同的呼吸运动预测方法进行比较，分别为线性回归法、支持向量回归法和长短记忆神经网络。延迟时间设置为150、300、450 ms的几种情况。

使用平均绝对误差和相对平方误差作为本实验的评价指标。

平均绝对误差（MAE）

相对平方误差(RSE)

在公式（15）和（16）中t0和t1分别代表当前测评样本测试数据的起始和结束。n表示数据的维度，在这里指的是呼吸运行信号的3个方向，n为3。

2.1 呼吸运动预测曲线

我们分别选择两个代表性样例进行SI、AP和LR方向预测曲线展示，图3中样例1是呼吸运动不规律的代表，受抖动影响较为明显。从图3可以看出我们的模型在延迟时间300 ms时，依旧能够很好地拟合真实呼吸运动轨迹。图4 中样例3是呼吸运动较为平稳的代表。图4可以看出我们的模型在延迟时间300 ms时，基本完美的拟合了真实呼吸运动曲线。

图3 样例1在延迟时间为300 ms时，SI、AP和LR方向的预测曲线Fig.3 Prediction curves of SI(A),AP(B)and LR(C)directions of sample 1 with a delay time of 300 ms.

图4 样例3在延迟时间为300 ms时，SI、AP和LR方向的预测曲线Fig.4 Prediction curves of SI(A),AP(B)and LR(C)directions of sample 3 with a delay time of 300 ms.

2.2 延迟偏差定量分析

我们分别计算7例样本在施加预测和无预测的情况下不同延迟时间各个方向的平均绝对偏差，同时计算出其在3D方向的偏差，以及3D偏差减小百分比。如表1所示，我们的模型在各个方向中均能减小延迟偏差。在所有7例样本不同延迟时间中，最大3D方向偏差减小百分比为80.85%，最小为50.79%，平均为70%。

2.3 对应不同延迟时间的预测效果比较

使用在线数据集提供的7例数据的内部运动信号，分别进行线性回归法［12］、支持向量回归法（SVR）［13］、CNN-driven［22］、Dsanet［28］、LSTM［21］和我们方法的预测，延迟时间分别设为150、300、450 ms。计算上述预测算法预测结果的MAE和RSE。由表2和表3可以看出，所有的方法都能实现比无预测时更小偏差。

2.4 微调数据量对预测的影响

在比较实验中我们的微调数据和测试数据之比设置为8∶2。为了进一步表明微调数据量对预测的影响，我们分别设置微调数据和测试数据比为7∶3和6∶4，进行训练预测。计算其在响应时间为300 ms下预测结果的MAE和RSE（表4、5）。

表4 不同比例在响应时间为300 ms时测试的MAE值Table 4 MAEs tested at different scales with a response time of 300 ms

传统的方法以及近些年提出的深度学习相关的呼吸运动预测方法，都独立地预测呼吸运动的各个方向，需要针对不同方向依次进行运动曲线拟合或者模型的训练，这样不仅需要额外的任务负担，同时忽略了不同方向的空间相关，预测准确性有待提高。在我们的研究中，把单个病人不同方向的运动信号看作一个整体，通过LSTM实现顺序嵌入，通过自注意力实现关联嵌入，充分捕获呼吸运动信号的时间依赖和空间相关性，实现各个方向一体化建模预测，减小了延迟偏差。

Ernst等［12］提出使用基于小波的多尺度自回归模型进行呼吸运动预测，并于其他基于自回归基础的模型进行比较。在他们的实验中分别进行模拟数据和真实数据测试，模式数据是多个正弦模型的拟合其非常平滑和规则，真实数据受抖动及测量噪声的影响其信号不规则和不平滑。他们的实验结果表明，在模拟数据中基于自回归的方法能取得理想的预测效果，但是用于真实数据时要先进行数据的平滑处理，得到的效果也不理想，并且提出的基于小波的多尺度自回归模型相比于其他的自回归模型并没有很大的提升。我们的方法直接应用于真实数据，如图3所示，样例1的呼吸运动信号极为不规律，抖动极为明显。我们的模型依旧能够很好的拟合各个方向的运动轨迹，同时从表1看出样例1的3D偏差减小百分比在响应时间为150、300、450 ms时分别为50.79%、60.30%、57.40%，有较好减少位置偏差的效果。从表2和表3可以看出在不同样本不同响应时间中我们的模型的评价指标也是远好于AR。Ernst等［13］又再次提出使用支持向量回归进行呼吸运动预测，并证明其效果优于先前的基于自回归的方法。然而Ernst F等指出支持向量回归的参数选择是困难的，其包含核函数和对应参数的选择、惩罚因子的选择、错误不敏感水平选择和信号历史长度选择等，并且参数的选择对实验结果有较大的影响。我们的模型需要考虑的参数仅仅是LSTM隐藏层的维度，并且相对固定，在我们的实验中设置为36。在我们的实验中，支持向量回归使用高斯核，其他参数选择默认设置。通过表2和表3看出我的模型预测效果同样也优于支持向量回归。近年来随着深度学习的发展，大量深度学习相关的肿瘤运动预测模式被提出。Zhou D等提出CNN-driven［22］预测模型，利用CNN强大的特征挖掘能力，对运动信号的时间模式特征进行充分挖掘，进行肿瘤运动预测。由于CNN存在平移不变性以及没有记忆功能，对于预测过程中存在的呼吸运动基线变化无法做出正确的响应，因此在实际肿瘤预测中是不可靠的。Lin等［21］首次提出使用LSTM进行呼吸运动预测，各个方向独立预测，并取得较好的预测效果。我们的模型是在LSTM基础上加入自注意力模块引入空间关联，加入自回归模块克服LSTM对输入尺度变化不敏感的问题，实现各个方向一体化进行预测。通过表2和表3可以看出我们的模型预测效果优于LSTM，证明引入空间关联和线性成分对于提升预测效果有一定的作用，同时通过表1可以看出各个方向的误差均有减小，3D偏差减少百分比达到70%以上，我们的模型对于多方向的呼吸运动预测具有良好性能。

表1 在无预测和预测情况下各个方向的平均绝对偏差Table 1 Mean absolute deviation in all directions(mm)

表2 不同预测方法在不同延迟时间测试的MAE值Table 2 Mean absolute deviations(MAEs)tested by different prediction methods at different delay times

表3 不同预测方法在不同延迟时间测试的RSE值Table 3 RSEs tested by different prediction methods at different delay time

在我们的模型中LSTM隐藏层的维度是最主要的超参数，直接决定模型的复杂度。隐藏层的维度设置过大，模型复杂度增大，计算负担重，收敛变慢。其设置小，模型复杂度变小，特征挖掘和学习能力下降。在我们的实验中隐藏层的维度设置为36，在保持学习能力下，又能保证快速的收敛，是一个轻量级网络，有仅6万多参数量。在使用GUP的情况下，使用当前治疗病人3 min左右的采样数据量，在预训练模型上进行微调，1～2 min内便可收敛，同时网络生成预测过程在20 ms之内，因此能够很好的适用于实际放疗过程。我们的模型训练使用“预训练+微调”的模式，这种模式在最近的深度学习相关的肿瘤运动预测模型［22］被使用。不同的病人呼吸运动信号的运动模式和空间关联都有一定不同，对预训练模式的微调能够使得模型适应当前病人具体的呼吸运动特性。由表4和表5可以看出，提供更多具体病人的运动数据进行微调能够提高预测准确性。同时在长时间治疗过程中，病人可能出现运动模式的渐变过程，可以进行实时在线微调，使其能够适应治疗过程中呼吸运动模式的变化。

表5 不同比例在响应时间为300 ms时测试的RSE值Table 5 RSEs tested at different scales with a response time of 300 ms

综上，本研究提出的深度学习模型相比于线性回归，支持向量回归，CNN-driven和LSTM模型能够实现更准确的预测效果，并且各个方向一体化建模预测，在解决精确放疗中系统延迟问题有很大的应用价值。在实际放疗追踪中，我们的深度学习预测模型可与内-外关联模型［29-31］联合使用，通过预测-关联实现外部替代信号到内部肿瘤位置的预测，可以在实际放疗追踪中得到很好的应用。

猜你喜欢延迟时间关联方向 2022年组稿方向计算机应用(2022年2期)2022-03-01不惧于新，不困于形——一道函数“关联”题的剖析与拓展新世纪智能(数学备考)(2021年9期)2021-11-24二氧化碳对乙烷燃烧着火延迟时间的影响煤气与热力(2021年3期)2021-06-092021年组稿方向计算机应用(2021年4期)2021-04-20添加非平衡等离子体对甲烷着火性能的影响沈阳航空航天大学学报(2021年1期)2021-03-182021年组稿方向计算机应用(2021年1期)2021-01-21LTE 系统下行链路FDRX 节能机制研究湖南邮电职业技术学院学报(2020年3期)2020-10-13“一带一路”递进，关联民生更紧当代陕西(2019年15期)2019-09-02奇趣搭配学苑创造·A版(2018年11期)2018-02-01智趣读者(2017年5期)2017-02-15推荐访问:嵌入关联顺序

上一篇：羟基红花黄色素A通过抑制程序性坏死减轻小鼠重症中暑引起的急性肺损伤
下一篇：BIM,技术在医药厂房工程设计中的应用及案例分析

推荐文章

推荐内容

优秀文章推荐文章

优秀文章热门文章