依托平滑强化学习的铰接车轨迹跟踪方法

引用本文

陈良发, 宋绪杰, 肖礼明, 高路路, 张发旺, 李升波, 马飞, 段京良. 依托平滑强化学习的铰接车轨迹跟踪方法[J]. 哈尔滨工业大学学报, 2024, 56(12): 116-123. DOI: 10.11918/202310026.

CHEN Liangfa, SONG Xujie, XIAO Liming, GAO Lulu, ZHANG Fawang, LI Shengbo, MA Fei, DUAN Jingliang. Smooth reinforcement learning-based trajectory tracking for articulated vehicles[J]. Journal of Harbin Institute of Technology, 2024, 56(12): 116-123. DOI: 10.11918/202310026.

基金项目

国家自然科学基金(52202487);汽车安全与节能国家重点实验室开放基金(KF2212)

作者简介

陈良发(1999—)，男，硕士研究生;
李升波(1982—)，男，长聘教授，博士生导师;
马飞(1968—)，男，教授，博士生导师

通信作者

段京良, duanjl@ustb.edu.cn

文章历史

收稿日期: 2023-10-14

Abstract Full text Figures/Tables PDF

依托平滑强化学习的铰接车轨迹跟踪方法

陈良发¹, 宋绪杰², 肖礼明¹, 高路路¹, 张发旺³, 李升波², 马飞¹, 段京良¹

1. 北京科技大学机械工程学院，北京 100083;
2. 清华大学车辆与运载学院，北京 100084;
3. 北京理工大学机械与车辆学院，北京 100081

收稿日期: 2023-10-14; 录用日期: 2023-12-15; 网络首发日期: 2024-10-08

基金项目: 国家自然科学基金(52202487);汽车安全与节能国家重点实验室开放基金(KF2212)

作者简介: 陈良发(1999—)，男，硕士研究生; 李升波(1982—)，男，长聘教授，博士生导师; 马飞(1968—)，男，教授，博士生导师

通信作者: 段京良, duanjl@ustb.edu.cn

摘要: 为解决现有铰接车轨迹跟踪控制面临的动作波动问题，提高铰接车轨迹跟踪控制的精度以及平滑性，提出了一种考虑轨迹预瞄的平滑强化学习型跟踪控制方法。首先，为保证控制精度，通过将参考轨迹信息作为预瞄信息引入强化学习策略网络和值网络，构建了预瞄型强化学习迭代框架。然后，为保证控制平滑性，引入LipsNet网络结构近似策略函数，从而实现策略网络Lipschitz常数的自适应限制。最后，结合值分布强化学习理论，建立了最终的平滑强化学习型轨迹跟踪控制方法，实现了铰接车轨迹跟踪的控制精度和控制平滑性的协同优化。仿真结果表明，本研究提出的平滑强化学习跟踪控制方法(SDSAC)在6种不同噪声等级下均能保持良好的动作平滑能力，且具备较高跟踪精度；与传统值分布强化学习(DSAC)相比，在高噪声条件下，SDSAC动作平滑度提升超过5.8倍。此外，与模型预测控制相比，SDSAC的平均单步求解速度提升约60倍，具有较高的在线计算效率。

关键词: 自动驾驶铰接车轨迹跟踪强化学习动作平滑

Smooth reinforcement learning-based trajectory tracking for articulated vehicles

CHEN Liangfa¹, SONG Xujie², XIAO Liming¹, GAO Lulu¹, ZHANG Fawang³, LI Shengbo², MA Fei¹, DUAN Jingliang¹

1. School of Mechanical Engineering, University of Science and Technology Beijing, Beijing 100083, China;
2. School of Vehicle and Mobility, Tsinghua University, Beijing 100084, China;
3. School of Mechanical Engineering, Beijing Institute of Technology, Beijing 100081, China

Abstract: This research tackles the challenge of action fluctuation in articulated vehicle trajectory tracking control, aiming to enhance both accuracy and smoothness. It introduces a novel approach: a smooth tracking control methodology grounded in reinforcement learning (RL). Firstly, to improve the control accuracy, we incorporate trajectory preview information as input to both the policy and value networks and establish a predictive policy iteration framework. Then, to ensure control smoothness, we employ the LipsNet network to approximate the policy function, to realize the adaptive restriction of the Lipschitz constant of the policy network. Finally, coupled with distributional RL theory, we formulate an articulated vehicle trajectory tracking control method, named smooth distributional soft actor-critic (SDSAC), focusing on achieving synergistic optimization of both control precision and action smoothness. The simulation results demonstrate that the proposed method can maintain good action smoothing ability under six different noise levels, and has strong noise robustness and high tracking accuracy. Compared with traditional value distribution reinforcement learning distributional soft actor-critic (DSAC), SDSAC improves action smoothness by more than 5.8 times under high noise conditions. In addition, compared with model predictive control, SDSAC's average single-step solution speed is improved by about 60 times, and it has higher online computing efficiency.

Keywords: automatic drive articulated vehicle trajectory tracking reinforcement learning action smoothing

铰接式车辆(铰接车)具有转弯半径小、通过性强以及使用成本低的优点，在矿山、山地等复杂地形环境中有着广泛的应用。然而，特殊的转向形式使得铰接车的运动控制相较于一般刚体车辆更为复杂，自动驾驶实现难度更大。

轨迹跟踪控制作为铰接车自动驾驶的关键技术之一，近年来得到了国内外学者的广泛研究^[1]。现有的铰接车轨迹跟踪控制方法有PID (proportional integral derivative)^[2]、线性二次调节控制(linear quadratic regulator, LQR)^[3-4]、滑模控制^[5]以及模型预测控制(model predictive control, MPC)^[6]等。其中，PID虽然结构简单，使用方便，但是无法处理复杂的系统约束和实现对车辆的横、纵向联合控制。而LQR应用于非线性系统时，由于需要对系统进行线性化处理，因而在实际应用中难以实现对参考轨迹的准确跟踪。MPC作为一种解决有限时域优化控制问题的常用方法，具有状态约束处理、滚动时域优化的优势，且具备理论最优性的保障^[7-9]。但是在实际应用中，MPC控制器需在每个控制周期内在线迭代求解最优控制动作序列，在系统非线性强或车载计算资源受限时，其在线求解速度通常难以满足控制实时性要求^[10]。

为提高控制量的在线求解效率，近年来一些依托强化学习的高实时性离线求解在线应用的控制模式得到了广泛的研究和应用^[11-17]，典型的算法有RMPC (recurrent MPC)^[18]、DSAC (distributional soft actor-critic)^[19-20]等。然而，强化学习在实际应用中面临着动作波动难题，轻微的状态差异会引起动作的大幅变化，而不平滑的控制动作会加快机械部件的磨损并影响实际驾乘体验^[21]。Mysore等^[22]发现，直接对策略网络输出动作进行滤波会改变系统的动态响应且违背马尔可夫假设，从而严重损害控制性能。为兼顾控制的最优性和平滑性，需在策略网络训练时对动作的波动进行限制。Kobayashi等^[23]将动作平滑性惩罚项添加到策略网络的损失函数中，实现了对动作波动的抑制，然而该方法性能对参数的调整较为敏感。Takase等^[24]通过在策略网络层级上应用谱归一化技术，实现了控制抖动的抑制，但是谱归一化技术会带来严重的性能损失。Song等^[25]提出了一种名为LipsNet的神经网络架构，可以根据状态自动调整策略网络的Lipschitz常数，实现动作波动的动态抑制。由于该方法不需要对算法结构进行修改，大大降低了其应用的难度。

综上所述，本文针对铰接车轨迹跟踪控制问题，提出了一种依托平滑强化学习的预瞄型铰接车轨迹跟踪算法。该算法所求得的跟踪策略不仅考虑了轨迹预瞄信息，而且具备较好的控制平滑性和高在线控制实时性。

1 问题描述 1.1 铰接车运动学模型

铰接车运动学模型的构建是轨迹跟踪优化求解的基础。如图 1所示，设铰接车前、后车体重心位于前、后桥中心点上，坐标分别为p_f=(x_f, y_f)，p_r=(x_r, y_r)，前、后车体铰接点到前、后轴的距离分别为l_f和l_f。使用铰接车前轴中心点p_f作为参考点，根据车辆的几何特征，可得

$ \left\{\begin{array}{l} \dot{x}_{\mathrm{f}}=v_{\mathrm{f}} \cos \varphi_{\mathrm{f}} \\ \dot{y}_{\mathrm{f}}=v_{\mathrm{f}} \sin \varphi_{\mathrm{f}} \end{array}\right. $

(1)

图 1 铰接车几何结构示意 Fig. 1 Geometric structure diagram of articulated vehicle

式中：$\dot{x}_\mathrm{f}$为车辆前车体沿x轴方向的速度, m/s；$\dot{y}_\mathrm{f}$车辆前车体沿y轴方向的速度，m/s；v_f为前车体参考速度，m/s；φ_f为航向角。

由于前、后车体通过铰链机构连接，因此前、后车体速度v_f和v_r均满足：

$ \left\{\begin{array}{l} v_{\mathrm{f}}=v_{\mathrm{r}} \cos \theta_{\mathrm{f}}+\dot{\varphi}_{\mathrm{r}} l_{\mathrm{r}} \sin \theta_{\mathrm{f}} \\ v_{\mathrm{r}} \sin \theta_{\mathrm{f}}=\dot{\varphi}_{\mathrm{f}} l_{\mathrm{f}}+\dot{\varphi}_{\mathrm{r}} l_{\mathrm{r}} \cos \theta_{\mathrm{f}} \\ \theta_{\mathrm{f}}=\varphi_{\mathrm{f}}-\varphi_{\mathrm{r}} \end{array}\right. $

(2)

式中：$\dot{\varphi}_{\mathrm{f}} 、\dot{\varphi}_{\mathrm{r}}$分别为前、后车体的航向角变化率, rad/s。将铰接车前车体中心横坐标x_f、纵坐标y_f、航向角φ_f、车速v_f和铰接角θ_f作为铰接车运动学模型状态向量，前车体加速度a和铰接角角速度ω作为输入向量 u，即

$ \left\{\begin{array}{l} \boldsymbol{X}=\left[x_{\mathrm{f}}, y_{\mathrm{f}}, \boldsymbol{\varphi}_{\mathrm{f}}, v_{\mathrm{f}}, \boldsymbol{\theta}_{\mathrm{f}}\right]^{\mathrm{T}} \\ \boldsymbol{u}=[a, \omega]^{\mathrm{T}} \end{array}\right. $

(3)

式中$\dot{v}_{\mathrm{f}}=a, \dot{\theta}_{\mathrm{f}}=\omega$。

进而，铰接车运动学模型可表示为

$ \dot{X}=\tilde{\boldsymbol{A}}+\tilde{\boldsymbol{B}} \boldsymbol{u} $

(4)

其中：

$ \tilde{\boldsymbol{A}}=\left[\begin{array}{c} v_{\mathrm{f}} \cos \varphi_{\mathrm{f}} \\ v_{\mathrm{f}} \sin \varphi_{\mathrm{f}} \\ \frac{v_{\mathrm{f}} \sin \theta_{\mathrm{f}}}{l_{\mathrm{f}} \cos \theta_{\mathrm{f}}+l_{\mathrm{r}}} \\ 0 \\ 0 \end{array}\right], \tilde{\boldsymbol{B}}=\left[\begin{array}{cc} 0 & 0 \\ 0 & 0 \\ 0 & \frac{l_{\mathrm{r}}}{l_{\mathrm{f}} \cos \theta_{\mathrm{f}}+l_{\mathrm{r}}} \\ 1 & 0 \\ 0 & 1 \end{array}\right] $

利用前向欧拉方法将连续时间运动学模型进行离散化，可得

$ X_{t+1}=\tilde{\boldsymbol{A}} / f+\tilde{\boldsymbol{B}} u_t / f+X_t $

(5)

式中f为控制频率。

1.2 轨迹跟踪任务描述 1.2.1 强化学习问题描述

强化学习本质在于智能体通过与环境的不断交互，自主学习到一个使得未来累计损失最小化的控制策略。在强化学习过程中，智能体在t时刻观测得到环境状态X_t, 通过采取动作u_t与环境发生交互，环境的状态转移为X_t+1，智能体同时获得一个损失信号l_t，损失信号可用于评价智能体在状态X_t采取动作u_t的好坏。

将强化学习应用于铰接车轨迹跟踪控制任务时，智能体的控制目标在于找到一个最优控制策略π^*，在满足u_t=π^*(X_t)的条件下使得轨迹跟踪的期望累计损失最小，即

$ \pi^*=\min\limits _\pi V_\pi(x) $

(6)

其中

$ V_\pi(x)=E_\pi\left[G_t \mid X_t=x\right]=E_\pi\left[\sum\limits_{k=0}^{\infty} \gamma^k l_{t+k} \mid X_t=x\right] $

式中：状态价值函数V_π(x)为从状态x开始执行策略π得到的累计期望损失, γ为折扣因子。

1.2.2 损失函数设计

在铰接车轨迹跟踪控制任务中，损失函数由跟踪误差损失和动作正则损失构成。设损失函数l为状态跟踪误差和动作正则的二次型加权求和：

$ l\left(X_t, \boldsymbol{X}_t^{\mathrm{ref}}, u_t\right)=\left\|X_t-\boldsymbol{X}_t^{\mathrm{ref}}\right\|_Q+\left\|u_t\right\|_R $

(7)

式中：Q、R分别为状态惩罚矩阵和动作惩罚矩阵，数学形式上均为正定对角矩阵。其中，$\boldsymbol{X}_t^{\mathrm{ref}}=$\left[x_t^{\text {ref }}, y_t^{\text {ref }}, \varphi_t^{\text {ref }}, v_t^{\text {ref }}, \theta_t^{\text {ref }}\right]^{\mathrm{T}}$为参考状态向量。

2 平滑强化学习轨迹跟踪算法 2.1 预瞄型强化学习迭代框架

为减少铰接车的轨迹跟踪误差，本文拟将轨迹预瞄点作为前馈信息，从而提高跟踪精度。然而，由于车辆行驶时实际速度会受到道路曲率的影响，因而预瞄点的位置关系通常难以给定。为此，如图 2所示，本文在假设已知期望速度v^ref以及参考轨迹曲线的情况下，通过利用期望速度对时间的积分获取预测时域内各预瞄点的横坐标，得到预瞄点对应的状态参考向量，并将预测时域内各预瞄点信息作为策略输入，即

$ u_t=\pi\left(X_t, X_{t: t+N-1}^{\mathrm{ref}}\right) $

(8)

图 2 预瞄点获取示意 Fig. 2 Schematic diagram of obtaining preview points

式中: X_{t: t+N－1}^ref为N步预瞄信息，即$X_{t: t+N-1}^{\mathrm{ref}}=\left[X_t^{\mathrm{ref}}\right.$, $\left.X_{t+1}^{\mathrm{ref}}, \cdots, X_{t+N-1}^{\mathrm{ref}}\right]$。参考轨迹上横坐标可由下式求得:

$ x_j^{\mathrm{ref}}=\int_{t+\frac{j}{\mathrm{f}}}^{t+\frac{j+1}{\mathrm{f}}} v^{\mathrm{ref}}(j+1) \mathrm{d} t $

(9)

式中：j∈0, …, N－1，j=0即第1个参考点；N为预测时域。

为求解最优控制策略π^*，本文将铰接车轨迹跟踪控制构建为无穷时域最优控制问题。为此，定义Q为从状态轨迹对(X_t, X_{t: t+N－1}^ref)出发以u_t为初始动作，执行策略π到无穷时刻得到的累计期望损失：

$ \begin{gathered} Q_\pi\left(X_t, X_{t: t+N-1}^{\mathrm{ref}}, u_t\right) \triangleq \\ E_\pi\left\{\sum\limits_{i=0}^{\infty} \gamma^i l\left(X_{t+i}, X_{t+i: t+N+i-1}^{\mathrm{ref}}, u_{t+i}\right)\right\} \end{gathered} $

(10)

由式(10)可知，Q_π与铰接车状态量X_t、轨迹预瞄信息X_{t: t+N－1}^ref和控制动作u_t有关。式(10)可进一步展开为

$ \begin{gathered} Q_\pi\left(X_t, X_{t: t+N-1}^{\mathrm{ref}}, u_t\right)=l\left(X_t, X_t^{\mathrm{ref}}, u_t\right)+ \\ E_\pi\left\{\gamma Q_\pi\left(X_{t+1}, X_{t+1: t+N}^{\mathrm{ref}}, u_{t+1}\right)\right\} \end{gathered} $

(11)

式(11)表明铰接车轨迹跟踪控制问题可以利用强化学习进行求解。即利用策略迭代框架对Q函数以及策略π进行交替优化求解，使其逐步迭代收敛至最优策略π^*。其中，策略迭代分为策略评估和策略改进两个环节。基于式(11)策略评估得到的Q_π, 利用下式可求得改进的策略π_k+1, 即

$ \pi_{k+1}\left(X_t, X_{t: t+N-1}^{\mathrm{ref}}\right)=\underset{u_l}{\operatorname{argmin}}\left[Q_{\pi_k}\left(X_t, X_{t: t+N-1}^{\mathrm{ref}}, u_t\right)\right] $

(12)

2.2 平滑策略网络

为保障策略的平滑性，本文采用LipsNet网络近似策略函数。如图 3所示，通过将Lipschitz常数k作为可学习的参数，实现策略网络Lipschitz常数的自动调整，从而对策略网络的输出的波动抑制。其中，平滑策略网络可表示为

$ \begin{aligned} & \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\pi_{\mathrm{s}}\left(X_t, X_{t: t+N-1}^{\mathrm{ref}} ; \omega, \phi\right)= \\ & k\left(X_t, X_{t: t+N-1}^{\mathrm{ref}} ; \phi\right) \frac{\pi\left(X_t, X_{t: t+N-1}^{\mathrm{ref}} ; \omega\right)}{\left\|\nabla_{X_t, X_{t: t+N-1}^{\mathrm{ref}} } \pi\left(X_t, X_{t: t+N-1}^{\mathrm{ref}} ; \omega\right)\right\|+\varepsilon} \end{aligned} $

(13)

图 3 LipsNet网络结构 Fig. 3 LipsNet network structure

式中：$\pi_s\left(X_t, X_{t: t+N-1}^{\text {ref }} ; \omega, \phi\right)$为平滑策略网络，输出数度与控制动作维数相同；$k\left(X_t, X_{t: t+N-1}^{\mathrm{ref}} ; \phi\right)$为单输出Lipschitz乘子网络；$\phi$为乘子网络参数，该网络可根据自车状态以及参考轨迹信息自动调整输出的Lipschitz常数大小，实现控制动作波动的动态抑制；$\pi\left(X_t, X_{t: t+N-1}^{\mathrm{ref}} ; \omega\right)$为原始策略网络，网络参数为ω，输出维数与控制动作维数相同；$\|\cdot\|$为矩阵2范数；

$\nabla_{X_t, X_{t : t+N-1}^{\mathrm{ref}}} \pi\left(X_t, X_{t: t+N-1}^{\mathrm{ref}} ; \omega\right)$为Jacobian矩阵；ε为正数小量。

本文采用动作波动率定量表征控制动作的波动情况，定义为

$ \xi\left(\pi_{\mathrm{s}}\right) \triangleq E_{\tau \sim \rho_{\pi_{\mathrm{s}}}}\left[\frac{1}{T} \sum\limits_{t=1}^T\left\|u_t-u_{t-1}\right\|\right] $

(14)

式中：ρ_{π_s}为策略π_s产生的动作-状态分布, T为终止时间, · 为动作向量的2范数。ξ(π_s)越小，表示策略π_s输出的动作越平滑。

2.3 考虑预瞄信息的平滑DSAC算法

依托式(11)的预瞄型自洽条件和平滑策略网络结构，本文提出了面向铰接车轨迹跟踪控制的平滑DSAC(smooth distributional soft actor-critic, SDSAC)算法。与传统算法不同，平滑DSAC的值函数对应的是随机累计损失的分布而非单纯的期望值，也被称为值分布函数。策略π_s产生的随机累计损失定义为

$ Z_{\pi_{\mathrm{s}}}\left(X_t, X_{t: t+N-1}^{\mathrm{ref}}, u_t\right)=l\left(X_t, X_t^{\mathrm{ref}}, u_t\right)+\gamma G_{t+1} $

(15)

式中，$G_t=\sum\limits_{k=0}^{\infty} \gamma^k l_{t+k}$。

定义随机累计损失$Z_{\pi_{\mathrm{s}}}\left(X_t, X_{t: t+N-1}^{\mathrm{ref}}, u_t\right)$的概率密度为分布函数$\boldsymbol{Z}_{\pi_{\mathrm{s}}}\left(\cdot \mid X_t, X_{t: t+N-1}^{\mathrm{ref}}, u_t\right), \boldsymbol{Z}_{\pi_{\mathrm{s}}}\left(\cdot \mid X_t\right.$, $\left.X_{t :t+N-1}^{\mathrm{ref}}, u_t\right)$表示给定$\left(X_t, X_{t:t+N-1}^{\mathrm{ref}}, u_t\right)$时$Z_{\pi_s}\left(X_t\right.$, $\left.X_{t: t+N-1}^{\mathrm{ref}}, u_t\right)$的概率密度，即$Z_{\pi_s}\left(X_t, X_{t: t+N-1}^{\mathrm{ref}}, u_t\right) \sim$Z_{\pi_{\mathrm{s}}}\left(\cdot \mid X_t, X_{t: t+N-1}^{\text {ref }}, u_t\right)$。根据随机累计损失的定义，其对应的值分布自洽条件为

$ \begin{gathered} \mathit{\Gamma}_{\pi_{\mathrm{s}}} Z_{\pi_{\mathrm{s}}}\left(X_t, X_{t: t+N-1}^{\text {ref }}, u_t\right)=l\left(X_t, X_t^{\text {ref }}, u_t\right)+ \\ \gamma\left(Z_{\pi_{\mathrm{s}}}\left(X_{t+1}, X_{t: t+N} \text { ref }, u_{t+1}\right)+\alpha \log \pi_{\mathrm{s}}\left(u_t \mid X_t, X_{t: t+N-1}^{\text {ref }}\right)\right) \end{gathered} $

(16)

式中Γ_{π_s}为值分布自洽算子。

平滑DSAC算法采用Actor-Critic结构学习独立的值分布网络以及随机策略网络。其中，策略网络的输入为铰接车的状态量和参考轨迹信息，输出为该状态量下对应动作的均值u和标准差σ。利用平滑DSAC算法求解铰接车轨迹跟踪控制问题时，策略评估通过最小化目标损失分布与当前损失分布之间的差异来实现，具体目标函数为

$ \begin{aligned} J_Z(\theta)= & \mathrm{E}\left[D _ { \mathrm { KL } } \left(\mathit{\Gamma}_{\pi_{\mathrm{s}}} \boldsymbol{Z}\left(\cdot \mid X_t, X_{t: l+N-1}^{\mathrm{ref}}, u_t ; \theta\right), \right.\right. \\ & \left.\left.\boldsymbol{Z}\left(\cdot \mid X_t, X_{t: t+N-1}^{\mathrm{ref}}, u_t ; \theta\right)\right)\right] \end{aligned} $

(17)

式中：J_z(θ)为值分布网络更新目标, θ为值网络参数, D_KL为Kullback-Leibler(KL)散度，用于度量两分布之间的距离; α为策略熵系数，其更新规则为

$ \alpha=\alpha-\beta_\alpha\left(\mathrm{E}\left[-\log \pi_{\mathrm{s}}\left(u_t \mid X_t, X_{t: t + N-1}^{\text {ref }} ; \omega, \phi\right)\right]-\overline{H}\right) $

(18)

式中: β_α为学习率，Η为策略熵目标值。

平滑策略网络通过最小化期望累计损失和Lipschitz常数k正则的加权进行优化，其目标函数为

$ \begin{aligned} J_{\pi_{\mathrm{s}}}(\omega, \phi)= & \lambda\left\|k\left(X_t, X_{t: t, N-1}^{\mathrm{ref}} ; \phi\right)\right\|^2+ \\ & \mathrm{E}\left[Q_{\pi_{\mathrm{s}}}\left(X_t, X_{t: t+N-1}^{\mathrm{ref}}, u_t ; \theta\right)-\right. \\ & \left.\alpha \log \pi_{\mathrm{s}}\left(u_t \mid X_t, X_{t: t+N-1}^{\mathrm{ref}}, u_t ; \omega, \phi\right)\right] \end{aligned} $

(19)

式中λ为平滑项权重。其中Q_{π_s}可由值分布网络可得

$ Q_{\pi_{\mathrm{s}}}\left(X_t, X_{t: t+N-1}^{\mathrm{ref}}, u_t ; \theta\right)=\mathrm{E}\left[Z_{\pi_{\mathrm{s}}}\left(X_t, X_{t: t+N-1}^{\mathrm{ref}}, u_t\right)\right] $

(20)

算法具体更新过程如下：

1) 给定自车初始状态X_t、参考轨迹y^ref>(x)、期望速度v^ref，利用期望速度对时间的积分获取预测时域内大地坐标系下的N个参考轨迹点$X_{t: t+N-1}^{\mathrm{ref}}$，见图 4。

图 4 铰接车轨迹跟踪示意 Fig. 4 Trajectory tracking diagram of articulated vehicle

2) 在当前状态X_t下使用策略π_s与环境交互采样，得到损失l_t以及观测下一时刻状态X_t+1，同时获取新的N个参考点$X_{t+1: t+N}^{\mathrm{ref}}$，将$\left\{X_t, X_{t: t+N-1}^{\mathrm{ref}}, u_t, l_t\right.$, $\left.X_{t+1}, X_{t+1: t+N}^{\mathrm{ref}}\right\}$组成一个经验样本，并存入经验池B。

3) 从经验回放池B中采样得到的多个经验样本作为前向求解过程的初值，利用式(17)实施梯度下降，其更新规则为

$ \theta_{k+1}=-\beta_Z \nabla_\theta J_Z\left(\theta_k\right)+\theta_k $

(21)

式中β_Z为值分布函数学习率。

4) 值网络进行若干次更新后，依托式(19)利用梯度下降分别对策略网络和k网络参数进行更新，更新规则为：

$\omega_{k+1}=-\beta_\pi \nabla_\omega J_{\pi_{\mathrm{s}}}\left(\omega_k, \phi_k\right)+\omega_k $

(22)

$ \phi_{k+1}=-\beta_k \nabla_\phi J_{\pi_{\mathrm{s}}}\left(\omega_k, \phi_k\right)+\phi_k $

(23)

平滑强化学习算法更新伪代码如下。

平滑强化学习算法：

初始化值分布网络参数θ、策略网络参数ω，$\phi$、策略熵系数α

设置学习率β_Z、β_π、β_k、β_α

初始化迭代步数k=0

给定期望速度、参考轨迹、自车初始状态X₀和预测时域N

Repeat

获取预测时域内各预瞄点参考信息

根据策略选择动作$u_t \sim \pi_{\mathrm{s}}\left(\cdot \mid X_t, X_{t: t+N-1}^{\mathrm{ref}} ; \omega, \phi\right)$

与环境交互得到X_t+1, X_t+1:t+N^ref以及损失信号l_t

将样本$\left\{X_t, X_{t: t+N-1}^{\mathrm{ref}}, u_t, l_t, X_{t+1}, X_{t+1: t+N}^{\mathrm{ref}}\right\}$存入经验池B

从B中随机选择批量样本$\left\{X_t, X_{t: t+N-1}^{r e t}, u_t, l_t, X_{t+1}\right.$, $\left.X_{t+1: t+N}^{r e f}\right\}$

基于式(21)计算值分布网络梯度并更新参数θ

if k能被整数m整除

基于式(22)更新策略网络参数ω

基于式(23)更新Lipschitz常数网络参数$\phi$

基于式(18)更新策略熵系数α

end if

k=k+1

until收敛

平滑强化学习的跟踪控制算法框图见图 5。

图 5 依托平滑强化学习的跟踪控制算法框架 Fig. 5 Tracking control framework based on smooth reinforcement learning

3 仿真分析

本文通过仿真实验验证所提出平滑DSAC算法的轨迹跟踪性能。实验首先在PC机上依托GOPS(general optimal control problem solver)平台^[26]对平滑策略网络进行离线预训练，然后利用训练得到的平滑策略网络根据自车状态及预瞄信息直接输出控制信号至仿真模型，模型执行相应控制动作后将所得新的自车状态信息以及预瞄信息反馈至平滑策略网络，实现闭环控制过程。

仿真实验中，铰接车期望行驶速度设为5 m/s参考轨迹选用角度为60°的三角波曲线来模拟铰接车巷道内的转弯工况。仿真时各算法的预测时域均相同，仿真时间为25 s。实验平台基于Windows操作系统，搭载3.6 GHz、12核心20线程的英特尔i7处理器。

3.1 算法参数设计

值网络以及π网络均采用双隐层结构，单层256个神经元，激活函数为Relu。k网络采用单隐层结构，激活函数为Relu。各网络均通过Adam方法更新参数。铰接车轨迹跟踪任务关键参数和算法的超参数分别见表 1、2。

表 1 铰接车轨迹跟踪任务关键参数 Tab. 1 Key parameters of trajectory tracking task of articulated vehicle

表 2 算法超参数 Tab. 2 Algorithm hyperparameters

为检验算法的控制平滑性和轨迹跟踪性能，本文选用DSAC、TD3^[27]、SAC^[28]和MPC等主流算法与本文提出的平滑DSAC在相同工况下进行对比分析。此外，为模拟实际工况下传感器的测量误差对控制动作的影响，实验选用6组满足高斯分布的随机噪声进行测试，设为6个(0~5)噪声等级。其中每个等级的高斯分布的均值μ_n均设为0，标准差σ_n大小见表 3。由采样得到的所有噪声均直接添加到原有观测量上，同时为简化问题，假设噪声只影响自车状态的观测值，预瞄的观测量不受影响。此外，为降低随机因素的影响，每组实验均进行100次随机初始点的测试，初始点各状态范围见表 4。

表 3 噪声等级与各观测噪声标准差 Tab. 3 Noise level and its corresponding standard deviation

表 4 初始点随机范围 Tab. 4 Random range of initial points

3.2 结果分析

图 6、表 5分别展示了不同等级噪声影响下，平滑DSAC(SDSAC)算法与传统算法在跟踪过程中的动作波动率以及横向位置误差、速度误差的变化情况。其中，图 6为100个随机初始点对应的控制仿真过程的统计均值，误差棒为95%的置信区间。可以看出，在相同噪声等级下，TD3、DDPG算法相较于SAC、DSAC算法，虽然拥有较低的控制波动率，但位置和速度的跟踪误差均出现了明显增加。而采用了策略熵技术的SAC、DSAC算法，所学策略能更好跟踪预期轨迹，跟踪精度相较TD3、DDPG算法提升近1倍，但同时也伴随着较高的控制波动率。相比之下，本文提出的平滑DSAC算法在不同噪声等级下均表现出了良好的波动抑制能力，且随着噪声等级的增大，平滑DSAC控制波动率增长显著低于传统强化学习算法和MPC算法。在1~5组不同等级的噪声影响下，平滑DSAC的动作平滑度相较于DSAC算法分别实现了2.7、3.6、4.7、5.2、5.8倍的性能提升，而仅损失了3 cm左右的位置跟踪误差。上述结果表明，平滑DSAC在噪声影响下，仍然具备较高的轨迹跟踪精度及动作平滑能力。

图 6 不同算法的动作波动率 Fig. 6 Action fluctuation of different algorithms

表 5 不同算法的跟踪误差对比 Tab. 5 Tracking error comparison of different algorithms

图 7展示了3组不同噪声等级影响下，铰接车跟踪三角波曲线的控制动作、前车体横向位置以及速度曲线的变化情况。受噪声影响，3种算法的控制动作均出现了一定程度的波动，但相较于DSAC、MPC，平滑DSAC的控制动作曲线更为平滑。进一步说明本文提出的平滑DSAC算法具有较强协同优化能力，即在噪声影响下，依然可以有效降低轨迹跟踪过程中的动作波动，同时保证轨迹跟踪的性能，可以实现控制精度和动作平滑性的协同优化。

图 7 不同噪声下跟踪三角波的动作及状态变化曲线 Fig. 7 Action and state curves of tracking triangular wave under different noises

最后，本文基于搭载英特尔12 700 KF处理器的Windows实验平台，对上述实验中噪声等级为0场景下的MPC及SDSAC算法的平均单步求解时间进行了统计。实验在相同工况下进行，结果见表 6。当预测时域在30步时，MPC(依托IPOPT优化器^[29])的平均单步求解时间约为33.0 ms，平滑DSAC的平均单步求解时间均约为0.49 ms，在线求解速度提升超过60倍，且求解用时更为稳定，而MPC受在线优化问题复杂度和计算资源分配的影响，求解时间出现了较大程度的波动。

表 6 平均单步求解时间对比 Tab. 6 Comparison of average single-step solution time

综上所述，验证结果表明本文提出的平滑DSAC算法具有较高的跟踪精度和在线计算效率，且在不同噪声环境下均能保持良好的控制平滑性。

4 结论

1) 本文针对铰接车轨迹跟踪问题，通过将参考轨迹信息作为预瞄信息引入策略网络和值网络，构建了预瞄型强化学习迭代框架，并结合LipsNet网络提出了平滑DSAC算法。高噪声环境下，铰接车轨迹跟踪横向误差小于9 cm。

2) 从控制平滑度上看，平滑DSAC在不同噪声等级下均能保持良好的动作平滑能力，具有较强的噪声鲁棒性以及较高的跟踪精度。与传统DSAC相比，高噪声条件下平滑DSAC动作平滑度提升超过5.8倍, 实现了跟踪控制精度和动作平滑性的协同优化。

3) 从控制实时性上看，平滑DSAC平均单步求解速度相较于MPC提升约60倍，具有较高的在线计算效率。且平滑DSAC求解用时更为稳定，而MPC受在线优化问题复杂度和计算资源分配的影响，求解时间出现了较大程度的波动。

4) 然而，平滑DSAC在提高控制平滑性的同时，引入了额外的超参数λ(式(19))，以对控制平滑项和性能项进行平衡。

参考文献

[1]	于向军, 槐元辉, 姚宗伟, 等. 工程车辆无人驾驶关键技术[J]. 吉林大学学报(工学版), 2021, 51(4): 1153. YU Xiangjun, HUAI Yuanhui, YAO Zongwei, et al. Key technologies in autonomousvehicle for engineering[J]. Journal of Jilin University (Engineering and Technology Edition), 2021, 51(4): 1153. DOI:10.13229/j.cnki.jdxbgxb20210038
[2]	TAN Senqi, ZHAO Xinxin, YANG Jue, et al. A path tracking algorithm for articulated vehicle: development and simulations[C]//2017 IEEE Transportation Electrification Conference and Expo, Asia-Pacific (ITEC Asia-Pacific). Harbin: IEEE, 2017: 1. DOI: 10.1109/ITEC-AP.2017.8080797
[3]	MENG Yu, GAN Xin, WANG Yu, et al. LQR-GA controller for articulated dump truck path tracking system[J]. Journal of Shanghai Jiaotong University (Science), 2019, 24(1): 78. DOI:10.1007/s12204-018-2012-z
[4]	YAKUB F, MORI Y. Comparative study of autonomous path-following vehicle control via model predictive control and linear quadratic control[J]. Proceedings of the Institution of Mechanical Engineers, Part D: Journal of Automobile Engineering, 2015, 229(12): 1695. DOI:10.1177/0954407014566031
[5]	TIAN Haiyong, SHEN Yanhua, ZHANG Wenming, et al. Slip ratio control for articulated dump truck based on fuzzy sliding mode[C]//2011 International Conference on Consumer Electronics, Communications and Networks (CECNet). Xianning: IEEE, 2011: 4404. DOI: 10.1109/CECNET.2011.5768560.
[6]	BAI Guoxing, LIU Li, MENG Yu, et al. Path tracking of mining vehicles based on nonlinear model predictive control[J]. Applied Sciences, 2019, 9(7): 1372. DOI:10.3390/app9071372
[7]	李斯旭, 徐彪, 胡满江, 等. 基于动力学模型预测控制的铰接车辆多点预瞄路径跟踪方法[J]. 汽车工程, 2021, 43(8): 1187. LI Sixu, XU Biao, HU Manjiang, et al. A dynamic model predictive control approach for multipoint preview path tracking of articulated vehicles[J]. Automotive Engineering, 2021, 43(8): 1187. DOI:10.19562/j.chinasae.qcgc.2021.08.009
[8]	LIN Fen, WANG Shaobo, ZHAO Youqun, et al. Research on autonomous vehicle path tracking control considering roll stability[J]. Proceedings of the Institution of Mechanical Engineers, Part D: Journal of Automobile Engineering, 2021, 235(1): 199. DOI:10.1177/0954407020942006
[9]	刘清河, 王泽文, 赵立军. 自适应LOS制导结合MPC控制的车辆循迹优化[J]. 哈尔滨工业大学学报, 2022, 54(1): 96. LIU Qinghe, WANG Zewen, ZHAO Lijun. Vehicle tracking optimization based on adaptive LOS guidance and MPC control[J]. Journal of Harbin Institute of Technology, 2022, 54(1): 96. DOI:10.11918/202012053
[10]	GE Qiang, SARTORETTI G, DUAN Jingliang, et al. Distributed model predictive control of connected multi-vehicle systems at unsignalized intersections[C]//2022 IEEE International Conference on Unmanned Systems (ICUS). Guangzhou: IEEE, 2022: 1466. DOI: 10.1109/ICUS55513.2022.9986954
[11]	LI Shengbo. Reinforcement learning for sequential decision and optimal control[M]. Singapore: Springer, 2023. DOI:10.1007/978-981-19-7784-8
[12]	GUAN Yang, REN Yangang, SUN Qi, et al. Integrated decision and control: toward interpretable and computationally efficient driving intelligence[J]. IEEE Transactions on Cybernetics, 2023, 53(2): 859. DOI:10.1109/TCYB.2022.3163816
[13]	DUAN Jingliang, LI Jie, GE Qiang, et al. Relaxed actor-critic with convergence guarantees for continuous-time optimal control of nonlinear systems[J]. IEEE Transactions on Intelligent Vehicles, 2023, 8(5): 3299. DOI:10.1109/TIV.2023.3255264
[14]	李永丰, 史静平, 章卫国, 等. 深度强化学习的无人作战飞机空战机动决策[J]. 哈尔滨工业大学学报, 2021, 53(12): 33. LI Yongfeng, SHI Jingping, ZHANG Weiguo, et al. Maneuver decision of UCAV in air combat based on deep reinforcement learning[J]. Journal of Harbin Institute of Technology, 2021, 53(12): 33. DOI:10.11918/202005108
[15]	温广辉, 杨涛, 周佳玲, 等. 强化学习与自适应动态规划: 从基础理论到多智能体系统中的应用进展综述[J]. 控制与决策, 2023, 38(5): 1200. WEN Guanghui, YANG Tao, ZHOU Jialing, et al. Reinforcement learning and adaptive/approximate dynamic programming: a survey from theory to applications in multi-agent systems[J]. Control and Decision, 2023, 38(5): 1200. DOI:10.13195/j.kzyjc.2022.1933
[16]	李升波, 占国建, 蒋宇轩, 等. 类脑学习型自动驾驶决控系统的关键技术[J]. 汽车工程, 2023, 45(9): 1499. LI Shengbo, ZHAN Guojian, JIANG Yuxuan, et al. Key technologies of brain-inspired decision and control intelligence for autonomous driving systems[J]. Automotive Engineering, 2023, 45(9): 1499. DOI:10.19562/j.chinasae.qcgc.2023.ep.006
[17]	段京良, 陈良发, 王文轩, 等. 智能汽车主动避撞工况的高实时预测控制[J]. 汽车安全与节能学报, 2023, 14(5): 580. DUAN Jingliang, CHEN Liangfa, WANG Wenxuan, et al. High real-time predictive control for active collision avoidance of intelligent vehicles[J]. Journal of Automotive Safety and Energy, 2023, 14(5): 580. DOI:10.3969/j.issn.1674-8484.2023.05.007
[18]	LIU Zhengyu, DUAN Jingliang, WANG Wenxuan, et al. Recurrent model predictive control: learning an explicit recurrent controller for nonlinear systems[J]. IEEE Transactions on Industrial Electronics, 2022, 69(10): 10437. DOI:10.1109/TIE.2022.3153800
[19]	DUAN Jingliang, GUAN Yang, LI Shengbo, et al. Distributional soft actor-critic: off-policy reinforcement learning for addressing value estimation errors[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(11): 6584. DOI:10.1109/TNNLS.2021.3082568
[20]	DUAN Jingliang, WANG Wenxuan, XIAO Liming, et al. DSAC-T: distributional soft actor-critic with three refinements[EB/OL]. 2023: 2310.05858. https://arxiv.org/abs/2310.05858v4
[21]	YU Haonan, XU Wei, ZHANG Haichao. TAAC: temporally abstract actor-critic for continuous control[EB/OL]. 2021: 2104.06521. https://arxiv.org/abs/2104.06521v3
[22]	MYSORE S, MABSOUT B, MANCUSO R, et al. Regularizing action policies for smooth control with reinforcement learning[C]//2021 IEEE International Conference on Robotics and Automation (ICRA). Xi'an: IEEE, 2021: 1810. DOI: 10.1109/ICRA48506.2021.9561138
[23]	KOBAYASHI T. L2C2: locally lipschitz continuous constraint towards stable and smooth reinforcement learning[C]//2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Kyoto: IEEE, 2022: 4032. DOI: 10.1109/IROS47612.2022.9981812
[24]	TAKASE R, YOSHIKAWA N, MARIYAMA T, et al. Stability-certified reinforcement learning control via spectral normalization[J]. Machine Learning with Applications, 2022, 10: 100409. DOI:10.1016/j.mlwa.2022.100409
[25]	SONG Xujie, DUAN Jingliang, WANG Wenxuan, et al. LipsNet: a smooth and robust neural network with adaptive Lipschitz constant for high accuracy optimal control[C]//Proceedings of the 40th International Conference on Machine Learning (ICML). Honolulu: ML Research Press, 2023: 32253
[26]	WANG Wenxuan, ZHANG Yuhang, GAO Jiaxin, et al. GOPS: a general optimal control problem solver for autonomous driving and industrial control applications[J]. Communications in Transportation Research, 2023, 3: 100096. DOI:10.1016/j.commtr.2023.100096
[27]	FUJIMOTO S, HOOF H, MEGER D. Addressing function approximation error in actor-critic methods[C]//Proceedings of the 35th International Conference on Machine Learning (ICML). Stockholm: International Machine Learning Society (IMLS), 2018: 2587
[28]	HAARNOJA T, ZHOU A, ABBEEL P, et al. Soft actor-critic: off-policy maximum entropy deep reinforcement learning with a stochastic actor[C]//Proceedings of the 35th International Conference on Machine Learning (ICML). Stockholm: International Machine Learning Society (IMLS), 2018: 2976
[29]	ANDERSSON J A E, GILLIS J, HORN G, et al. CasADi: a software framework for nonlinear optimization and optimal control[J]. Mathematical Programming Computation, 2019, 11(1): 1. DOI:10.1007/s12532-018-0139-4