Path Signature Neural Network of Cortical Features for Prediction of Infant Cognitive Scores

研究的背景

  1. 在婴儿时期,认知技能和大脑形态之间有着紧密的联系。但是,考虑到特征维度过多、样本量小、数据缺失等问题,利用个体的大脑形态学特征来预测个体的认知得分仍然是一个巨大的挑战。

  2. 在实际应用中,数据采集过程中的小样本量(SSS)和不同时间点的数据缺失是不可避免的。由于数据有限,一个紧凑但富有表达性的特征集是我们急需的,因为它可以减少维数并避免潜在的过拟合问题。因此,作者率先采用路径签名的方法,进一步探索纵向皮层特征的基本隐藏动态模式。

  3. 关于路径签名:

    总的来说:路径的签名是包含许多代数和解析性质的流数据的有效特征集

    path_signature

    而在实际应用中,对于更常见的离散时间序列,可以通过线性插值嵌入到路径空间中。嵌入路径的对应签名可以通过陈氏恒等式进行计算:
    $$
    Sig(X) _ {a,b}^{i_1,i_2,\cdots,i_l}=\frac{1}{l!}\prod_{j=1}^l (X_b^{i_j}-X_a^{i_j} )
    $$
    在这篇论文中,作者将路径X解释为从纵向MRI扫描中提取的大脑区域的生长轨迹。值得注意的是,生长轨迹的第一次迭代积分是生物测量量的变化,而第二次迭代积分的线性组合:$0.5(Sig(X) _ {a,b}^{i_1,i_2}-Sig(X) _ {a,b}^{i_2,i_1} )$,等于曲线$(X^{i_1},X^{i_2} )$和连接起点和终点的弦包围的面积,可以用来评估生长轨迹的曲率。

使用的方法(创新点)

  1. 根据大脑皮层特征,使用路径签名神经网络来预测婴儿认知得分。 先从0-48个月的时间点中选取9个时间点的大脑MR扫描图像作为输入;然后送入婴儿MRI计算管道之中去提取7个大脑皮层的形态学测量值;接着将大脑皮层分成70个具有解剖学意义的感兴趣区域(ROIs),并提取70$\times$7(区域数量$\times$每个区域的特征表示)大小的特征图,并将这些特征图沿着时间轴进行连接得到动态皮层特征图;由于数据之中存在缺失的问题,因此作者使用了一种插值的方法,通过最近的两次数据插值出缺失的数据,其公式为:$t^n_i=t^n_j+(t_i-t_j)*\frac{t^n_j-t^n_k}{t_j-t_k}$;最后将处理好的数据送入CF-PSNet以得到最后的结果。

    architecture

  2. 为了形成一种层次化并且信息更丰富的时间表示,提出了一种基于皮层特征的路径签名神经网络( Cortical Feature based PSNet,CF-PSNet),该网络通过堆叠可微时间路径签名层,来预测个体认知得分。首先,考虑到SSS问题,作者使用单层非线性映射和top k选择模块进行特征冗余去除和大脑区域选择。

    CF-PSNet

  3. 通过在路径生成中引入存在性嵌入(第一层TPS中,用于指示缺失的访问),可以提高对缺失数据的鲁棒性,消除由插值引起的模糊和伪影。

  4. 由于不需要整个大脑来为某个认知能力工作,作者使用了一个top K选择模块来选择最具影响力的脑区域,这样可以减小模型的大小,并降低过拟合的风险。如下图所示,将每个脑区域的特征压平成一个36维的特征向量,然后送入全连接层生成70个标量作为每个脑区域的影响力系数,从这些系数中选取前K个最大的,将他们对应的特征向量与系数相乘并送入下面的层中。

    top_k_selection

  5. 时间路径签名层(Temporal Path Signature Layer,TPS)。对于每个TPS层,K条路径分别对应K个最具影响力的脑区域。接着,类似CNN中那样,使用窗口滑动操作,可以得到$T^i=T^{i-1}+1-W$条子路径来探索局部时间属性。

    path

  6. 使用组全连接层的多流神经网络。多流神经网络会在不同流中分别处理原始特征和多尺度时间PS特征,使用组全连接层是为了将在时域上共享相同感受野的特征视为一个组。如图所示,如果将滑动窗口的大小设置为5,那么三个流的组数分别是9、5、1。这个类似于cv中的两次卷积,区别在于卷积是空间感受野的缩放,这里是时间感受野的缩放。

    PS_extraction

  7. 提出了注意力mask生成器,在相应的发展阶段给予不同的大脑皮层区域不同的权重。下图中的分组全连接应当是9个40$\times$16的矩阵,作者将其取出之后在每一个ROI内进行求和,得到注意力mask。

    attention_mask_generator

  8. LOSS。损失函数定义如下:
    $$
    Loss(y,\hat{y},Y)=\lambda\sum_{t=1}^9|Y-y_t|+|Y-y|
    $$
    其中Y是出生后48个月的认知量表,y是预测的认知分数,$\hat{y}$是图7中的中间输出。

评估方法

  • 多种指标。