矩阵求偏导知识总结

看这方面的资料时候感觉有点混乱(有的布局方式没有讲清,时而分子布局,时而分母布局;有的规则本身存在一些矛盾解释不清),又没有非常全面地了解这方面的知识,导致自己也很迷糊,主要参考的是维基百科的介绍(但是也有一些问题没解决)。

基本原则:矩阵对矩阵求偏导,就是自变量矩阵中的每个元素对因变量的每个元素求偏导。矩阵求偏导有两套摆放习惯(分子布局、分母布局),常用的是分子布局(两种layout各有利弊)。

注意:默认情况是$x$表示列向量,$x^T$表示行向量

分子布局与分母布局

分子布局

Lay out according to $\mathbf{y}$ and $\mathbf{x}^T$

分母布局

Lay out according to $\mathbf{y^T}$ and $\mathbf{x}$

存在的问题: 当分子分母一个行向量一个列向量时怎么处理不知道

偏导数布局形式

标量/向量

分子布局下结果的形状是分母向量的转置

向量/标量

分子布局下形状与分子保持一致

矩阵/标量

与分子矩阵形式一致

标量/矩阵

为分母矩阵的转置形式一致

向量/向量

列向量/列向量的偏导计算结果是矩阵

行向量/列向量(感觉用分子布局的方式解释不了)


偏导数结果

常见的一些结论

分类

  • 对无关量求偏导 $\mathbf{0}$
  • 对自身求偏导 $\mathbf{I}$
  • 线性变换
  • 系数求偏导
  • 函数乘法求偏导
  • 复合函数

另外,关于迹和行列式的偏导wiki上也很容易找到

Reference