三维旋转表示的困境
在计算机图形学、机器人学、航空航天以及物理学的诸多领域中,精确描述和操作三维空间中的物体姿态是一项基本且核心的任务。一个物体的姿态本质上是其相对于某个参考坐标系的旋转状态。因此,寻找一种有效、稳定且无歧义的数学工具来表示旋转,便成为了一个根本性的问题。最符合人类直觉的表示方法是欧拉角 (Euler Angles)。该方法将一个复杂的空间旋转分解为三个沿着正交坐标轴(例如 x, y, z 轴)依次进行的简单旋转,这三个旋转的角度(例如,偏航角 Yaw, 俯仰角 Pitch, 滚转角 Roll)共同构成了对最终姿态的描述。欧拉角因其直观易懂而被广泛应用,然而,这种表示方法存在一个固有的、在关键应用中无法回避的致命缺陷——万向节死锁 (Gimbal Lock)。
万向节死锁是一种状态,在此状态下,旋转系统会失去一个自由度。以飞行器为例,当俯仰角为 ±90 度(即机头垂直朝上或朝下)时,原本用于控制偏航和滚转的两个旋转轴会发生重合。此时,无论系统尝试执行偏航还是滚转操作,都会产生完全相同的几何效果,即绕着同一个垂直轴旋转。这意味着飞行器在此姿态下无法独立完成所有三种类型的旋转,丧失了向任意方向调整姿态的能力。在动画或模拟中,当物体接近或进入万向节死锁状态时,其运动会表现出突然的、不自然的剧烈翻转,因为系统为了从一个姿态平滑插值到另一个姿态,可能需要进行一次幅度极大且不符合物理直觉的旋转。这种不稳定性使得欧拉角在要求高精度和高平滑度的应用中,成为了一种不可靠的表示方法。因此,为了克服这一根本性限制,数学家们寻求一种更高维度的、能够从本质上避免奇异状态的代数结构来描述旋转。
四元数的代数结构与核心性质
为了解决上一节提出的旋转表示困境,我们引入一种新的代数系统四元数 (Quaternion)。
从结构上看,一个四元数 q 是一个由四部分组成的数,其一般形式为 q=qw+qxi+qyj+qzk。这里的系数 qw,qx,qy,qz 都是我们熟悉的实数。qw 被称为标量部 (scalar part),而由三个虚数单位 i,j,k 构成的 qxi+qyj+qzk 则被称为矢量部 (vector part)。所有这些四元数的集合形成了一个数学家所称的、在实数域 R 上的四维代数,记为 H。这意味着四元数不仅像向量一样可以进行加法和标量乘法,更重要的是,它们之间还定义了一套独特的乘法规则。
这套乘法规则完全由一个核心恒等式所支配:
i2=j2=k2=ijk=−1
而四元数虚数单位的乘法遵循一个循环规则:i→j→k→i,即正向相乘得正,反向相乘得负。比如说我们在等式 1 右侧同乘以 k:
(ijk)k=(−1)k
利用结合律和 k2=−1,得:
ij(−1)=−k
ij=k
根据上述推导,我们如果尝试计算 ji,就会发现结果变成了ji=−(ij)=k。这种乘法顺序会影响结果的特性,即非交换性 (non-commutativity),是四元数与我们熟知的实数和复数最根本的区别。正是这种特性,使得四元数能够完美地捕捉三维空间旋转的非交换本质(例如,一个物体先绕垂直轴旋转90度再绕水平轴旋转90度,与颠倒顺序后的最终姿态是不同的)。
为了将这个代数系统应用于几何变换,我们必须定义几个关键的运算和属性,它们是后续所有操作的“零件”。
首先是共轭 (Conjugate)。这个概念是对复数共轭的自然推广。对于一个复数 z=a+bi,其共轭是 z∗=a−bi。类似地,对于四元数 q=qw+qxi+qyj+qzk,它的共轭 q∗ 就是将其所有矢量部分(虚部)的符号取反:q∗=qw−qxi−qyj−qzk。共轭运算的核心作用,是在不改变标量部的情况下“反转”其矢量方向,这在后续求模和求逆的运算中至关重要。
接下来是模 (Norm),它用于衡量一个四元数的“大小”或“长度”。q 的模记作 ∥q∥,其定义源于四元数与其自身的共轭之积,∥q∥=qq∗。我们可以展开这个乘积来理解其几何意义:
qq∗=(qw+(qxi+qyj+qzk))(qw−(qxi+qyj+qzk))
展开这个乘积会得到9个项,我们可以将其分为两类:
-
对角项(同类单位相乘):
- (qxi)(qxi)=qx2(i2)=−qx2
- (qyj)(qyj)=qy2(j2)=−qy2
- (qzk)(qzk)=qz2(k2)=−qz2
-
交叉项(不同单位相乘):
- (qxi)(qyj)=qxqy(ij)=qxqyk
- (qyj)(qxi)=qyqx(ji)=−qyqxk
- ... 以此类推,我们会得到所有两两组合的乘积:
- qyqz(jk)=qyqzi 与 qzqy(kj)=−qzqyi
- qzqx(ki)=qzqxj 与 qxqz(ik)=−qxqzj
现在,我们将所有9个项相加。每一对交叉项(例如 qxqyk 和 −qyqxk)都会因为四元数乘法的非交换性 (ij=−ji) 而精确地相互抵消。所有矢量部(带有 i,j,k 的项)都消失了,剩下的只有对角项的和:(qxi+qyj+qzk)2=−qx2−qy2−qz2。现在我们将这个结果代回到 qq∗ 的表达式中:
qq∗=(qw)2−(−(qx2+qy2+qz2))
qq∗=qw2+qx2+qy2+qz2
这个结果是一个纯粹的实数,没有任何虚部。根据我们对模的定义 ∥q∥=qw2+qx2+qy2+qz2,上面这个结果恰好是模的平方,即 ∥q∥2。
有了共轭和模,我们便可以定义任何非零四元数 q 的逆 (Inverse) q−1,它满足乘法单位元的基本性质 qq−1=q−1q=1。其计算公式为 q−1=∥q∥2q∗。我们可以很容易地验证这个定义的正确性:
q⋅q−1=q⋅∥q∥2q∗=∥q∥2qq∗=∥q∥2∥q∥2=1
在表示纯粹的旋转时(即不含任何缩放或变形的变换),我们极其关心一类特殊的四元数——单位四元数 (Unit Quaternion)。顾名思义,它们是模为 1 (∥q∥=1) 的四元数。这个单位长度的约束,在几何上直观地对应了旋转操作不应改变物体大小的特性。当一个四元数是单位四元数时,它的求逆运算得到了极大的简化:由于分母 ∥q∥2=1,其逆就等于它的共轭,即 q−1=q∗。这个优雅的性质不仅是理论上的一个美妙结果,更是四元数在实时计算机图形学和机器人学中得以高效应用的关键。它将一个可能涉及四次乘法和一次除法的求逆运算,简化为三次符号取反操作,极大地降低了计算成本。
三维旋转的四元数表示
现在任务是利用这些工具,将一个抽象的四元数与一个具体的三维空间旋转操作精确地等同起来。这个过程分为两步:首先,我们需要一种方式在四元数的世界里表示三维向量;其次,我们需要构造一个特定的四元数来编码旋转这个动作本身。
为了让四元数能够对三维向量进行操作,我们必须在三维欧几里得空间 R3 与四元数空间 H 的某个子集之间建立一座桥梁。这个桥梁就是纯四元数 (pure quaternion) 空间,即所有标量部(实部)为零的四元数的集合。任何一个三维向量 v=(vx,vy,vz) 都可以被唯一地表示为一个纯四元数 v=0+vxi+vyj+vzk。反之,任何纯四元数也对应一个唯一的三维向量。这种对应的关系在数学上被称为同构 (Isomorphism),它意味着我们可以将任何三维向量“嵌入”到四元数空间中进行代数运算,运算结束后再将结果“提取”回三维空间,而不会丢失任何信息。例如,一个向量 v=(2,−3,5) 在四元数的世界中就以 v=2i−3j+5k 的形式存在。
现在我们有了代表“被旋转物体”(向量)的方式,接着需要表示“旋转动作”本身。三维空间中任何一个旋转操作,都可以由两个几何要素唯一确定:一个旋转轴,由一个单位向量 u^∈R3 表示;以及一个旋转角度 θ∈R,我们通常遵循右手定则,规定逆时针方向为正。我们的目标是构造一个单位四元数 q,使其能够完整地编码这两个几何信息。该四元数的构造公式如下:
q=cos(2θ)+(uxi+uyj+uzk)sin(2θ)
我们可以将其简洁地记为 q=cos(2θ)+u^sin(2θ),其中 u^ 被理解为代表轴向量的纯四元数。这个构造式并非任意设计的,它具有一个至关重要的内禀性质:它确保了所构造的 q 必然是一个单位四元数。我们可以通过计算其模的平方来验证这一点:
∥q∥2=(cos(2θ))2+(uxsin(2θ))2+(uysin(2θ))2+(uzsin(2θ))2=cos2(2θ)+(ux2+uy2+uz2)sin2(2θ)
由于 u^ 是单位向量,所以 ux2+uy2+uz2=∥u^∥2=1。因此,上式根据三角函数的平方和定理,结果恒等于1。这个单位模长的性质保证了由该四元数引发的变换将是纯粹的旋转,不包含任何我们不希望的缩放效果。同时,这里会有一个问题是为什么使用半角 θ/2 。这并非巧合或近似,笔者在下一节去解释核心旋转算子所做的必要准备。该算子的数学结构将使角度效应被施加两次,因此我们在此预先使用半角,以确保最终的几何效果恰好是我们期望的旋转角度 θ。
旋转算子及其数学原理
现在,我们将这两者结合,定义一个能够对三维向量实施旋转的精确数学操作。这个操作被称为共轭变换 (Conjugation),因其在形式上将被操作的向量“包裹”在中间,也常被形象地称为“三明治积”。
定义 (四元数旋转算子):给定一个代表三维向量 v 的纯四元数 v,以及一个代表某次旋转的单位四元数 q,旋转后得到的新向量 v′ 所对应的纯四元数 v′,由以下公式给出:
v′=qvq−1
由于我们已经知道单位四元数的逆等于其共轭 (q−1=q∗),此公式也等价于 v′=qvq∗。这个简洁的表达式蕴含了深刻的代数原理,正是这些原理保证了其几何效果的正确性。为了证明这一点,我们必须从数学上严格验证该变换满足旋转的两个基本性质:它必须保持向量的维度(三维向量旋转后仍是三维向量),并且必须保持向量的长度(旋转是刚体变换)。
首先,我们来证明变换后的结果 v′ 仍然是一个纯四元数,即其标量部 S(v′)=0。我们可以通过分析 v′ 的共轭 (v′)∗ 来巧妙地证明这一点。利用四元数乘积的共轭性质 (ab)∗=b∗a∗,我们得到:
(v′)∗=(qvq∗)∗=(q∗)∗v∗q∗
由于 (q∗)∗=q,并且 v 是一个纯四元数,所以其共轭 v∗=−v。将这两点代入,我们得到:
(v′)∗=q(−v)q∗=−qvq∗=−v′
一个数的共轭等于它自身的相反数((v′)∗=−v′),这正是纯四元数的定义。因此,我们已经严格证明了 v′ 的标量部必为零,这意味着旋转算子的输出结果始终保持在三维向量空间内,不会产生我们不希望的第四维度分量。
其次,我们来证明该变换保持向量的长度不变。这一点可以通过模的乘法性质 ∥ab∥=∥a∥∥b∥ 来轻松验证。我们计算 v′ 的模:
∥v′∥=∥qvq−1∥
应用模的乘法性质,我们将其分解为三个模的乘积:
∥v′∥=∥q∥⋅∥v∥⋅∥q−1∥
因为 q 是代表旋转的单位四元数,所以其模 ∥q∥=1。它的逆 q−1(也就是它的共轭)同样也是一个单位四元数,所以 ∥q−1∥=1。因此:∥v′∥=1⋅∥v∥⋅1=∥v∥
这个结果表明,变换前后向量的长度完全相等。这从代数上无可辩驳地证明了四元数共轭变换是一种保距变换 (isometry),它只改变向量的方向而不改变其大小,这与我们对空间旋转的几何直觉完全吻合。
why θ/2
现在笔者证明为什么构造旋转四元数时必须使用半角 θ/2。
要证明这一点,最严谨的方法就是将我们第四节定义的旋转算子 v′=qvq−1 进行完全的代数展开,并证明其展开后的最终形式,与公认的、描述三维旋转的权威几何公式——**罗德里格旋转公式 (Rodrigues' Rotation Formula)**完全等价。如果从 θ/2 出发的代数,最终能推导出包含完整角 θ 的几何公式,那么半角的必要性就得到了无可辩驳的证明。
首先,我们回顾一下所有需要的元素:
- 待旋转的向量(纯四元数):v
- 旋转轴(单位纯四元数):u^
- 旋转四元数及其逆(使用 c=cos(2θ),s=sin(2θ) 简化):
- q=c+su^
- q−1=q∗=c−su^
我们知道两个纯四元数乘积的几何意义:u1u2=−(u1⋅u2)+(u1×u2) 那我们的目标就是证明 v′=qvq−1 的矢量部分等价于罗德里格公式:
v′=vcosθ+(u^×v)sinθ+u^(u^⋅v)(1−cosθ)
首先我们先展开旋转算子 v′=qvq−1
我们将 q 和 q−1 代入,并进行乘法展开:
v′=(c+su^)v(c−su^)
v′=(cv+su^v)(c−su^)
v′=c2v−cs(vu^)+sc(u^v)−s2(u^vu^)
现在,我们利用纯四元数乘积的几何意义来替换 u^v 和 vu^:
u^v=−(u^⋅v)+(u^×v)
vu^=−(v⋅u^)+(v×u^)=−(u^⋅v)−(u^×v)
代入展开式中:
v′=c2v−cs(−(u^⋅v)−(u^×v))+sc(−(u^⋅v)+(u^×v))−s2(u^vu^)
整理后,标量部分 (u^⋅v) 的项相互抵消,而矢量叉乘项 (u^×v) 被加倍:
v′=c2v+2cs(u^×v)−s2(u^vu^)
接下来,我们处理最复杂的项 u^vu^。我们可以把它看作 (u^v)u^:
u^vu^=(−(u^⋅v)+(u^×v))u^=−(u^⋅v)u^+(u^×v)u^
其中 (u^×v)u^ 是两个正交纯四元数(一个向量和另一个与之垂直的向量)的乘积,其结果等于它们的叉乘 (u^×v)×u^。根据向量三重积公式 A×(B×C)=B(A⋅C)−C(A⋅B),我们有:
(u^×v)×u^=v(u^⋅u^)−u^(u^⋅v)
因为 u^ 是单位向量,u^⋅u^=1。所以上式等于 v−u^(u^⋅v)。
因此,u^vu^=v−2u^(u^⋅v)。
将此结果代回 v′ 的表达式:
v′=c2v+2cs(u^×v)−s2(v−2u^(u^⋅v))
将所有项按 v,(u^×v) 和 u^(u^⋅v) 进行合并:
v′=(c2−s2)v+(2sc)(u^×v)+(2s2)u^(u^⋅v)
现在,我们使用三角函数的倍角公式,将包含半角 θ/2 的项 c 和 s 转换回包含完整角 θ 的形式:
c2−s2=cos2(2θ)−sin2(2θ)=cos(θ)
2sc=2sin(2θ)cos(2θ)=sin(θ)
2s2=2sin2(2θ)=1−cos(θ)
将这些代回到我们推导出的 v′ 的最终表达式中:
v′=vcosθ+(u^×v)sinθ+u^(u^⋅v)(1−cosθ)
这个最终结果,一字不差地,正是罗德里格旋转公式。我们从一个完全代数的构造(使用 θ/2 的四元数 q 和共轭运算 v′=qvq−1)出发,通过一系列严格的代数展开和替换,最终抵达了一个描述完整角 θ 旋转的、被广泛公认的几何公式。这个过程有力地证明了,在四元数旋转的框架下,使用半角 θ/2 不是一个近似或巧合,而是使其代数形式能够精确映射到正确几何现实的数学必然。