UDUT-разложение (оно же LTDL): nabbla1

nabbla1

UDUT-разложение (оно же LTDL)

Nov 05, 2019 15:05

Это как LDLT-разложение симметричной положительно определённой матрицы A, но только UDUT, т.е верхняя унитреугольная матрица (треугольная с единицами на главной диагонали) умножается на диагональную и на себя транспонированную. Его можно было бы также назвать LTDL-разложением, тут устоявшейся терминологии нет.

Такое разложение ничем принципиально не отличается от LDLT, но для этого разложения и всех последующих операций при инвертировании матрицы A, мы будем идти по элементам "в обратном порядке", с правого нижнего угла к левому верхнему. Для системы команд QuatCore, где циклы "вниз" организуются проще всего с помощью "команд" iLOOP, jLOOP и kLOOP (если индексная переменная равна нулю - идти дальше, иначе уменьшить её на единицу и прыгнуть в начало цикла), это предпочтительнее.

Итак, у нас опять есть матрица A - симметричная, положительно определённая:

$A=\left(\begin{array}{cccc}a_{00}&a_{01}&a_{02}&a_{03}\\a_{10}&a_{11}&a_{12}&a_{13}\\a_{20}&a_{21}&a_{22}&a_{23}\\a_{30}&a_{31}&a_{32}&a_{33}\end{array}\right)=\left(\begin{array}{cccc}a_{00}&-&-&-\\a_{10}&a_{11}&-&-\\a_{20}&a_{21}&a_{22}&-\\a_{30}&a_{31}&a_{32}&a_{33}\end{array}\right)$

В этот раз мы ведём нумерацию индексов с нуля, чтобы стать "ближе к железу". Верхний треугольник мы не записываем, чтобы напомнить: в памяти хранится только нижний треугольник. Это не обязательно означает треугольную адресацию:
$a_{ij}=m[\frac{i(i+1)}{2}+j]$

когда нижний треугольник занимал бы последовательные ячейки памяти
$A=\left(\begin{array}{cccc}m[0]&-&-&-\\m[1]&m[2]&-&-\\m[3]&m[4]&m[5]&-\\m[6]&m[7]&m[8]&m[9]\end{array}\right)$

тоже была идея реализовать такую адресацию "аппаратно", просто в виде таблицы:

itri[i]
00
11
23
36
410
515

(у меня матриц крупнее 6×6 здесь не ожидается)
Это весьма экономично.
[Код на верилоге]

module TriangleNum (input [2:0] D, output [3:0] Q);

assign Q = (D == 0)? 4'd0:
(D == 1)? 4'd1:
(D == 2)? 4'd3:
(D == 3)? 4'd6:
(D == 4)? 4'd10:
(D == 5)? 4'd15:
4'bxxxx;
endmodule

Как ни странно, этот код синтезируется в 3 ЛЭ, так как выходит Q[3] = D[2].

Есть в такой адресации определённая красота: в формуле, преобразующей индексы в адрес в памяти, нигде не фигурируют размеры матрицы! Но можно и самой обычной адресацией обойтись, а в верхний треугольник запихать прочие величины, как в таблице памяти данных ВИПС. Буду ещё громко думать, что лучше.

Далее мы хотим эту матрицу A представить в виде произведения:
$A=UDU^T=\left(\begin{array}{cccc}1&u_{01}&u_{02}&u_{03}\\0&1&u_{12}&u_{13}\\0&0&1&u_{23}\\0&0&0&1\end{array}\right)\left(\begin{array}{cccc}d_0&0&0&0\\0&d_1&0&0\\0&0&d_2&0\\0&0&0&d_3\end{array}\right)\left(\begin{array}{cccc}1&0&0&0\\u_{01}&1&0&0\\u_{02}&u_{12}&1&0\\u_{03}&u_{13}&u_{23}&1\end{array}\right)$

Две эти матрицы умещаются в памяти, выделенной под матрицу A:
$A^*=\left(\begin{array}{cccc}d_0&0&0&0\\u_{01}&d_1&0&0\\u_{02}&u_{12}&d_2&0\\u_{03}&u_{13}&u_{23}&d_3\end{array}\right)$

и это разложение может быть выполнено "на месте", не требуя временного хранилища.

Чтобы понять, как это сделать, помножим 3 матрицы и посмотрим, как их коэффициенты соотносятся с коэффициентами исходной матрицы:
$UDU^T=\left(\begin{array}{cccc}1&u_{01}&u_{02}&u_{03}\\0&1&u_{12}&u_{13}\\0&0&1&u_{23}\\0&0&0&1\end{array}\right)\left(\begin{array}{cccc}d_0&0&0&0\\d_1u_{01}&d_1&0&0\\d_2u_{02}&d_2u_{12}&d_2&0\\d_3u_{03}&d_3u_{13}&d_3u_{23}&d_3\end{array}\right)=$

$=\left(\begin{array}{cccc}d_0+d_1u_{01}^2+d_2u_{02}^2+d_3u_{03}^2&d_1u_{01}+d_2u_{02}u_{12}+d_3u_{03}u_{13}&d_2u_{02}+d_3u_{03}u_{23}&d_3u_{03}\\d_1u_{01}+d_2u_{02}u_{12}+d_3u_{03}u_{13}&d_1+d_2u_{12}^2+d_3u_{13}^2&d_2u_{12}+d_3u_{13}u_{23}&d_3u_{13}\\d_2u_{02}+d_3u_{03}u_{23}&d_2u_{12}+d_3u_{13}u_{23}&d_2+d_3u_{23}^2&d_3u_{23}\\d_3u_{03}&d_3u_{13}&d_3u_{23}&d_3\end{array}\right)$

Разумеется, и здесь мы получили симметричную матрицу, так что уберём ненужный верхний треугольник:
$A=UDU^T=\left(\begin{array}{cccc}d_0+d_1u_{01}^2+d_2u_{02}^2+d_3u_{03}^2&-&-&-\\d_1u_{01}+d_2u_{02}u_{12}+d_3u_{03}u_{13}&d_1+d_2u_{12}^2+d_3u_{13}^2&-&-\\d_2u_{02}+d_3u_{03}u_{23}&d_2u_{12}+d_3u_{13}u_{23}&d_2+d_3u_{23}^2&-\\d_3u_{03}&d_3u_{13}&d_3u_{23}&d_3\end{array}\right)$

Как и ожидалось, в этот раз самые простые выражения расположены в правом нижнем углу и усложняются по мере движения к левому верхнему (в прошлый раз всё было наоборот).

Можно идти в разном порядке. В прошлый раз мы двигались по столбцам, но как оказалось, для эффективных вычислений нужно было вводить временные переменные. Будем двигаться по столбцам и в этот раз - упорство должно быть вознаграждено!

Начинаем с правого столбца.
$d_3=a_{33}$

При работе "на месте" делать это присвоение не требуется - d3 расположен в точности там же, где a33.

Берёмся за следующий (предпоследний) столбец, причём двигаемся снизу вверх:
$a_{32}=d_3u_{23},$

$a_{22}=d_2+d_3u_{23}^2,$

откуда:

$u_{23}=a_{32}/d_3,$

$d_2=a_{22}-d_3u_{23}^2$

Берёмся за следующий столбец:
$a_{31}=d_3u_{13},$

$a_{21}=d_2u_{12}+d_3u_{13}u_{23},$

$a_{11}=d_1+d_2u_{12}^2+d_3u_{13}^2,$

откуда:

$u_{13}=a_{31}/d_3,$

$u_{12}=\frac{a_{21}-d_3u_{13}u_{23}}{d_2},$

$d_1=a_{11}-d_2u_{12}^2-d_3u_{13}^2,$

Наконец, обрабатываем левый столбец:
$a_{30}=d_3u_{03},$

$a_{20}=d_2u_{02}+d_3u_{03}u_{23},$

$a_{10}=d_1u_{01}+d_2u_{02}u_{12}+d_3u_{03}u_{13},$

$a_{00}=d_0+d_1u_{01}^2+d_2u_{02}^2+d_3u_{03}^2,$

откуда:
$u_{03}=a_{30}/d_3,$

$u_{02}=\frac{a_{20}-d_3u_{03}u_{23}}{d_2},$

$u_{01}=\frac{a_{10}-d_2u_{02}u_{12}-d_3u_{03}u_{13}}{d_1},$

$u_{00}=a_{00}-d_1u_{01}^2-d_2u_{02}^2-d_3u_{03}^2$

Вот и всё. Глядя на эти формулы, можно обнаружить, что введя вспомогательный массив из N-1 значений (N×N-размер матрицы, в рассмотренном случае N=4), мы обойдёмся без львиной доли умножений.

Покажем, как это делается. Запишем выражения для предпоследнего столбца:
$t_3=a_{32},$

$u_{23}=t_3/d_3,$

$d_2=a_{22}-t_3u_{23}$

Для столбца с индексом 1:
$t_3=a_{31},$

$u_{13}=t_3/d_3,$

$t_2=a_{21}-t_3u_{23},$

$u_{12}=t_2/d_2,$

$d_1=a_{11}-t_2u_{12}-t_3u_{13}$

И наконец, для левого столбца (с индексом 0):
$t_3=a_{30},$

$u_{03}=t_3/d_3,$

$t_2=a_{20}-t_3u_{23},$

$u_{02}=t_2/d_2,$

$t_1=a_{10}-t_2u_{12}-t_3u_{13},$

$u_{01}=t_1/d_1,$

$d_0=a_{00}-t_1u_{01}-t_2u_{02}-t_3u_{03}$

Выпишем все эти выкладки в таблицу. Вычисления здесь ведутся сверху вниз и только потом слева направо:

$t_3=a_{32},$
$t_3=a_{31},$
$t_3=a_{30},$

$u_{23}=t_3/d_3,$
$u_{13}=t_3/d_3,$
$u_{03}=t_3/d_3,$

$d_2=a_{22}-t_3u_{23}$
$t_2=a_{21}-t_3u_{23},$
$t_2=a_{20}-t_3u_{23},$

$u_{12}=t_2/d_2,$
$u_{02}=t_2/d_2,$

$d_1=a_{11}-t_2u_{12}-t_3u_{13}$
$t_1=a_{10}-t_2u_{12}-t_3u_{13},$

$u_{01}=t_1/d_1,$

$d_0=a_{00}-t_1u_{01}-t_2u_{02}-t_3u_{03}$

В такой записи получается, что значения dn нам нужны только в знаменателе. Если мы делаем это разложение, чтобы обратить матрицу "на месте", то мы можем прямо "на лету" заносить вместо самих значений dn обратные, как-то так:

$t_3=a_{33}$
$t_3=a_{32},$
$t_3=a_{31},$
$t_3=a_{30},$

$d_3^{(-1)}=1/t_3$
$u_{23}=t_3d_3^{(-1)},$
$u_{13}=t_3d_3^{(-1)},$
$u_{03}=t_3d_3^{(-1)},$

$t_2=a_{22}-t_3u_{23}$
$t_2=a_{21}-t_3u_{23},$
$t_2=a_{20}-t_3u_{23},$

$d_2^{(-1)}=1/t_2$
$u_{12}=t_2d_2^{(-1)},$
$u_{02}=t_2d_2^{(-1)},$

$t_1=a_{11}-t_2u_{12}-t_3u_{13}$
$t_1=a_{10}-t_2u_{12}-t_3u_{13},$

$d_1^{(-1)}=1/t_1$
$u_{01}=t_1d_1^{-1},$

$t_0=a_{00}-t_1u_{01}-t_2u_{02}-t_3u_{03}$

$d_0^{(-1)}=1/t_0$

В такой записи нам нужно всего лишь N взятий обратной величины, так что даже при отсутствии аппаратного деления нас это не шибко затормозит (метод Ньютона - наше всё!). Размер вспомогательного массива возрос до N. По идее, можно обращать dj "сразу же", не запихивая их сначала в tj, но так получается более логичный код.

Все остальные выражения очень хорошо ложатся на наше "умножение с накоплением" (Fused Multiply-Add, FMA, и Fused Multiply-Subtract, FMS), тогда как исходные выражения этому не удовлетворяли, поскольку требовали перемножить 3 значения, и лишь затем результат прибавлять к результату. В результате мы не только получаем компактный и быстрый код, он ещё и обладает хорошей точностью за счёт того, что накопление производится во всех 32 битах, и лишь результат записывается в 16 бит.

Не будем подсчитывать отдельно сложения и умножения, нас интересует число операций FMA/FMS.

При обработке столбца под номером n, нам требуется n-1 умножений, чтобы временные значения tj помножить на диагональные элементы. Ещё мы вычисляем n временных значений, причём на первое не требуется арифметических операций вообще, на второе - одна операция FMS, на третье - 2 операции, и на значение n: n-1 операций. В общей сложности это получается n(n-1)/2, и ещё n-1, это получается (n-1)(n+2)/2 = n2/2+n/2-1.

Просуммировав n от 1 до N, получаем количество операций FMA/FMS: N3/6+N2/2-(2/3)N. Асимптотически совпадает с тем, что мы посчитали в LDLT-разложении (т.е коэф 1/6 при N3), но на малых значениях N чувствуется существенный выигрыш:

При N=4 в прошлый раз у нас вышло 6 делений, 16 умножений и 10 сложений. В этот раз: 4 взятия обратной величины и 16 операций FMA/FMS.
При N=6 в прошлый раз получалось 15 делений, 50 умножений и 35 сложений, а теперь: 6 взятий обратной величины и 50 операций FMA/FMS.
Причём, это ЕДИНСТВЕННЫЕ 6 взятий обратной величины, которые нужны для обращения матрицы A, больше не будет!

Понятно, что разница здесь не в том, используется ли LDLT или UDUT, а в последовательности выполнения операций и способа введения вспомогательного массива.

странные девайсы, математика, ПЛИС, работа