UUT-разложение Холецкого: nabbla1

nabbla1

UUT-разложение Холецкого

Nov 26, 2019 16:45

Продолжаю биться головой об стену, искать наиболее подходящий способ работы с симметричной положительно определённой матрицей 6х6 в целых числах.

Первая идея была - LDLT-разложение, за ним обращение унитреугольной матрицы и получение обратной исходной матрицы (или решение системы уравнений). Также между делом разобрались с индийским методом и обнаружили, что он давным-давно был реализован на фортране.

Потом подумалось, что для нашего процессора удобнее сделать UDUT-разложение - концептуально то же самое, но все циклы делаются "снизу вверх", от бОльших значений до нуля, что позволяет использовать "инструкции" iLoop/jLoop/kLoop (если регистр больше нуля - вычесть единичку и перейти по заданному адресу, иначе ничего не делать).

Но увы, оба метода оказались очень "капризными" - как я ни пытаюсь масштабировать неизвестные, а при разложении обязательно где-то нарываюсь на переполнение! В общем-то, задним числом я мог это предвидеть... Если исходная матрица:

$\left(\begin{array}{cccccc}38&-&-&-&-&-\\1&2&-&-&-&-\\-4&0&2&-&-&-\\1&-2&0&7&-&-\\478&-1&-160&56&23952&-\\70&161&0&-205&0&23952\end{array}\right)$

то в процессе разложения диагональные элементы могут только УМЕНЬШАТЬСЯ. И хорошо, если не до нуля (и того ниже), поскольку это будет означать, что матрица не является положительно определённой. Возможно, она была такой, но ошибки вычислений изменили её вид.

А поскольку при нахождении элементов ВНЕ диагонали, их рано или поздно делим на диагональные, то и получаем огромный размах промежуточных значений, который упорно не лезет в наш диапазон [-1;+1].

Ясно, что можно избежать такой проблемы, если нарастить разрядность чисел, либо перейти к плавающей точке, либо как-то более удачно ввести 6 степеней свободы.

Но есть и ещё одна идея: может, надо перестать бояться и полюбить квадратный корень? Да, операция не самая приятная в плане реализации в целых числах, но зато у нас одним махом падает разброс между значениями, какой наблюдается сейчас: вместо соотношения почти 1 : 10000 (еле-еле помещается в 16 бит), у нас выйдет всего лишь 1 : 100, и теперь операции деления станут совсем не страшны.

Вместо этих LDLT и UDUT-разложений, которые были придуманы, чтобы избавиться от квадратных корней, попробуем старое доброе разложение Холецкого, но не классический вариант LLT, а вариант "задом наперёд" UUT для нашего Quat Core.

Чтобы вконец не одуреть, вбивая формулы TeX, снова ограничимся матрицей 4×4 - на ней уже видны все 3 вложенных цикла.

Нужно представить симметричную положительно определённую матрицу A в виде произведения верхней треугольной матрицы U на себя же транспонированную:

$A=UU^T=\left(\begin{array}{cccc}u_{00}&u_{01}&u_{02}&u_{03}\\0&u_{11}&u_{12}&u_{13}\\0&0&u_{22}&u_{23}\\0&0&0&u_{33}\end{array}\right)\left(\begin{array}{cccc}u_{00}&0&0&0\\u_{01}&u_{11}&0&0\\u_{02}&u_{12}&u_{22}&0\\u_{03}&u_{13}&u_{23}&u_{33}\end{array}\right)$

Перемножим их:

$A=UU^T=\left(\begin{array}{cccc}u_{00}^2+u_{01}^2+u_{02}^2+u_{03}^2&u_{01}u_{11}+u_{02}u_{12}+u_{03}u_{13}&u_{02}u_{22}+u_{03}u_{23}&u_{03}u_{33}\\u_{01}u_{11}+u_{02}u_{12}+u_{03}u_{13}&u_{11}^2+u_{12}^2+u_{13}^2&u_{12}u_{22}+u_{13}u_{23}&u_{13}u_{33}\\u_{02}u_{22}+u_{03}u_{23}&u_{12}u_{22}+u_{13}u_{23}&u_{22}^2+u_{23}^2&u_{23}u_{33}\\u_{03}u_{33}&u_{13}u_{33}&u_{23}u_{33}&u_{33}^2\end{array}\right)$

Как и должно быть, результат умножения - симметричная матрица. Для наглядности, уберём повторяющиеся значения из верхнего треугольника:

$\left(\begin{array}{cccc}a_{00}&-&-&-\\a_{10}&a_{11}&-&-\\a_{20}&a_{21}&a_{22}&-\\a_{30}&a_{31}&a_{32}&a_{33}\end{array}\right)=\left(\begin{array}{cccc}u_{00}^2+u_{01}^2+u_{02}^2+u_{03}^2&-&-&-\\u_{01}u_{11}+u_{02}u_{12}+u_{03}u_{13}&u_{11}^2+u_{12}^2+u_{13}^2&-&-\\u_{02}u_{22}+u_{03}u_{23}&u_{12}u_{22}+u_{13}u_{23}&u_{22}^2+u_{23}^2&-\\u_{03}u_{33}&u_{13}u_{33}&u_{23}u_{33}&u_{33}^2\end{array}\right)$

Здесь соотношения даже проще, чем при LDLT или UDUT-разложении, никаких временных массивов вводить не надо, и работать можно как по строкам, так и по столбцам. Главное - начинать с правого нижнего угла и двигаться к левому верхнему.

Проще всего, видимо, начать с нижней строки, пройдя по ней справа налево, перейти строкой выше, и так далее.

Каждый раз мы начинаем с элемента на главной диагонали, он обрабатывается особо:
$u_{33}=\sqrt{a_{33}}$

Далее идут "обычные" элементы:
$u_{23}=a_{23}/u_{33},$

$u_{13}=a_{13}/u_{33},$

$u_{03}=a_{03}/u_{33},$

После этого значение u33 нам больше не понадобится. Следовательно, мы можем сразу же найти обратную к нему величину, и все деления заменить на умножения. Пока этого не делаю, потому что не очень понятно, как поступать с масштабом. Если исходно значения на диагонали были в диапазоне от 1/32768 до 1 (мы работает с числами 1.15, т.е с помощью целочисленных 16 бит изображаем значения от -1 до 1-2-15), после извлечения квадратного корня они окажутся в диапазоне 0,0055..1, значит, после взятия обратной величины получим диапазон 1..181. Потом ещё подумаем, а пока что просто будем делить два целых числа одно на другое и надеяться, что переполнения не случится.

Переходим на строку выше:
$u_{22}=\sqrt{a_{22}-u_{23}^2},$

$u_{12}=(a_{12}-u_{13}u_{23})/u_{22},$

$u_{02}=(a_{02}-u_{03}u_{23})/u_{22}$

Всё хорошо: в каждой формуле в правой части только те величины, которые нам уже известны, причём исходное значение aij используется всего один раз, после чего вместо него мы используем uji. Значит, это преобразование элементарно делается "на месте".

И ещё на строку выше:
$u_{11}=\sqrt{a_{11}-u_{12}^2-u_{13}^2},$

$u_{01}=(a_{01}-u_{02}u_{12}-u_{03}u_{13})/u_{13}$

и наконец, один элемент верхней строки:
$u_{00}=\sqrt{a_{00}-u_{01}^2-u_{02}^2-u_{03}^2}$

Каждый раз, когда мы работаем с элементом (i,j), i-номер строки, j-номер столбца, мы берём его начальное значение и вычитаем скалярное произведение двух векторов - первый образован элементами ПОД текущим. Это элементы (i+1,j), (i+2,j), ... (N-1, j).

Второй вектор образован из элементов (i+1, i), (i+2,i), ..., (N-1, i), см. рисунок. Мы как бы идём от текущего элемента вправо, затем "отражаемся" от главной диагонали:

В матрице N×N нужно произвести лишь N извлечений квадратного корня, так что даже если эта операция окажется трудозатратной, вряд ли именно она окажет решающее влияние на производительность данного алгоритма.

Посмотрим, как выглядит UUT-разложение для матрицы из начала поста:
$U^T=\left(\begin{array}{cccccc}939&-&-&-&-&-\\127&166&-&-&-&-\\-161&8&172&-&-&-\\38&-50&30&409&-&-\\559&-1&-187&66&28015&-\\82&188&0&-240&0&28015\end{array}\right)$

Такая матрица производит хорошее впечатление - на главной диагонали нет совсем маленьких, околонулевых значений, и в целом почти все значения имеют один порядок величины.

Если попытаться для той же матрицы выполнить LDLT-разложение, мы "упрёмся" почти что сразу, попытавшись заменить a40=478 (что означает 478/32768≈0,0146) на 478/38, что СИЛЬНО больше единицы, из-за чего получим переполнение. UDUT-разложение провести можно (это одна из причин, почему я начал его рассматривать), получим такую матрицу (в ней объединены нижняя унитреугольная и диагональная):

$U^T=\left(\begin{array}{cccccc}27&-&-&-&-&-\\20091&1&-&-&-&-\\-26390&2245&1&-&-&-\\3112&-9076&2464&5&-&-\\654&-1&-219&77&23950&-\\96&220&0&-280&0&23950\end{array}\right)$

Как видно, на главной диагонали стоит две единицы (то есть значения 1/32768), а это означает, что ненулевые значения вектора 6х1 в этих позициях при решении системы линейных уравнений сразу же приведут к переполнению.

Элементы вне диагонали существенно возросли по амплитуде, тоже едва не приводя к переполнению, причём, если я начинаю масштабировать первые 3 параметра, то переполнение наступает.

Так что по первому впечатлению, UUT (или LLT) - разложение в данном случае лучше подойдёт. Посмотрим...

странные девайсы, математика, ПЛИС, работа