У нас есть цветная картинка, размером 6 х 6 пикселей и два 3 х 3 фильтра, которые на выходе дают две матрицы размера 4 х 4:
Для того, чтобы превратить эту свёртку в полноценный слой CNN, нужно к получившимся матрицам добавить bias (b1 и b2) и отправить эту сумму на вход нелинейной функции, например ReLU:
на выходе получится две матрицы 4 х 4.
Слой обычной NN выглядит как вычисление z:
и применение к полученному результату нелинейной функции:
Если проводить параллели между CNN и обычной NN, то a[0] - это исходная картинка, а параметры w[1] - это значения фильтров:
В результате этой операции a[0] размера 6 х 6 х 3, пройдя через один слой CNN, превращается в a[1] размера 4 x 4 x 2
Если фильтров будет не 2, а, например, 10, то на выходе размер будет, соответственно, 4 x 4 x 10.