Сейчас мне лень глубоко думать на эту тему, но быстрый и наверняка неправильный хак моего симулятора в сторону снижения расходов на инферсию показал, что схема 4-хбитного сумматора в асинхронном режиме выполняется за вдвое меньшее количество шагов по вентилям.
i:carry -> _____________------------
i:x_1 -> _------------------------
i:x_2 -> _------------------------
i:x_3 -> _------------------------
i:x_4 -> _------------------------
i:y_1 -> _________________________
i:y_2 -> _________________________
i:y_3 -> _________________________
i:y_4 -> _________________________
o:outcarry -> _xxxxx_______xxxxx-------
o:outpropagate -> _xxx---------xxx---------
o:s_1 -> _xxx---------xxx_________
o:s_2 -> _xxxx--------xxxx________
o:s_3 -> _xxxxxx------xxxxxx______
o:s_4 -> _xxxx--------xxxx________
Удивительно.
Это обязательно надо исследовать еще внимательней.