Nov 27, 2017 12:33
Интересная история на днях приключилась с Ростелекомом (AS12389). В субботу 18.11 в 01:34 UTC обнаружил проблемы в работе IPSec ESP туннеля между Хабаровском (моя AS) и Екатеринбургом (посторонняя AS). Проблема оказалась очень интересная - 56 минут каждого часа внутри туннеля не ходят пакеты, при этом сам туннель не падает. Каждую 30 минуту часа туннель начинает работать корректно, а каждую 35ую - опять глючит. Отправил исходящий трафик (Хабаровск -> Екатеринбург) минуя Ростелеком, проблема ушла. Связался с коллегами (в т.ч. и из Ростелекома), все покрутили пальцем у виска. Весь вторник совместно с Ростелекомом пытались локализовать проблему - безуспешно.
В среду выловил аналогичную проблему, но уже с другим направлением (Хабаровск -> СПб), на этот раз блочился ICMP и TCP трафик (UDP почему-то ходил) и в другое время - в 48 минут каждого часа трафик начинал ходить, а в 53 минуты - переставал. Проблема наблюдалась только с конкретной связкой (некоторые IP из моего блока адресов - несколько конкретных IP по всей России). Вместе с РТ выявили, что проблема наблюдается даже в случае, если SRC IP = айпишник моего бордера (из блока РТ). При этом, если SRC IP = айпишник аплинка/BGP-соседа РТ- проблемы нет. Представители РТ дошли до москвы, и выяснили, что проблема кроется где-то на московском роутере. А в 6:05 UTC той же среды всё внезапно само заработало (видимо, в москве кто-то на работу пришёл).
internet,
work