Телеком-свинство

Sep 06, 2022 22:41


Вот тут я хаял разные ЦОДы. В том посте помимо прочего написал: "прямо сейчас не могу сказать ничего особенно плохого про StackTelecom". Ну вот. Теперь уже могу. Правда, не про сам ЦОД, а про аффилированного с оным одноимённого оператора связи. Который (внезапно) является якорным поставщиком телеком-услуг в данном ЦОДе.

Немного предыстории. У одной из обслуживаемых мной фирмочек там стоит пара шкафчиков с оборудованием. Они берут два аплинка. Один тот самый сабжевый "Стек Телеком", второй "Мегафон". Так исторически сложилось, как они въехали в тот датацентр в хрен знает каком две тысячи мохнатом году, так с тех пор никто ничего не менял и не переподключал. Своя ASка, BGP, всё как у людей. В силу специфики деятельности, у этой фирмочки есть куча разных IPSec-тоннелей с всевозможными контрагентами, которые терминируются на Juniper SRX.

И вот в какой-то момент часть из этих тоннелей начала достаточно часто падать, по два-три раза в сутки. Причём, с крайне странными симптомами. То renegotiation сеансовых ключей не пройдёт. То он "залипнет". То просто входящих ESP-пакетов нет по нескольку минут.

Я с ними измучался. И унитаз приносил, и жопу показывал и так на отладку ставил, и сяк, и дампы снимал, и трассировки, и чего только не. Отдельно усложняло задачу то, что подавляющее большинство контрагентов крайне тупые и говнистые. Навстречу не идут, нужные параметры не выставляют, тестовые IP-адреса для пингования зажимают из соображений "безопасности".

Ещё один момент, который всегда сильно сбивал меня с толку. Я всегда ставлю на мониторинг Zabbix-ом пингование каких-нибудь хостов "внутри" тоннеля и одновременно сам вражеский терминатор. Так вот, при возникновении "обрыва" тоннеля терминатор продолжал пинговаться, а хосты через тоннель - нет.

До последнего я подозревал очередные баги в прошивке Juniper-а, коих я за свою практику насобирал уже вагон и маленькую тележку. Но сегодня по большей части случайно таки нашёл и отстрелил где собака порылась. Сильно помог мне в этом один из не супер-говнистых контрагентов, который по моей просьбе зарядил у себя traceroute в сторону моего маршрутизатора. Его скрипт писал в лог трассировку каждые полминуты, потом они прислали всё это мне.

Выяснилось, что виноват в моих бедах тот самый "Стек Телеком". Письмо в техподдержку показало прекрасное.

Оказывается, у них там есть какой-то чудо-юдо шейпер с балансировщиком и прочими блядями, который просто молча дропает входящие пакеты при якобы превышении лимита пропускной способности канала по договору. "Якобы" - потому что по моим данным никакого превышения отродясь не было. Я по SNMP снимаю счетчики трафика непосредственно с портов маршрутизатора и сую всё это в графану. Если и были какие-то "забросы", то настолько кратковременные, что SRX-ы их даже не заметили, а потому не отобразили на графиках. Но тоннели-то падали не на секунды, а на минуты, иногда даже на десятки минут!

Далее техподдержка оператора начала лепить какие-то совсем уж гнилые отмазки на тему того, что типа, в договоре указана суммарная полоса. А она делится на несколько разных узлов в сети провайдера. Поэтому если я хочу получить пропускную способность N мегабит в секунду в рамках одной сессии, то я должен заказать у них по договору полосу N*2 Мбит/с. Потому что, мол, идет балансировка через два узла, каждый из которых будет пропускать по N Мбит/с.

Но это ещё не всё. Я сказал "какого [censored]" и попросил у них разблюдовку по потребленному трафику за последние три дня. Ну просто чтобы я посмотрел, сравнил со своими измерениями, нашел на тех и других графиках моменты обрыва тоннелей, поглядел насколько их статистика совпадает с моей и так далее. Хрен там! Прошла уже половина суток, они так и не смогли ничего прислать. Ты видел превышения полосы? И я не видел. А они где-то есть!

Нет, я всё понимаю. Очень многие хостеры и телекомы шейпят трафик. Но тогда они либо присылают письмо по факту срабатывания полисира в духе "такого-то мартобря мы вас изволили зарезать столько-то раз". Или можно зайти в личный кабинет и посмотреть графики потребления, увидеть где были "срезанные горбы". Но тут ни того, ни другого. Ни ответа, ни привета. Просто отбрасывание пакетов по заранее неизвестным критериям. И вызванная этим недетская куча проблем, которые я просто задолбался диагностировать.

Короче, "Стек Телеком" - просто эталоннейшие пидорасы. К ним втыкаться нельзя ну ни в коем случае, если вам дороги ваше время и нервы. Я сделаю всё, чтобы заменить этот говнотелеком на что-нибудь другое. Надеюсь, у меня получится убедить куроводство. Но и это ещё не конец истории.

Чтобы покамест минимизировать вероятность возникновения аналогичных проблем с тоннелями, я принудительно переключил исходящий трафик на "Мегафон" и одновременно искусственно удлинил путь в BGP-анонсах через "Стек" аж на три AS-ки. Ну чтоб "с гарантией". И что бы вы думали, входящий трафик через "Стек" сразу после этого сошел на нет?

Ага, щаззз, разбежался! Билайн, Ростелеком, Глобус-Телеком, Макомнет, Старлинк (не тот который Илон Маск) продолжают всё равно маршрутизировать через "Стек Телеком" несмотря на существенное удлинение маршрута. Это только те, на которых я лично смог проверить. То ли они настолько не любят "Мегафон", то ли "Стек" сделал им всем предложение, от которого невозможно отказаться. И это ещё одна весомая причина выпилить этот самый Стек к хуям. Ну что это такое, когда я вообще никак не могу повлиять на пути входящего трафика? А если я захочу по каким-то причинам временно отключить этот аплинк, только совсем BGP-сессию рвать? Ну спасибо, серверный олень.

Вот такое телеком-свинство. Сетевая нейтральность? Нет, не слышали!

козлы, ненависть, ссылки, ЦОДы, сети, трудовыебудни, телекомы

Previous post Next post
Up