Кросспост из
блога автора. Комментировать лучше
там, но можно и тут
Приехали первые (короткие) CX4-кабели и я начал поднимать Infiniband прямо на столе (до сервера эти кабели не дотянутся).
Собственно, исходно я
клюнул на IB из соображений поразвлечься. Имею сказать, что развлекся я уже по полной программе, эти $69 себя уже окупили полностью.
Две машины, Win 7 x64 и Ubuntu 11.10.
Ставим драйвера (OFED 3.0 под Windows, драйвера из поставки в Убунте, кажется это Linux OFED 1.4.x), всовываем кабель, запускаем opensm, имеем в первом приближении счастье: PORT_ACTIVE
Во втором приближении - тоже счастье, ibping работает.
В третьем приближении - несчастье. IPoIB - не работает. И Win-Win и Win-Linux ситуация одинаковая, под Win-Win пробовал кроме OFED 3.0, еще и 2.3 и родной Mellanox-овский стек 2.1.2. Во всех случаях ping не пингает, причем из порта (по данным tcpdump) ничего не вылезает.
Присматриваюсь повнимательнее, вижу что вместо LinkWidth 4X имею 1X.
Начинаю гуглить, нагугливаю, что такое (1X вместо 4X) иногда бывает. Стандартная метода борьбы - поставить нужный link width через ibportstate и поресетить порт свитча. Но у меня свитча то нету!
opensm, конечно, ресетит интерфейсы, но при этом ставит LinkWidthEnabled согласно LinkWidthSupported т.е. в положение "1X или 4X", после чего оно коннектится в 1X.
Нахожу еще бедолагу, у которого было нечто похожее, при этом на 1X не работал IPoIB, а на 4X - работал. Хотя должен и так и эдак. Бедолага вышел из положения попатчив opensm. Ну, я ничем не хуже, попатчу и я, чтобы LinkWidthEnabled ставился перед ресетом в 4X.
Попатчил. Получил коннект в состоянии "Training". Если потом запустить непатченый opensm, то он ставит "1X or 4X" и все совокупляется в 1X (и IPoIB продолжает не работать).
Единственная гипотеза пока, что кабеля хреноватые (я самые дешевые покупал, по $16), буду ждать следуюшей порции, если и она не поможет - схожу на поклон в Ринет.
Есть ли еще идеи? Ну кроме той, что надо взять два линукса, наисвежайший OFED и попробовать с ними. Это можно, но это на крайний случай, у меня линуксная машина пока одна.
За последние два дня прочитал по IB столько, что еще немного и смогу курсы вести, блин.