Три левелапа

Jul 25, 2007 09:46

Философское: жизнь - это РПГ. Каждый данж или эвент либо сливает тебе экспу, либо левелапит.

Техногиковское:

Суть проблемы - сервер (контроллер домена, эксейнж, проджект, шарепоинт, держатель глобального каталога, схемы и т.д.) в результате "прискорбной ошибки" загрузился с второго винта рейд 0 без самого рейда. После чего рейд был восстановлен, и загрузка пошла с первого. (т.е. один и тот же образ грузился дважды).

При этом намертво слетела синхронизация, а сообщение со второго контроллера домена выглядело примерно так:

Event Type: Error
Event Source: Kerberos
Event Category: None
Event ID: 4
Date: 24.07.2007
Time: 20:47:36
User: N/A
Computer: TYPO-SERVER
Description:
The kerberos client received a KRB_AP_ERR_MODIFIED error from the server host/second-server.domain.com. The target name used was LDAP/650986b5-12db-4081-8a82-bea7efdaf4e1._msdcs.domain.com. This indicates that the password used to encrypt the kerberos service ticket is different than that on the target server. Commonly, this is due to identically named machine accounts in the target realm (DOMAIN.COM), and the client realm. Please contact your system administrator.

For more information, see Help and Support Center at http://go.microsoft.com/fwlink/events.asp.

Фактически это проявлялось двумя проблемами:
* отсутствием репликации на сервер
* Переодическим "взбрыкиванием" эксчейнжа, он начинал запрашивать пароль у всех подряд (помогало gpupdate+reboot)

Решение проблемы (примерное время работ с учётом неторопливых перезагрузок сервера (3-10минут) составило около 5 часов).
* Сервер отключается от сети (можно совместить с профилактической перезагрузкой)
* На работающем контроллере домена необходимо убить все упоминания о сервере (глючащий сервер буду называть S1 в дальнейшем, второй (рабочий) сервер это S2, домен dom.ru). Для этого, взяв в руки ntdsutil стираем упоминания о нём. Выглядит это так (пишу по памяти, команды могут чуток по-другому называться):
(выполняется на S2)
metadata cleanup
connecting dom.ru
select operation target
list domains
select domain 0
list sites
select site 0
list servers in site
select server 0 (или другое число - см листинг от list servers in site)
list naming context
select naming context 0
quit
remove selected server (или remove selected - не помню точно)

Дальше всё это реплицируется (в случае сайтов - некоторое время)

Далее сложнее.
Надо на сервере S1 с отключенной сеткой убить нафиг _ВСЕ_ остальные контроллеры домена. Во всех сайтах (если надо, придётся преключаться между сайтами в select site). При этом важно не подключать сетку.

После ntdsutil остатки доудаляются в в оснастках Active Directory users and computers (если есть), в DNS, в Sites (на S1 можно не педантично, на S2 надо чистить тщательно).

После этого можно делать dcpromo на S1, следует сказать, что последний сайт в домене.

Выключаем нафиг все сервисы Exchange/Sharepoint/Project (не забываем про Simple Mail Transfer Protocol), IIS admin и все от него зависящие.

После этого меняем у компьютера SID, вводим в домен. Если взбрыкнётся "такое имя уже есть" (у меня взбрыкнулся), вводим под временным и переименовываем.

С поднятием назад как контроллера домена буду разбираться сегодня вечером.

P.S. В эту историю не включены рассказы про Certification Server.

P.P.S. Картинко (графический интерфейс пользователя - после печати в консоли remove selected server появляется графический запрос с подтверждением).


active directory, windows server

Previous post Next post
Up