Самасшедший день...

Nov 04, 2013 22:13

Да, я в курсе, что сегодня в России выходной, что все белые люди отдыхают. Я тоже, вроде как, отдыхаю. Но всё как всегда, день начинался хорошо, но потом я проснулся...

Началось всё с того, что наконец-то объявился старый глюк с OpenVPN, у меня поднята общая сетка между несколькими точками, так, чисто для удобства. Плюс, на одном сервере расшарена папка, куда персонал складывает всякие свои файлики, типа отчётов и графиков, и всё это доступно в остальных точках. Так вот, месяца два как, мне крайне иногда начали жаловаться, что эта папочка перестаёт работать, жалуются из точек, которые ходят в эту папочку через туннель. Быстрый разбор показал, что сервер, где расшарена эта папочка, не отвечает по своему IP внутри туннеля, при этом из локалки IP доступен, а между локалкой и туннелем поднят мост. В общем, чудеса какие-то. Перезапуск OpenVPN'а помогает, до следующего раза.
После какого-то очередного такого глюка была замечена корреляция с отключением электричества на одной из точек. После того, как питание восстанавливается, в логах на всех серверах появляется нечто подобное:
kernel: [3490630.774309] net_ratelimit: 61 callbacks suppressed
kernel: [3490630.774321] br0: received packet on tap0 with own address as source address
kernel: [3490630.784105] br0: received packet on tap0 with own address as source address
kernel: [3490630.794102] br0: received packet on tap0 with own address as source address
kernel: [3490630.803007] br0: received packet on tap0 with own address as source address
kernel: [3490630.813234] br0: received packet on tap0 with own address as source address
kernel: [3490630.822795] br0: received packet on tap0 with own address as source address
kernel: [3490630.831724] br0: received packet on tap0 with own address as source address
kernel: [3490630.840669] br0: received packet on tap0 with own address as source address
kernel: [3490630.852307] br0: received packet on tap0 with own address as source address
kernel: [3490630.864221] br0: received packet on tap0 with own address as source address
kernel: [3490635.793756] net_ratelimit: 512 callbacks suppressed
kernel: [3490635.793766] br0: received packet on tap0 with own address as source address
kernel: [3490635.802406] br0: received packet on tap0 with own address as source address
kernel: [3490635.811583] br0: received packet on tap0 with own address as source address
kernel: [3490635.820526] br0: received packet on tap0 with own address as source address
kernel: [3490635.829241] br0: received packet on tap0 with own address as source address
kernel: [3490635.838186] br0: received packet on tap0 with own address as source address
kernel: [3490635.847052] br0: received packet on tap0 with own address as source address
kernel: [3490635.855706] br0: received packet on tap0 with own address as source address
kernel: [3490635.864519] br0: received packet on tap0 with own address as source address
kernel: [3490635.873186] br0: received packet on tap0 with own address as source address
kernel: [3490640.813211] net_ratelimit: 541 callbacks suppressed
kernel: [3490640.813219] br0: received packet on tap0 with own address as source address
kernel: [3490640.822430] br0: received packet on tap0 with own address as source address
kernel: [3490640.832189] br0: received packet on tap0 with own address as source address
kernel: [3490640.842118] br0: received packet on tap0 with own address as source address
kernel: [3490640.852396] br0: received packet on tap0 with own address as source address
kernel: [3490640.862096] br0: received packet on tap0 with own address as source address
kernel: [3490640.871093] br0: received packet on tap0 with own address as source address
kernel: [3490640.880890] br0: received packet on tap0 with own address as source address
kernel: [3490640.890433] br0: received packet on tap0 with own address as source address
kernel: [3490640.900284] br0: received packet on tap0 with own address as source address
Сначала думал, что это проектор гадит, т.к. только он не подключён к ИБП. Соответственно, отключил его от сети, но сегодня эта петрушка повторилась и стало ясно, что это не проектор. После более детального изучения логов, увидел, что один древний свитч перезапускается вместе с отключением электричества. И после перезапуска начинает срать в сеть. Свитч этот старенький 3Com, причём, с ним уже были проблемы - вздулись конденсаторы в БП, соответственно, перепаивались. В общем, завтра надо будет заменить эту железку.

Это было начало дня.
Пока изучал логи с проблемой описанной выше, обнаружил интересную ошибку в логах:
varnishd[3054]: Child (31757) died signal=6
varnishd[3054]: Child (31757) Panic message: Assert error in Tcheck(), cache.h line 1004:#012 Condition(t.b <= t.e) not true.#012thread = (cache-worker)#012ident = Linux,3.2.0-2-686-pae,i686,-smalloc,-smalloc,-hcritbit,epoll#012Backtrace:#012 0x807c247: pan_ic+f7#012 0x8078b5f: http_FilterFields+27f#012 0x807f990: RES_BuildHttp+c0#012 0x805d9db: cnt_prepresp+25b#012 0x806102a: CNT_Session+82a#012 0x807e0a5: wrk_do_cnt_sess+f5#012 0x807e5f6: wrk_thread_real+446#012 0x807eca0: wrk_thread+a0#012 0xb7606c39: _end+af53768d#012 0xb757427e: _end+af4a4cd2#012sp = 0xab0ee004 {#012 fd = 26, id = 26, xid = 2140562441,#012 client = ***.***.***.*** 34283,#012 step = STP_PREPRESP,#012 handling = deliver,#012 err_code = 200, err_reason = (null),#012 restarts = 0, esi_level = 0#012 flags = #012 bodystatus = 4#012 ws = 0xab0ee054 { #012 id = "sess",#012 {s,f,r,e} = {0xab0ee7cc,+172,(nil),+16384},#012 },#012 http[req] = {#012 ws = 0xab0ee054[sess]#012 "GET",#012 "/***/***.***",#012 "HTTP/1.1",#012 "User-Agent: *****",#012 "Host: ***.***.***.***:****",#012 "Accept: */*",#012 },#012 worker = 0xb746f004 {#012 ws = 0xb746f1e8 { #012 id = "wrk",#012 {s,f,r,e} = {0xb7468fb0,0xb7468fb0,(nil),+16384},#012 },#012 http[resp] = {#012 ws = 0xb746f1e8[wrk]#012 "HTTP/1.1",#012 "OK",#012 "Server: ******",#012 "Content-Type: application/octet-stream",#012 "Last-Modified: Mon, 04 Nov 2013 04:29:39 GMT",#012 "Accept-Ranges: bytes",#012 "Accept-Ranges: bytes",#012 "X-Varnish: 2011687253",#012 "Age: 0",#012 "Via: 1.1 varnish",#012 "Accept-Ranges: bytes",#012 "X-Varnish: 1527996135",#012 },#012 },#012 vcl = {#012 srcname = {#012 "input",#012 "Default",#012 },#012 },#012 obj = 0xa82e1400 {#012 xid = 2140562441,#012 ws = 0xa82e1410 { #012 id = "obj",#012
varnishd[3054]: Child cleanup complete
varnishd[3054]: child (15499) Started
varnishd[3054]: Child (15499) said Child starts
На этот счёт есть тикет. В общем, пришлось обновлять проксю.

Пока обновлял проксю, начали звонить по всяким глупым вопросам, типа, как переключить вход у проектора.

Только закончил с проектором, как на другой точке принтер перестаёт печатать двухсторонние листы, печатает какую-то хрень и пишет: "Загрузите бумагу".

И, вроде как, после этого всё успокоилось... На пару часов... Звонят с другой точки - в сто десятый раз рассказываю, как вынуть застрявшую чековую ленту из термопринтера.

Примерно, одновременно с этим принтером, звонит менеджер и жалуется, что не может заслать новый текст на бегущую строку...

Ну, и под конец дня письмо:
This is an automatically generated mail message from mdadm
running on ***

A Fail event had been detected on md device /dev/md0.

It could be related to component device /dev/sdd1.

Faithfully yours, etc.

P.S. The /proc/mdstat file currently contains the following:

Personalities : [raid1]
md0 : active raid1 sdd1[2](F) sdb1[0]
976751872 blocks [2/1] [U_]

md1 : active raid1 sdc1[0] sde1[1]
312571072 blocks [2/2] [UU]

unused devices:

И вот после всего этого, неужели, у кого-то может повернуться язык, что системный администратор ничего не делает?!

я, железо, пиздец, линукс, linux, люди, hdd, жизнь, сервер, компьютер, советы, raid, о себе, секс

Previous post Next post
Up