Страница 1 из 1

Периодически стал тихо и наглухо виснуть сервак.

Добавлено: 2018-11-24 22:32:30
Духовитин
Товарищи, добрый день!

Поделитесь своими соображениями, что такое может быть с серваком.
Железо: CPU: AMD FX-6300, RAM: 2*8Gb, HDD SATA 1TB *2 - ZFS Mirror.
ОС: FreeBSD 11.2 amd64 r340490

С недавних пор стал ни с того ни с сего на выходных ночью зависать. Нагрузки ночью на сервак никакой, стоит он в серверной с кондиционером и упсом.
Симптомы вообще странные. Утром пришёл его чинить, на мониторе в консоли последние сообщение от одной из прог что типа не может записать ничего в лог файл, т.к. его нет. Как будто диски просто выпали из системы. Но если диски из системы выпадают, то на главную консоль об этом идут сообщения, а тут пустота.
По сети сервак не виден, на клаву не реагирует. Выключил его/включил пашет как ни в чём не бывало. Но вечером и похоже что даже в такое-же время он снова завис. Завтра снова пойду.

Единственное что как-то у этого сервера в жизни поменялось, так это рядом с ним в стойке появились две недели назад два других сервака, со своим упсом. Думаю, может какая херня там этим упсом нагрузку в сети скачкообразно делает и сервант мой виснет?

Может было у кого что подобное? Ну и ещё из того что наблюдается, от корпуса сервака этого током бьёт. Может это тоже быть причиной для подобных проблем?

Периодически стал тихо и наглухо виснуть сервак.

Добавлено: 2018-11-25 16:12:06
snorlov
током бьет... Офигеть...И при этом на бесперебойнике висит... в похожей ситуации я остался и без блока питания и без ИБП... Вам на дополнительные серваки 220 вольт нормально развели... А то ведь могли на ваш сервак развести ненормально, а на эти как надо...

Периодически стал тихо и наглухо виснуть сервак.

Добавлено: 2018-11-26 22:10:35
Demis
Проверить "фазность" на входе всех устройств UPS.
Что имеется ввиду?
Если несколько розеток на стенке серверной, то они с одной фазы запитаны или с разных?
Если разные фазы, то какие упсы? Настоящие смарты или так-себе.
Целый-ли "0"?
Исправность "земли" всех розеток?
Стойка к "земле" подключена?
Прежде чем прозванивать промерять напряжения тестером на всех режимах (переменное и постоянное напряжения).
Обязательно промерять входное напряжение на всех упсах под нагрузкой, на предмет "оно одинаковое" или нет.
Как именно это осуществить в Вашем случае - соображать Вам.

Есть высокая вероятность, что это два разных косяка.
Т.е. добавленные серваки могут быть и не причем.

По зависающему серваку:
1. Вспомнить когда менялись настройки в биос.
2. Не трогался-ли ACPI и какой-нибудь тротлинг.
3. Примерное время заморозки? Если, примерно, около времени формирования ночных отчетов, то это "теплее" к п.1 и п.2.
4. Сталкивался с ерундой возникающей в самом железе если в биосе не выставлено что-то вроде "управление питанием для виндовс" (запамятвовал дословно). Лечилось выставлением "да виндовс это" и дебаг ACPI+устранение всех ошибок по оному+подгрузка измененной схемы при каждом запуске FreeBSD.
5. Изменяется-ли поведение если сервак выключить, потом обесточить, от слова совсем, т.е. провода отсоединить на 15-20 секунд.
6. Как давно работает "ОС: FreeBSD 11.2 amd64 r340490"? И небыло-ли косяков при апдейте?
7. Ну про пыль на вентияторах процессоров, термопасту и вздутые конденсаторы на мат.плате - молчу, подразумевая, что все в ажуре и гарантировано проверено.

Все написанное НЕ руководство к действию, но путь проверки.
Т.к. можно попалить все если начать "тупо" тыркаться проводочками.

8. И давно-ли на нем zfs? Он тоже на 11.2 может фокусы подкидывать.

Периодически стал тихо и наглухо виснуть сервак.

Добавлено: 2018-12-05 21:21:10
Духовитин
Товарищи, эта загадочная история ещё неокончена.

В итоге этот сервак запитал в тот же упс, на котором остальные 2 висят.
УПС Ippon Smart 2000VA, не топ конечно, но нагрузку держит. Сейчас у него нагрузка с тремя серваками показывает не более 20% (1 деление из 5).

В серваке проблемном устал всё проверять и каждое утро лететь на работу чтоб его ребутнуть и заменил всю платформу. (Мать, проц, память, новый БП на 600вт), прежними остались только диски и 2 сетевухи Intel'овые. Одна PCI, другая PCI-Express.
Так вот сегодня ночью он ровно в 2 часа ребутнулся. Ну ребутнулся это уже не так ужасно как завис намертво, по крайней мере продолжает работать и не надо сломя голову утром лететь его оживлять. Странно что ровно в 2 часа ночи. Посмотрел в cron, никаких задач нет на это время. В логах никаких сообщений, пиздец полтергейст какой-то.

Demis, по поводу твоих пунктов:
1. Не менялись. Он полтора года стоял и знать я про него забыл уже. Только по ssh заходил.
2. Нет не трогался. В процессе поиска причин проблемы проверял и температуру проца и powerd пробовал включать ограничивая максимальную частоту проца. Не влияет.
3. Исключительно ночь. Но от нагрузки это не зависит. Я запускал пересборку мира в 8 потоков, и это его не гробит.
4. На выходных погляжу, сейчас не буду вырубать его.
5. Нет, делал это несколько раз (БП менял, платформу заменял, память менял) - не влияет.
6. С 17 ноября. Косяков при апгрейде не было, но сейчас на всяк случай обновляю до актуального 11.2-STABLE, а то какие-то уязвимости недавно закрыли.
7. Чистый, как на выходных все внутренности поменял, поставлено всё чистое, но и до этого чистое всё было. Насчёт кондёров, оглядел мельком, но вроде нет проблемных.
8. ZFS с самой установки сервака. 2 года работает, или работала :(

Периодически стал тихо и наглухо виснуть сервак.

Добавлено: 2018-12-05 21:36:59
Demis
Скорее склоняюсь, что проблема софтовая, а не железная.
А как обновлялись?
Перекомпиляцией или апдейтом?
Если первое, то кастом или генерик?
Если второе то, есть подозрение, что часть системных скриптов "не та".

Периодически стал тихо и наглухо виснуть сервак.

Добавлено: 2018-12-05 21:40:30
Духовитин
Обновлялся make buildworld'ом всё как положено с mergemaster -p и mergemaster'ом.
Ядро кастом, но оно с момента начальной генерации сервака не менялось.

Периодически стал тихо и наглухо виснуть сервак.

Добавлено: 2018-12-08 14:12:04
Alex Keda
powerd отключите
была похожая проблема из-за него

Периодически стал тихо и наглухо виснуть сервак.

Добавлено: 2018-12-10 10:47:35
Demis
Такс...
Все-таки кастом....
А можете на генерике проверить/поработать?
Хочу исключить вариант о котором писалось здесь:freebsd-f8/strannaya-problema-s-zfs-i-s ... ml#p385971. Вариант, конечно, совсем не Ваш, но подумалось нет-ли примерно такого-же эффекта.

Периодически стал тихо и наглухо виснуть сервак.

Добавлено: 2018-12-12 22:00:12
Духовитин
Извините что пропал Уважаемые, сменив платформу полностью проблемы ушли.
Перезагрузка в первую ночь "с новой платформой" видимо была просто случайностью.

Но опять же точно неизвестно, потому что на всяк случай я ещё раз пересобрал до актуального -STABLE мир, абсолютно по-честному произвёл обновление, чтобы исключить
Demis писал(а):
2018-12-05 21:36:59
Если второе то, есть подозрение, что часть системных скриптов "не та".
Alex Keda писал(а):
2018-12-08 14:12:04
powerd отключите
была похожая проблема из-за него
не похоже, т.к. он и так на этом серваке отключен. Ибо есть кондиционер :)
Demis писал(а):
2018-12-10 10:47:35
Хочу исключить вариант о котором писалось здесь:freebsd-f8/strannaya-problema-s-zfs-i-s ... ml#p385971.
ну да, точно не мой вариант :) Ни нетграфа, ни дебагов в ядре у меня нет. IPFIREWALL только из перечисленного там :)

Для исключения "железного" источника проблемы надо бы заменённую платформу погонять. Там из компонентов - мать, проц, плашка памяти и видяха. Погоняю этот комплект в свободное время.

Всем спасибо за участие!

Периодически стал тихо и наглухо виснуть сервак.

Добавлено: 2018-12-13 12:28:45
snorlov
Может вечная проблема в электролитах))))))))))))

Периодически стал тихо и наглухо виснуть сервак.

Добавлено: 2018-12-13 12:51:25
Demis
snorlov писал(а):
2018-12-13 12:28:45
Может вечная проблема в электролитах))
Очень может быть... Было такое на домашнем. И именно "ночное", т.е. когда стандартные репорты генерятся. Самое смешное, что машинка там всегда в работе и чего-то делает, но именно на репортах приходил каюк. Паяльник все исправил...