Компьютерный форум OSzone.net  

Компьютерный форум OSzone.net (http://forum.oszone.net/index.php)
-   Windows Server 2016/2019/2022 (http://forum.oszone.net/forumdisplay.php?f=119)
-   -   [решено] Перезагрузки с ntoskrnl.wrong.symbols.exe (http://forum.oszone.net/showthread.php?t=354755)

goshanecr 04-01-2024 20:08 3022301

Перезагрузки с ntoskrnl.wrong.symbols.exe
 
Доброго дня уважаемые Спецы!

Посоветуйте пожалуйста, как найти причину периодических перезагрузок сервера.
Итого поциент: Windows 2016 Server x64, работает на виртуалке BHyVe под FreeBSD. Из задач на машине - RDP доступ с запуском клиентской части 1С-ки, которая уже цепляется к 1С серверу на другой машине.
1С - лицензионная, винда не совсем. Хост - AMD Ryzen 2600 + 32GB RAM. Диски на хосте исправные, зазеркалены. Память также исправна, прогонял. Сам хост проблем не испытывает, только виртуалка.
Подскажите, откуда начать копать?
Вот что выдаёт WinDBG минидампа:
Код:

Microsoft (R) Windows Debugger Version 10.0.22621.1778 AMD64
Copyright (c) Microsoft Corporation. All rights reserved.


Loading Dump File [C:\Windows\Minidump\010324-15703-01.dmp]
Mini Kernel Dump File: Only registers and stack trace are available


************* Path validation summary **************
Response                        Time (ms)    Location
Deferred                                      SRV*E:\Sym_WinDBG*http://msdl.microsoft.com/download/symbols
Symbol search path is: SRV*E:\Sym_WinDBG*http://msdl.microsoft.com/download/symbols
Executable search path is:
Unable to load image ntoskrnl.exe, Win32 error 0n2
*** WARNING: Unable to verify timestamp for ntoskrnl.exe
*Windows 10 Kernel Version 14393 MP (4 procs) Free x64
Product: Server, suite: TerminalServer
Machine Name:
Kernel base = 0xfffff803`c4497000 PsLoadedModuleList = 0xfffff803`c479ccd0
Debug session time: Wed Jan  3 10:05:15.336 2024 (UTC + 5:00)
System Uptime: 4 days 19:38:40.026
Unable to load image ntoskrnl.exe, Win32 error 0n2
*** WARNING: Unable to verify timestamp for ntoskrnl.exe
*************************************************************************
*Loading Kernel Symbols
.

Press ctrl-c (cdb, kd, ntsd) or ctrl-break (windbg) to abort symbol loads that take too long.
Run !sym noisy before .reload to track down problems loading symbols.

..............................................................
................................................................
........
Loading User Symbols
Loading unloaded module list
.....

************* Symbol Loading Error Summary **************
Module name            Error
ntoskrnl              The path is not available

You can troubleshoot most symbol related issues by turning on symbol loading diagnostics (!sym noisy) and repeating the command that caused symbols to be loaded.
You should also verify that your symbol search path (.sympath) is correct.
For analysis of this file, run !analyze -v
2: kd> !analyze -v
*******************************************************************************
*                                                                            *
*                        Bugcheck Analysis                                    *
*                                                                            *
*******************************************************************************

CRITICAL_PROCESS_DIED (ef)
        A critical system process died
Arguments:
Arg1: ffffb703d27e9800, Process object or thread object
Arg2: 0000000000000000, If this is 0, a process died. If this is 1, a thread died.
Arg3: 0000000000000000, The process object that initiated the termination.
Arg4: 0000000000000000

Debugging Details:
------------------

***** Kernel symbols are WRONG. Please fix symbols to do analysis.


KEY_VALUES_STRING: 1

    Key  : Analysis.CPU.mSec
    Value: 171

    Key  : Analysis.DebugAnalysisManager
    Value: Create

    Key  : Analysis.Elapsed.mSec
    Value: 14671

    Key  : Analysis.Init.CPU.mSec
    Value: 2390

    Key  : Analysis.Init.Elapsed.mSec
    Value: 66876

    Key  : Analysis.Memory.CommitPeak.Mb
    Value: 56


FILE_IN_CAB:  010324-15703-01.dmp

ADDITIONAL_DEBUG_TEXT: 
You can run '.symfix; .reload' to try to fix the symbol path and load symbols.

WRONG_SYMBOLS_TIMESTAMP: 64253b6e

WRONG_SYMBOLS_SIZE: 81f000

FAULTING_MODULE: fffff803c4497000 nt

DUMP_FILE_ATTRIBUTES: 0x8
  Kernel Generated Triage Dump

BUGCHECK_CODE:  ef

BUGCHECK_P1: ffffb703d27e9800

BUGCHECK_P2: 0

BUGCHECK_P3: 0

BUGCHECK_P4: 0

CUSTOMER_CRASH_COUNT:  1

STACK_TEXT: 
ffffcb80`b7330dd8 fffff803`c4b17da2    : 00000000`000000ef ffffb703`d27e9800 00000000`00000000 00000000`00000000 : nt+0x15d1c0
ffffcb80`b7330de0 00000000`000000ef    : ffffb703`d27e9800 00000000`00000000 00000000`00000000 00000000`00000000 : nt+0x680da2
ffffcb80`b7330de8 ffffb703`d27e9800    : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : 0xef
ffffcb80`b7330df0 00000000`00000000    : 00000000`00000000 00000000`00000000 00000000`00000000 ffffb703`d27e9800 : 0xffffb703`d27e9800


STACK_COMMAND:  .cxr; .ecxr ; kb

EXCEPTION_CODE_STR:  64253B6E

EXCEPTION_STR:  WRONG_SYMBOLS

PROCESS_NAME:  ntoskrnl.wrong.symbols.exe

IMAGE_NAME:  ntoskrnl.wrong.symbols.exe

MODULE_NAME: nt_wrong_symbols

SYMBOL_NAME:  nt_wrong_symbols!64253B6E81F000

FAILURE_BUCKET_ID:  WRONG_SYMBOLS_X64_TIMESTAMP_230330-073406_64253B6E_nt_wrong_symbols!64253B6E81F000

OSPLATFORM_TYPE:  x64

OSNAME:  Windows 10

FAILURE_ID_HASH:  {1af12a26-2ab5-d00c-80db-c221ddcf2701}

Followup:    MachineOwner
---------


NickM 04-01-2024 20:23 3022303

Файлы дампов приложить можете?

Система за NAT или доступна из глобальной сети? Может происходит попытка эксплуатации уязвимостей? В системные журналы заглядывали?

goshanecr 04-01-2024 20:42 3022305

Вложений: 1
NickM, добрый день!

Вот прикладываю минидамп.
Система за натом, извне недоступна. Более того, сервер 1С находится в одной с ней подсети, на такой же ОС, и с ним глюков не наблюдается.
В системных журналах ничего подозрительного в окрестностях времени краха системы нет. Только после самой перезагрузки стандартные уведомления о том, что система последний раз перезагрузилась неожиданно и т.п.

NickM 04-01-2024 23:21 3022308

Вот тут есть профильная тема по указанной ошибке.

Что видно в отладчике:

1. В системе отсутствуют крайние обновления;

2. Упал следующий процесс:
Скрытый текст
Код:

> !process ffffb703d27e9800
PROCESS ffffb703d27e9800
    SessionId: none  Cid: 02e0    Peb: fbecb45000  ParentCid: 0254
    DirBase: 403d15000  ObjectTable: ffffa002b2a38540  HandleCount: <Data Not Accessible>
    Image: svchost.exe
    VadRoot ffffb703d27e92c0 Vads 150 Clone 0 Private 2746. Modified 57. Locked 0.
    DeviceMap ffffa002adc16b20
    Token                            ffffa002b2a61060
    ReadMemory error: Cannot get nt!KeMaximumIncrement value.
fffff78000000000: Unable to get shared data
    ElapsedTime                      00:00:00.000
    UserTime                          00:00:00.000
    KernelTime                        00:00:00.000
    QuotaPoolUsage[PagedPool]        362744
    QuotaPoolUsage[NonPagedPool]      22984
    Working Set Sizes (now,min,max)  (6638, 50, 345) (26552KB, 200KB, 1380KB)
    PeakWorkingSetSize                6530
    VirtualSize                      2097237 Mb
    PeakVirtualSize                  2097249 Mb
    PageFaultCount                    10456
    MemoryPriority                    BACKGROUND
    BasePriority                      8
    CommitCharge                      3024

        *** Error in reading nt!_ETHREAD @ ffffb703d2c00080



Код завершения:
Код:

> dt nt!_EPROCESS ffffb703d27e9800 ExitStatus
  +0x62c ExitStatus : 0n-1073741818

Цитата:

0xc0000006 - The instruction at ... referenced memory at .... The required data was not placed into memory because of an I/O error status of ...
Что, зачастую указывает на проблему с накопителем.

Как вариант, попробуйте проверить файл виртуального накопителя и/ или переподключить его по новой, проверить ф/с виртуального накопителя.

Проверить состояние физического накопителя и ф/с на нём.

Проверить системные файлы и обновить Windows-систему.

Добавлено:
Возможно, что обойдётся обновлением драйверов для работы гостевой системы?

goshanecr 08-01-2024 13:25 3022423

Отписываюсь по этой истории: Обновления ставить - не готов. Там лицензионной чистоты нет, ну его. А нет ли наборов офлайн обновлений, как для настольных систем?

По драйверам - поставил, но в списке устройств - ни в каких устройствах, кроме сетевухи, в которой и до этого уже был драйвер от Virtio от RedHat - драйвера родные майкрософтовые остались. И была после этого (не сразу, а в последующем пользовании системы) опять спонтанная перезагрузка.

Сейчас я опцию в gpedit подкрутил связанную с принудительной выгрузкой отключенного сеанса пользователя. Там изначально при генерации сервака поставил, чтобы отключенный сеанс принудительно завершался, сейчас вот смотрел журналы и там запись о выходе моего пользователя (единственный админ в системе) был, в окрестностях времени перезагрузки. Короче отключил эту опцию - мониторю, если вдруг так, то было бы хорошо.

NickM 08-01-2024 13:38 3022425

Цитата:

Цитата goshanecr
А нет ли наборов офлайн обновлений, как для настольных систем? »

Так ведь обновления накопительные, скачал последнее и установил;

Цитата:

Цитата goshanecr
опять спонтанная перезагрузка. »

Может утечка памяти происходит? Интересно, а в логах хостовой системы никакой информации не найдётся ли?

goshanecr 08-01-2024 20:12 3022437

NickM, за информацию о кумулятивных обновлениях спасибо. Зашёл, в итоге скачал msu пакет:
Цитата:

2023-12 Cumulative Update for Windows Server 2016 for x64-based Systems (KB5033373) Windows Server 2016 Security Updates 12/12/2023 n/a 1639.9 MB
Но ставиться не хочет, говорит "обновление неприменимо к этой машине".

goshanecr 11-01-2024 06:57 3022530

В итоге опробовано вот что:
- KB5033373 установлен - не помогает.
- Опция связанная с принудительным завершением неактивного сеанса - не помогает.
- Перенёс диск виртуалки на другой физический диск - не помогает.
- В логах bhyve никаких ошибок. С хоста всё выглядит так, как будто виртуалка легально перезагрузилась. На самом хосте тоже никаких проблем нет, ошибок ни по дискам, ни по гипервизору нет.


В дампе упоминания о проблеме с драйвером stornvme.sys, и в настройках виртуалки тип диска указан nvme, думаю что надо попробовать сменить на ahci.
Создал соседнюю тему для изучения вопроса с миграцией системы на другой тип диска.

Может связано с какими-то особыми NVME командами, т.к. массив на котором располагается диск виртуалки сам не на NVME дисках, а на SATA SSD, потому думаю может виртуалка пытается какие-то nvme особенности использовать, а их нет. Хотя вроде всё это виртуализованно, но хер его знает.

NickM 11-01-2024 07:22 3022531

Цитата:

Цитата goshanecr
В дампе упоминания о проблеме с драйвером stornvme.sys»

Вы имеете ввиду, что изучили новый дамп?

Цитата:

Цитата goshanecr
в настройках виртуалки тип диска указан nvme, думаю что надо попробовать сменить на ahci. »

В конфигурационном файле VM гостевой системы какой тип контроллера накопителя указан?

goshanecr 11-01-2024 07:40 3022532

Вложений: 1
NickM добрый день!
Цитата NickM:
Вы имеете ввиду, что изучили новый дамп? »
Да, смотрел два последних. Там в обоих отсылки к stornvme.sys. В том, который тут прикреплял - там упоминаний на этот драйвер нет, но ты по итогу его анализа отметил что там тоже проблема связанная с I/O.
Цитата NickM:
В конфигурационном файле VM гостевой системы какой тип контроллера накопителя указан? »
Код:

disk0_type="nvme"
, я уже пробовал тупо сменить тип в конфиге на ahci-hd, но тогда система просто не грузится, говорит не с чего ей загрузиться.

NickM 11-01-2024 09:26 3022537

Цитата:

Цитата goshanecr
но тогда система просто не грузится, говорит не с чего ей загрузиться. »

Ошибка загрузки от "Windows" или какая-то другая? "Windows" в безопасном режиме тоже не загружается?

Цитата:

Цитата goshanecr
сменить тип в конфиге на ahci-hd »

Попробовать можно, но как пишут, этот бэкенд более медленный;

Цитата:

Цитата goshanecr
Может связано с какими-то особыми NVME командами, т.к. массив на котором располагается диск виртуалки сам не на NVME дисках, а на SATA SSD, потому думаю может виртуалка пытается какие-то nvme особенности использовать, а их нет. »

Вряд ли и скорее всего связано с самим RAID - в каком он состоянии? Я бы глянул его. И да, как он организован - аппаратный/ программный/ etc.

goshanecr 11-01-2024 10:59 3022543

Цитата:

Цитата NickM
Ошибка загрузки от "Windows" или какая-то другая? "Windows" в безопасном режиме тоже не загружается? »

Ошибка да, виндовая что INACCESSIBLE BOOT DEVICE
Цитата:

Цитата NickM
Попробовать можно, но как пишут, этот бэкенд более медленный; »

Это я видел, но там никуда не упёрлась эта скорость. Это просто терминалка для клиентских 1С-ок, а 1С сервер - другая машина. Так что без разницы.
Цитата:

Цитата NickM
Вряд ли и скорее всего связано с самим RAID - в каком он состоянии? Я бы глянул его. И да, как он организован - аппаратный/ программный/ etc. »

Там zfs mirror из 2-х SATA SSD.

goshanecr 11-01-2024 13:17 3022553

И по поводу подсистемы хранения: Я пробовал отцепить один из дисков, т.е. одиночный диск в zfs оставался, на котором лежит файл виртуального диска. На каждом из 2-х дисков пробовал оставлять, не влияет на перезагрузки. Также прогнал short и long тесты для обоих дисков в smartctl - всё цело, проблем с дисками не видно.

goshanecr 15-01-2024 15:49 3022772

Ну, судя по всему проблема была связана с nvme типом диска. После перевода на ahci-hd - всё работает стабильно. Тема закрыта.
Вот связанные ресурсы:
PR 243063 :: NVMe timeouts with bhyve
Как сменить тип диска c NVME на AHCI в Windows

NickM 15-01-2024 16:19 3022774

Цитата:

Цитата goshanecr
Вот связанные ресурсы:
PR 243063 :: NVMe timeouts with bhyve »

Хех, там приводят ошибки в логах хостовой системы.

И да, Вы перечислили самое бюджетное железо и похоже, что никаким аппаратным контроллером там и не пахнет.

goshanecr 15-01-2024 17:38 3022776

Цитата:

Цитата NickM
Хех, там приводят ошибки в логах хостовой системы.
И да, Вы перечислили самое бюджетное железо и похоже, что никаким аппаратным контроллером там и не пахнет. »

Да, но там для 12-ой ветки изначально сообщения, дальше пишут, что в 13-ой (13.0) много чего поправили и улучшили, так что вполне возможно что сейчас в целом проблема несколько иная, и в логах не гадит, а лишь не срабатывает в каких-то ситуациях операция доступа к диску в случае если он указан как nvme. Я тут чисто фантазирую. В логах у меня всё пусто. Логи проверять умею, и делаю это при возникновении вопросов.

Ну а контроллер при чём тут и какой? У меня на хосте софтовое ZFS зеркало из двух SATA SSD, это я указывал. Так что ни с каким контроллером не заявлялся я тут.

NickM 15-01-2024 18:49 3022778

Цитата:

Цитата goshanecr
Так что ни с каким контроллером не заявлялся я тут. »

Походу не правильно понял первое Ваше упоминание:
Цитата:

Цитата goshanecr
Может связано с какими-то особыми NVME командами, т.к. массив на котором располагается диск виртуалки сам не на NVME дисках, »


goshanecr 15-01-2024 21:40 3022783

Цитата:

Цитата NickM
Походу не правильно понял первое Ваше упоминание: »

А, так там массив имеется в виду программный, т.е. ZFS зеркало - это аналог RAID1, но программный. Я вполне могу вольно использовать термины, так что если ZFS mirror не является в точном смысле этого слова массивом, то значит моя вина :)


Время: 03:09.

Время: 03:09.
© OSzone.net 2001-