Troubleshoot - Sistemski inženjerSistemski inženjer

Odgovori na pitanja:

Nakon uspješno dodanog NFS ver. 3 storage-a na sve hostove, datastore-i su vidljivi, no na njima nije moguće kreiranje virtualnih računala.

-Da li na datastore-u ima dovoljno prostora (Zapunjen)

-Da li su NFS dozvole ispravno konfigurirane (Read-Only)

-Da li se VM može kreirati na nekom drugom Datastore-u (Izoliran problem na jednom hostu)

-Da li postoji manje od 32000 file-ova na problematičnom datastore-u (Ograničenje NFS-a)

-Da li je block size ispravno podešen (Ograničenje veličine file-a)

Prilikom dodavanja novog ESXi servera u infrastrukturu uočeno je da na iSCSI LUNovi nisu vidljivi nakon što su podešene postavke za software-ski iSCSI target.

-Da li su mrežne postavke ispravno podešene (IP, maska, port 3260)

-Da li HBA može pristupiti storage-u (ping, vidljivost)

-Da li postoji firewall koji blokira pristup storage-u (Windows Firewall, iptables, firewalld)

-Da li je podržana komunikacija storage-a i HBA-a (supported configuration)

-Da li je napravljen rescan Storage Devices-a (trenutno nije vidljiv)

-Da li ostali hostovi vide sporne Datastore-ove

Prema informacijama dobivenim od korisnika primjećen je pad performansi virtualnih računala vezano za pristup disku. Problem se pojavljuje nakon što je na lokaciju isporučen novi ESXi server kojeg je prethodno pripremio pripravnik u ICT podršci na osnovupostojeće dokumentacije. I ESXi serveri i iSCSI target imaju po dvije IP adrese za iSCSI komunikaciju.

-Da li je instaliran zadnji dostupan driver i firmware

-Da li je latencija prema storage-u prevelika (da li odstupa više od BP-a)

-Da li su procesor ili memorija slobodni

-Da li je problem uopće vezan uz dodavanje novog hosta (Možda je storage krenuo u rebuild RAID polja što se poklopilo točno sa dodavanjem servera)

-Da li se problem manifestira sa svim hostovima (Da li je problem samo sa novim hostom)

-Da li je stvarno sporost ili normalan rad sustava

Nakon zamjene hardwerske FC kartice na jednom od poslužitelja nije više moguće pristupiti dijeljenim datastoreima.

-Da li je instaliran zadnji dostupan driver i firmware

-Da li napravljen rescan datastore-a

-Da li ostali hostove vide datastore

-Da li je promijenjen stari WWN u novi na ACL-ovima i Initiator postavkama

-Da li je zoniranje ispravno odrađeno

-Da li FC switch šalje RSCN poruke

-Da li je FC kartica ispravna

Nakon normalnog korištenja datastore-a na NFS v4.1 serveru, datastore-i više nisu dostupni za korištenje.

Prema informacijama nitko ništa nije mijenjao tijekom zadnjih mjesec dana na opremi.

-Da li su datastore-ovi mountani

-Da li su datastore-ovi vidljivi na FC infrastrukturi

-Da li je storage živ

-Da li po logovima stvarno nije ništa dirano

Nakon normalnog korištenja datastore-a na NFS-u, pojavljuju se korumpirane virtualna računala na datastoru, te ih se mora vraćati iz arhive da bi sustav oporavili. Prema informacijama u sustav je dodano par novih ESXi servera koji su se također spojili na taj NFS.

-Na koji način se korupcija manifestira (OS ili Hypervisor level)

-Da li file-ovi na datastore-u imaju postavljen lock

-Da li postoje već snimljeni i dokumentirani problemi koji se pojavljuju i nama na online zajednicama

-Da li postoje problemi hardverske prirode koji bi uzrokovali ovakav kvar (storage level)

Od zadnje rekonfiguracije i radova na sustavu i mreži prošlo je dva tjedna. Danas, nakon kvara baterija na UPS-u i ponovnog pokretanja, pristup iSCSI storage-u više ne radi samo s nekih ESXi servera.

-Što se točno rekonfiguriralo i kako (change management)

-Da li je konfiguracija ostala spremljena na mrežnoj opremi (prilikom gašenja se resetirala na staro)

-Da li je uslijed nestanka struje došlo do kvara na hardveru

Zbog višestrukih prijava na helpdesk za slabe performanse rada s diskovima sumnja se na probleme s storage sustavom. Problemima su zahvaćene samo neka virtualna računala. Svi ESXi serveri imaju pristup do svih datastora.

-Da li su svi problematični VM-ovi na istom datastore-u

-Da li su svi problematični datastore-ovi sa istog LUN-a na storage-u

-Da li je ispad diska uzrokovao slabije performanse zbog rebuilda RAID polja

-Da li su svi path-ovi do storage-a online

-Da li je ispravna mrežnom (FC) opremom

Najavljeni su radovi zbog kojih je potrebno jedan od 32 ESXi servera privremeno onemogućiti unutar HA clustera. Slobodnih resura ima dovoljno za failover, te je server uspješno ugašen za radove. No nakon nenadanog kvara drugog ESXi servera, dio virtualnih računala nije ponovo pokrenut. ESXi serveri imaju pristup do različitih vrsta datastora.

-Da li hostovi imaju pristup do datastore-ova na kojima su problematične virtualke

-Da li je na virtualkama konfiguriran HA

-Da li su virtualne mašine članovi neke host affinity grupe

Najavljeni su radovi zbog kojih je potrebno preseliti dio virtualnih računala na živo s nekoliko servera na neke druge ESXi server. Do danas se nije koristila funkcionalnost vMotiona. Prilikom pokušaja selidba migracije nije uspjela.

-Da li su ispravne mrežne postavke

-Da li je vMotion omogućen na predviđenim portovima za to

-Da li je mreža dovoljno brza za odradu vMotion-a

-Da li se hostovi vide na mreži

-Da li postoji dovoljno resursa na drugom hostu za prihvat virtualki