Forum

IBM Storwize 3700 b...
 
Bildirimler
Hepsini Temizle

IBM Storwize 3700 bozulan raid6 hakkında

Evren SANCAKLI
(@evrensancakli)
Üye

Herkese merhaba.

IBM Storwize 3700 cihazın üzerinde 12 adet 4TB sas disk mevcut. Cihaz raid6 yapısına göre yapılandırılmıştı. Yapılandırmada 1 adet hotspare mevcuttu. Birbirine yakın sürelerde sırasıyla tam 4 disk bozuldu. Sipariş geçilen diskler gelmek bilmedi ve son bozulan diskten sonra raid6 MDisk offline konuma geçti. Amacım raid 6 yapısını online konuma getirerek içeriğe erişmek ve yeni gelecek disklerle yapıyı sürdürmek. Veri kaybı yaşamanın kaçınılmaz olacağını biliyorum.

Bilinen en risksiz şekilde yeni diskleri taktıktan sonra raid6 yapısını nasıl online konuma getirebilirim? Tecrübeli arkadaşların yönlendirmelerini bekliyorum.

Saygılar.

Alıntı
Konu başlatıcı Gönderildi : 14/12/2021 11:53

Erdem AVCI
(@erdemavci)
Üye

Merhaba,

Yeni gelen sağlam diskleri takıp ilgili Raid Gruba ekledikten sonra, "https://ip_adresi/service" linki ile servis menüsüne girip, Recover System sekmesi üzerinden adımları takip etmelisiniz.

Öncesinde aşağıdaki linki dikkatlice okumanızı tavsiye ederim.

Recover system procedure - IBM Documentation

CevapAlıntı
Gönderildi : 14/12/2021 15:30

Evren SANCAKLI
(@evrensancakli)
Üye

@erdemavci Bir adet disk az önce temin ettim. Şöyle ki yeni takılan disk Member olarak değil Candidate veya Spare olarak atanabiliyor. Raid disk grubuna Member olarak atanamıyor. Raid yapısını bozan son arızalı diskin üzerine tıklayıp Fix seçeneğini kullanınca "The faulty drive needs to be replaced." çözümünü öneriyor. Yeni disk takıp bu işlemi de yapınca herhangi bir senkronizasyon yapmıyor. "Recover System" i tüm diskler gelince raid grubuna eklemeden (ki eklenemiyor) deneyeceğim. Sanırım başka bir ihtimal de yok CLI kod vs.

Bu ileti 5 ay önce Evren SANCAKLI tarafından düzenlendi
CevapAlıntı
Konu başlatıcı Gönderildi : 14/12/2021 15:52

Evren SANCAKLI
(@evrensancakli)
Üye

Bugün itibari ile IBM Türkiye ve Global çözüm getiremedi. Veri kurtarma önerisi olan var mı?

CevapAlıntı
Konu başlatıcı Gönderildi : 07/01/2022 21:32

ibrahim yildiz
(@ibrahimyildiz)
Tecrübeli Üye Forum Yöneticisi

"Birbirine yakın sürelerde sırasıyla tam 4 disk bozuldu"
Olayın sırrı burada gerçekleşiyor, sizde kaçınılmaz şeklinde kaybı kabul etmişsiniz. Fakat bence olayı çözümleme hatanız var forumdan bu anlaşılmamış yada anlatamamışsınız.
Raid array fixlemek ile datayı kayıpsız kurtarmak ap ayrı süreçler. 
Raid redundancy kapasitesinin üzerinde bir mekanik kayıp yaşanmış. Burada önemli olan datayı en az kayıpla almak idi ise controlller üzerinden array'a hiç müdahale etmeden arızalı diskler dahil sırasıyla diskleri iyi bir kurtarma firmasına göndermeniz gerekiyordu. verikurtarma.com firmasıyla çalışabilirsiniz yakın çalışıyorum. Disklerin mekanik arıza şekline bağlı olarak önemli bir oranda partition'ları dış ortamda repair edilmesiyle datanın çoğunluğunu, örneğin belki plakaların okunma başarımı ile belki tamamına yakınını elde etme imkanınız olurdu.
Tabi bu durumda çalışabilirliğin devamı için ayrı disk havuzu ile sıfırdan bir array kurularak yapı çalıştırılmaya devam edilmesi gibi senaryolar olabilir. Havuz recovery'e gönderildiği için bu biraz da mecburiyet, üzerinde data recovery çalışılmış aynı diskler sıfırlanmadan genellikle kullanılmaz.

Controller üzerinden array repair (fix vs) etme de ise hedefler ve karşılanabilirlik çok daha farklı bir durum. Sorunlu disk sayınızdan ötürü. Burada 1. bağlayıcılık ise array'in doluluk oranıdır genellikle. Bu sürece datanın yeterli yedeği olduğu durumda ve süreç hızı kazanmak için başvurulabilirdi. Fakat yapılacak sıfır diskler ile her müdahale "Data Recovery" başarımını ciddi şekilde düşürür. Recovery için disklere dağıtılmış parite'lerin okunması önemli.
Ör raid standart redundancy adet kaabiliyetinin (raid6 da fault tolerance 2 adet bu olay zamanı duruma göre hotspare ile 3 gibi olabilir.) üzerinde veya küçük bir miktar yaklaşığında veri boşluğu varsa otomatik olarakta array repair edilebilme imkanı çok fazla yükseliyor. Fakat tam tersinde üreticinin de yapabileceği pek bir şey yok. Ör havuz %90 ve üzeri doluluğa sahiptiyse veriyi elde etme açısından bu operasyona öncül hiç girilmemesi gerekliydi. Çünkü basit mantıkla işaretli veri yoğunluğu ve bunların dağıtılmış halde bile olsa kaybı nedeniyle raid table için gerekli olan işaretçi sayısını geri kazanmak çok çok zordur hatta imkansız.
Hedefiniz veri kurtarma ise firma sizi yönlendirecektir yapmanız gereken temel de sorunlu havuzu aynı kendi fiziksel birimleriyle birlikte yada gerekli görürlerse storage ile firmaya göndermektir.

****************************************************************
Probleminiz Çözüldüğünde Sonucu Burada Paylaşırsanız.
Sizde Aynı Problemi Yaşayanlar İçin Yardım Etmiş Olursunuz.
Eğer sorununuz çözüldü ise lütfen "çözüldü" olarak işaretlerseniz diğer üyeler için çok büyük kolaylık sağlayacaktır.
*****************************************************************

CevapAlıntı
Gönderildi : 08/01/2022 07:19

Evren SANCAKLI
(@evrensancakli)
Üye

@ibrahimyildiz Cevabınız için teşekkür ederim. Raid ve cihaz üzerinde riskli hiçbir işlem yapılmadı. Yapı en son çalışan haliyle bozulan diskle birlikte mdisk offline şekilde duruyor. Diskleri numarandırarak pazartesi veri kurtarma firmasına göndereceğim.

Raid array fixleme konusuna gelince IBM Storwize arayüzünde raid yapısına dahil olan diskler member olarak görünüyor ve o raid yapısına yeni bir üye disk kazandıramıyorsunuz. Dolayısıyla mdisk'i online konuma getirmeyi imkansız kılıyor. Raidde doluluk oranı ise %65.

Eğer oradan da bir olumlu dönüş alamazsam volume silip raidi aynı şekliyle oluşturup verilere ulaşmaya çalışacağım ve sanırım başka yol da kalmıyor.

Gelelim yakın zamanda süreli kayıplara...

Elimde iki adet yedek disk mevcuttu. Yapıda 1 adet spare de mevcutu. Cihaz yakın sürede elektrik vs en ufak sorun olmadığı halde  tam 5 disk yaktı arkadaşlar.  Felaketi getiren burası oldu.

Elimdeki 2 yedek disk bozulunca direk satın alma için araştırmaya başladım. Daha önce IBM'in yedek parçaları çok uzun sürelerde temin ettiğini duymuştum ama bu sürenin 60 gün olabileceğini düşünmemiştim. Cihaz OEM sata disk kabul etmiyor. Kabul etseydi geçici olarak durumu kurtarabilirdi. IBM'in x distribütöründen diskleri sipariş geçtim ve her gün disklerin yola çıkıp çıkmadığı hakkında bilgi aldım. Diskler bir türlü gelemedi arkadaşlar. Günler geçtikçe diskler teker teker bozulmaya başladı ve en son disk bozulunca mdisk offline konuma düştü. Durum bu arkadaşlar umarım anlatabilmişimdir.

Durumu bir şekilde kurtarmaya çalışıyorum. Bundan sonrası için IBM benim için tamamen bitmiştir.

Bu tecrübe bana ne öğretti? Bundan sonra alacağım markada dikkat edeceğim hususlar şunlar:

Oem ürün çalıştırabiliyor mu?

Yedek parça kısa sürede temin edilebiliyor mu?

Ömür boyu ücretsiz güncelleme desteği var mı?

Destek alabileceğim etkili bir çağrı merkezi ya da sağlayıcıları var mı?

Bu arada bu cihazı ben satın almadım. Bugüne kadar hiç IBM almayı düşünmedim. Burada işe başladığımda mevcuttu ve güncelleyip kullanmaya devam ettim. Yazdığım tecrübeleri harfiyen uygulayan bir satın alma sistemim var. Bu nedenle her satın alma aşamamda bu ve bu tür markaları eledim.

Umarım herkese faydalı olabilmişimdir. Aynı şekilde bilgili arkadaşların da faydalı olmasını bekliyorum.

Bu ileti 4 ay önce Evren SANCAKLI tarafından düzenlendi
CevapAlıntı
Konu başlatıcı Gönderildi : 08/01/2022 12:35

ibrahim yildiz
(@ibrahimyildiz)
Tecrübeli Üye Forum Yöneticisi

Oldukça zor bir durum, uzun yazmışsınız alıntılarla yetişmeye çalışalım. 
Cihazda fiziksel bir hata var demek ki destek anlaşmanız varsa ibm den bunun analizini ve yanıtlanmasını isteyebilirsiniz tabi ki bunun recovery sürecinin sonrasında yapın. Benim de IBM konusunda çok deneyimim yok doğrusu modellerini pek tanımıyorum. 
Yüksek adetli arıza noktasında sadece aklıma şu geliyor. Aynı dönemde başlamış diskler uzun dönem sonucunda raid altında eşit çalışabildiğinden TBW ömürlerini doldurma sonucu aynı günlerde arızaya düşebilir. Fakat sizde ki durum daha farklı sanki 0 yedek disklerin de montaj sonrası bozulduğunu anlatmışsınız storage üzerinde ve backplane kartlarda tozlanma olmamasına çok dikkat edin. Statik yük transferi bu tip şeyler yapabilir. Neyse bu kısmın cevabını en iyi üretici fiziksel inceleme ile verebilir.

ptesi detaylı bilgi verin firmaya gerekirse siz götürün şuana kadar geçirilen aşamaları net anlatmanız önemli Neylan hanım sizi yönlendirecektir. Akılda olsun recovery işinde olabildiğince az kişi yani uzman firma bakmalı disklere. Her kurcalama recovery de ihtimali yok etme oranı demektir. 

"volume silip raidi aynı şekliyle oluşturup verilere ulaşmaya çalışacağım ve sanırım başka yol da kalmıyor" bunu düşünmeyin kesinlikle. Bu şekilde eski datalara ulaşamazsınız hiçbir şekilde. Raid, tek diski formatlayıp soft recovery yapmaktan çok farklı bir yapı.

Diğer kısımla ilgili oem hdd/ssd kısmını kurumsal dünyada aklınızdan çıkarmalısınız. Zaten buna uygunluk veren hiç bir marka bulamazsınız. Bazı ürünlerde engellenmiyor trick olarak geçici çözülebiliyor fakat buna olur verecek deneyimli sistem uzmanı da olmaz. Arama yaparsanız görürsünüz bizler çok defa maliyetleri dolayısıyla sunucularına oem ssd takmak isteyenlere bunu yapmayın demişizdir. Siz spec'ler dolayısıyla fark olmadığını düşünebilirsiniz fakat NL SAS vs dışında da SATA port marka ürünlerde parti ve spec farkları var. Bu işte 1. kuraldır raid array'lerde aynı nesil ve uyumlu firmware diskler birlikte çalışmalıdır. Zaten bu yüzden üreticiler neslin üretimi dursa da milyonlarcasını stoğuna kaldırıyor ve bizler içerde stok kalmadığında yurt dışından gelmesini bekliyoruz.

Ömür boyu konusu EOL ve şuan ki support anlaşma tipleri ile çok alakalı.
Süre konusu da çok belirsiz birşeydir baştan kabullerle tr şartlarında zor hele ki mevcut haliyle. Ben disklerde yaşamadım ama 45+ gün beklediğimiz diğer 2 markada da partlar oldu. Malum 3 büyük markanın tr'de ki varlık oranı biliniyor ve benzerler. Bu ülkenin gümrüklemeyle ilgili de problemleri var ve bu her zaman vardı. 

https://www.cozumpark.com/universite-yedekleme-hatasi-nedeniyle-77-tb-verisini-kaybetti/
Haber ortada devasa yapılar fakat kayıplar yine de söz konusu. Bizim dünyamız böyle, bu biraz da küçük ölçeklerde neyi ne kadar yedekleyebildiğimizle ilgili.
Açıkçası storage, sunucu vs birebir part adedi kimse yedeklemek istemiyor mali şartlardan dolayı fakat hardware kayıpları her zaman mümkün. Biraz da bu yüzden bütçeler arttıkça cluster vs , failover hardware yedeklilik mimarileri kuruyor insanlar. Malum storage migration senaryoları vs vs.

Velhasıl yaşadığınız zor bir durum, kolaylıklar diliyorum.

****************************************************************
Probleminiz Çözüldüğünde Sonucu Burada Paylaşırsanız.
Sizde Aynı Problemi Yaşayanlar İçin Yardım Etmiş Olursunuz.
Eğer sorununuz çözüldü ise lütfen "çözüldü" olarak işaretlerseniz diğer üyeler için çok büyük kolaylık sağlayacaktır.
*****************************************************************

CevapAlıntı
Gönderildi : 08/01/2022 16:26

Evren SANCAKLI
(@evrensancakli)
Üye

Maalesef Veri Kurtarma firması da başarılı olamadı. Öncesinde bozulan 2 diski istediler gönderdik ama umut yok. Yurtiçi yurtdışı tüm kaynakları kullandıklarını da ayrıca ilettiler. Hiçbir şey kurtaramadan 60 gün tedarik sorunları nedeniyle bu durumdayız. Tüm arkadaşlara önerim son disk toleransında yeni diskler gelene kadar cihazı her ne pahasına olursa olsun kapalı tutmanızdır ve Türkiye’de stok tutan, tedarik süresi için imzalı taahhüt veren markalarla çalışmanızdır. Bu marka kesinlikle IBM değildir. Biz günlerdir uğraşıyoruz siz uğraşmayın.

Gönderdiğimiz son iki diskin analiz sonucunu tecrübe etmeniz açısından paylaşacağım.

CevapAlıntı
Konu başlatıcı Gönderildi : 25/01/2022 15:24

Paylaş: