Altay Kümesi Donanım Bilgisi
Bu kümenin hesaplama sunucularının donanımları:
Makina Adı | İşlemci Bilgisi | İşlemci Kod Adı | Makinadaki İşlemci
(Çekirdek) Sayısı |
Hafıza Miktarı | Ağ Kartı | Özel Donanım | Bu makinalarda
Çalışacak Kuyruklar |
---|---|---|---|---|---|---|---|
altay (login node) | AMD EPYC 7302 2.99GHz | znver2 | 32 | 256GB | 200 Gbit/s Infiniband | YOK | Login makinasında
iş çalıştırılamaz |
a001 - a088 | AMD EPYC 7742 2.24GHz | znver2 | 128 | 256GB | 200 Gbit/s Infiniband | YOK | defq (varsayılan kuyruk, 7 gün)
bigjobq (3 gün) |
a101 - a130 | Intel XEON 8362 2.80GHz | icelake-server | 64 | 512GB | 200 Gbit/s Infiniband | 1 adet NVIDIA A100 80GB PCIe
8.8TB /YEREL disk (scratch) |
a100q (7 gün) |
a141 - a150 | AMD EPYC 7543 2.80GHz | znver3 | 64 | 1024GB | 100 Gbit/s Infiniband | 4 adet NVIDIA A100 80GB NVlink
12TB /YEREL disk (scratch) |
a100x4q (7 gün) |
Altay kümesindeki, a001-a088 makinalarında Red Hat Enterprise Linux release 8.5 işletim sistemi yüklüdür. a101-130 ve a141-a150 makinalarında Rocky Linux release 8.5 işletim sistemi yüklüdür.
Disk Sistemi
Altay kümesinde disk sistemi /ari adıyla sisteme bağlıdır. Kullanıcı dosyaları /ari/users dizininde, yeni programlar ise /ari/progs dizinde bulunur.
a100q ve a100x4q kuyruklarındaki makinalarda, verilen işlerin geçici okuma yazma amaçlı (scratch) kullanması için, 8.8TB /YEREL disk (a100x4q kuyruğundakilerde 12TB) mevcuttur. İş verdiğinizde hiçbir dosya yada program bu dizine kopyalanmaz. Sadece siz isterseniz kendiniz kopyalıyabilirsiniz, yada kullandığınız programa gecici (tmp, scratch) dosyalarini yazabileceği yer olarak bu dizini gösterebilirsiniz.
/YEREL dizini sadece a100q ve a100x4q kuyruklarındaki makinalarda bulunmaktadır, altay login node'unda yada diğer makinalarda bu dizin yoktur. Dahası /ari dizininin aksine her bir sunucuda kendisine ait ayrı bir dizindir. Yani mesela a120 sunucusunda /YEREL dizinine bir dosya koyarsaniz, diger makinalardan bu dosyaya erisemezsiniz. Birden fazla sunucuda çalışan bir iş için, her sunucuya kendi kopyasını koymalısınız.
/YEREL diskteki dosyalar iş bitiminde otomatik olarak silinmektedir. Buraya yazdıracağınız dosyalarınızı saklamak isterseniz, iş betiğinizin içerisinde ev dizininize kopyalamalısınız.
Mesela tek sunuculuk bir iş için aşağıdaki gibi bir betik kullanılabilir. Bu betiği /ari/progs/slurm_betikleri/YEREL-disk-kullanimi-tek-sunucu.sh adresinde bulabilirsiniz:
#!/bin/bash
#SBATCH -A hsaat # account / proje adi
#SBATCH -p a100q
#SBATCH -N 1
#SBATCH -n 64
#Girdi dosyalari kopyalaniyor
\cp -r /ari/users/mercan/girdiler /YEREL
# Calistirmak istedigimiz programa uygun parametrelerle /YEREL diskini kullanmasi soylenmeli
# Tabiki kullanacaginiz programin parametreleri degisik olacaktir
program --girdi /YEREL/girdiler --cikti /YEREL/ciktilar
#Program bitince olusan ve saklamak istediklerimizi geri ev dizinine kopyalamali
\cp -r /YEREL/ciktilar /ari/users/mercan/
Tabiki, bu betiklerdeki /ari/users/mercan/ dizinleri örnek kullanıcı dizini olarak kullanılmıştır. Siz kendi ev dizininizde uygun bir yer ile bu dizinleri değiştirmelisiniz.
Yine birden çok sunuculuk bir iş için aşağıdaki gibi bir betik kullanılabilir. Bu betiği /ari/progs/slurm_betikleri/YEREL-disk-kullanimi-birden-cok-sunucu.sh adresinde bulabilirsiniz:
#!/bin/bash
#SBATCH -A hsaat # account / proje adi
#SBATCH -p a100q
#SBATCH -N 3
#SBATCH -n 192
# Girdi dosyalari kopyalaniyor
# Buradaki SUNUCU ifadesi her sunucunun adi ile otomatik degistirilecektir
sunucular -r scp -r /ari/users/mercan/girdiler SUNUCU:/YEREL/
# Calistirmak istedigimiz programa uygun parametrelerle /YEREL diskini kullanmasi soylenmeli
# Tabiki kullanacaginiz programin parametreleri degisik olacaktir
program --girdi /YEREL/girdiler --cikti /YEREL/ciktilar
# Program bitince olusan ve saklamak istediklerimizi geri ev dizinine kopyalamali
# Buradaki SUNUCU ifadesi her sunucunun adi ile otomatik degistirilecektir
sunucular -r scp -r SUNUCU:/YEREL/ciktilar /ari/users/mercan/cikti.SUNUCU
Son olarak şunu da belirtelim, /YEREL disk kullanımı kullanıcı kotasından harcamaz. Mesela, 100GB kotası olan bir kullanıcımızın işi çalışırken 12TB'lık /YEREL diski doldursa bile, kullanıcımız disk kotası sorunu yaşamayacaktır. Tabiki, buradaki dosyaların iş bitiminde otomatik silineceğini de unutmamak lazım.
Derleyiciler
Altay kümesindeki a001-a088 makinalarının işlemcileri AMD EPYC olduğu için, intel compiler paketi düzgün çalışmamaktadır. çeşitli intel modülleri kurulu olmasına rağmen bu modülleri kullanmamanızı tavsiye ederiz.
Ön yüklü GCC derleyici sürümü 8.5.0 dır. Ancak bu derleyici, a001-a088 makinalarının kod adı "znver2" olan işlemcimizi tanımamaktadır. Bu sebeble, mümkünse, daha yeni bir derleyici (minimum gcc 9) kullanmanızı öneririz. Başka GCC Derleyicileri için, hazırda pek çok modül mevcuttur.
Yukarıda bahsi geçen derleyicilerde; işlemci için eniyileme (optimizasyon) yapmak için verilmesi gereken işlemci kodu znver2 dir (a001-a088 makinaları için). Örneğin: -march=znver2 parametresi ile bu işlemciye özelleşmiş exe üretilebilir.
a101-a130 makinalarının INTEL işlemcisinin işlemci kodu ise icelake-server dir. a141-a150 makinalarının AMD işlemcisinin işlemci kodu ise znver3 dir.
Derleme ve En-iyileme işlemleriniz için PRACE'in hazırladığı Best Practice Guide Modern Processors Accelerators dökümanını (ingilizce) tavsiye ederiz. |
Sistem Kullanımı
Altay Kümesini kullanmak için kullanıcılarımız, VPN ile bağlı iken, altay.uhem.itu.edu.tr makinasına ssh yapmalıdırlar. Bu makinada işlerini/programlarını doğrudan çalıştırmak yerine, SLURM programına bu işlerini çalıştıran bir betik (ing. script) teslim etmelidirler.
Altay kümesinin kullanımı konusunda bilgi edinmek için, lütfen Sarıyer sistemine iş vermek sayfasına bakınız. Çünkü, bu sayfada bahsedilmeyen her türlü kullanım bilgisi sariyer kümesi ile aynıdır.
Önemli Uyarı!
Altay Kümesinde, kullandığınız makinaların tüm işlemcileri size ayrılır. 1 makina = 128 işlemci olduğundan, verdiniz işlemci sayısı 1 olsa da 128 işlemci meşgul etmiş olursunuz ve size 64 (128*0.5) işlemci fatura edilir. 129 işlemci isterseniz, 2 makina = (256*0.5) 128 işlemci faturalanır. Bu sebeble 128 ve katları işlemci istemeniz en doğrusudur! (a100q ve a100x4q kuyrukları için 64 ve katları) |
TRUBA ile Dosya Transferi
UHeM'deki tüm sunuculardan vpn bağlantısı gerekmeksizin, TRUBA'daki levrek1.ulakbim.gov.tr sunucusuna scp komutu ile dosya gönderip, alabilir, ssh yapabilirsiniz.
TRUBA'dan da, altay login sunucusuna (altay.uhem.itu.edu.tr), vpn bağlantısı gerekmeksizin scp ile dosya gönderip, alabilir, ssh yapabilirsiniz.