SINFO
Die Warteschleifen werden in SLURM Partitionen genannt. Mit der Intension verschiedene Aufgaben erledigen zu können wurden eine handvoll Partitionen eingerichtet. Diese unterscheiden sich in zur Verfügung stehenden Ressourcen und der maximalen Rechendauer. Abgerufen werden können Informationen mit dem Kommando sinfo
.
[user@login ~]$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST container up infinite 4 drain c[028,110,114,152] container up infinite 148 alloc c[001-002,005-022,027,029-109,111-113,116-128,133-150,155-166] container up infinite 19 idle c[003-004,023-026,129-132,151,153-154,167-172] gpu up infinite 2 idle c[502-503] big* up 4-20:00:00 2 drain c[028,114] big* up 4-20:00:00 135 alloc c[005-022,027,029-044,047-064,067-084,089-106,111-113,116-128,133-150,155-166] big* up 4-20:00:00 6 idle c[167-172] sw01_short up 2:00:00 1 drain c110 sw01_short up 2:00:00 13 alloc c[001-002,045-046,065-066,085-088,107-109] sw01_short up 2:00:00 6 idle c[003-004,023-026] [...]
Eine kurze Erklärung der Partitionen:
Partition | Erläuterungen |
---|---|
big | Ist die Standard-Warteschleife. In dieser werden die meisten Rechnungen durchgeführt. Etwa 4 Tage mit maximal etwa 140 Knoten \'a 16 Kernen mit max. 250GB RAM stehen hier zur Verfügung. Es sollte möglichst wenig Knoten und Zeit angefordert werden. Siehe Parallel-Effizienz. |
sw01_short | Ist eine Warteschleife für sehr kurze Jobs gedacht, insbesondere für Testläufe. Tagsüber sind maximal 1 Stunde reservierbar. Richtung Abend und Nachts wird dieses Limit schrittweise (2,4,..) auf 12 Stunden angehoben. So können diese Knoten nachts besser ausgelastet werden. Am nächsten Morgen ist die Short-Schleife meist wieder frei. |
sw04_long | Diese Schleife ist für sehr lange Jobs vorgesehen. Es sollte vermieden werden in dieser Schleife Jobs auszuführen. In den meisten Fällen kann big ähnliche Aufgaben ausführen. |
sw09_urgent | Die Urgent-Warteschleife sollte im Normalfall nicht angefordert werden. Jobs sind immer auf 1h begrenzt sodass fast immer Knoten zur Verfügung stehen. Sie sind daher geeignet um interaktive Aufgaben auszuführen. Außerdem können diese Knoten Aufgaben nur in home aber nicht in scratch ausführen. |
gpu | In dieser Warteschleife sind 2 Knoten mit dedizierten GPU-Karten hinterlegt. Diese Schleife sollte möglichst nur für Jobs mit Grafikanwendungen oder Berechnungen auf GPUs genutzt werden. |
container | Ist eine Partition die alle Ressourcen des Neumann-Clusters zusammenfügt. Ist nur für administrative Aufgaben relevant. |
Die normale Ansicht von
sinfo
ist etwas unübersichtlich.
Wenn man folgende Codezeile:
alias si='sinfo -o "%12P %.10A %.5D %.4c %.6mMB %.11l %3p %5h" | grep -v -e container -e extra'dem File
.bashrc
im home
-Verzeichnis (~/.bashrc
) hinzufügt, dann erhalt man eine lesbarere Darstellung.
[user@login ~]$ si PARTITION NODES(A/I) NODES CPUS MEMORYMB TIMELIMIT PRI SHARE gpu 0/2 2 16 254000MB infinite 1 NO big* 135/6 144 16 254000MB 4-20:00:00 1 NO sw01_short 11/8 20 16 254000MB 2:00:00 1 NO sw04_longrun 11/0 12 16 254000MB 14-20:00:00 2 NO sw09_urgent 0/7 8 16 254000MB 1:00:00 2 NO urgent 46/6 54 16 254000MB 9:00:00 3 NO
Unter NODES kann man die verfügbaren Knoten ablesen. A steht hier für Allocated, sprich in Benutzung. I steht für Idle, also verfügbare Knoten.