eng.jpgENG

SINFO

Die Warteschleifen werden in SLURM Partitionen genannt. Mit der Intension verschiedene Aufgaben erledigen zu können wurden eine handvoll Partitionen eingerichtet. Diese unterscheiden sich in zur Verfügung stehenden Ressourcen und der maximalen Rechendauer. Abgerufen werden können Informationen mit dem Kommando sinfo.

[user@login ~]$ sinfo
PARTITION    AVAIL  TIMELIMIT  NODES  STATE NODELIST
container       up   infinite      4  drain c[028,110,114,152]
container       up   infinite    148  alloc c[001-002,005-022,027,029-109,111-113,116-128,133-150,155-166]
container       up   infinite     19   idle c[003-004,023-026,129-132,151,153-154,167-172]
gpu             up   infinite      2   idle c[502-503]
big*            up 4-20:00:00      2  drain c[028,114]
big*            up 4-20:00:00    135  alloc c[005-022,027,029-044,047-064,067-084,089-106,111-113,116-128,133-150,155-166]
big*            up 4-20:00:00      6   idle c[167-172]
sw01_short      up    2:00:00      1  drain c110
sw01_short      up    2:00:00     13  alloc c[001-002,045-046,065-066,085-088,107-109]
sw01_short      up    2:00:00      6   idle c[003-004,023-026]
[...]

Eine kurze Erklärung der Partitionen:

Partition Erläuterungen
big Ist die Standard-Warteschleife. In dieser werden die meisten Rechnungen durchgeführt. Etwa 4 Tage mit maximal etwa 140 Knoten \'a 16 Kernen mit max. 250GB RAM stehen hier zur Verfügung. Es sollte möglichst wenig Knoten und Zeit angefordert werden. Siehe Parallel-Effizienz.
sw01_short Ist eine Warteschleife für sehr kurze Jobs gedacht, insbesondere für Testläufe. Tagsüber sind maximal 1 Stunde reservierbar. Richtung Abend und Nachts wird dieses Limit schrittweise (2,4,..) auf 12 Stunden angehoben.
So können diese Knoten nachts besser ausgelastet werden. Am nächsten Morgen ist die Short-Schleife meist wieder frei.
sw04_long Diese Schleife ist für sehr lange Jobs vorgesehen. Es sollte vermieden werden in dieser Schleife Jobs auszuführen. In den meisten Fällen kann big ähnliche Aufgaben ausführen.
sw09_urgent Die Urgent-Warteschleife sollte im Normalfall nicht angefordert werden. Jobs sind immer auf 1h begrenzt sodass fast immer Knoten zur Verfügung stehen. Sie sind daher geeignet um interaktive Aufgaben auszuführen. Außerdem können diese Knoten Aufgaben nur in home aber nicht in scratch ausführen.
gpu In dieser Warteschleife sind 2 Knoten mit dedizierten GPU-Karten hinterlegt. Diese Schleife sollte möglichst nur für Jobs mit Grafikanwendungen oder Berechnungen auf GPUs genutzt werden.
container Ist eine Partition die alle Ressourcen des Neumann-Clusters zusammenfügt. Ist nur für administrative Aufgaben relevant.
Die normale Ansicht von sinfo ist etwas unübersichtlich. Wenn man folgende Codezeile:
alias si='sinfo  -o "%12P %.10A %.5D %.4c %.6mMB %.11l %3p %5h" | grep -v -e container -e extra'
dem File .bashrc im home-Verzeichnis (~/.bashrc) hinzufügt, dann erhalt man eine lesbarere Darstellung.
[user@login ~]$ si
PARTITION    NODES(A/I) NODES CPUS MEMORYMB   TIMELIMIT PRI SHARE
gpu                 0/2     2   16 254000MB    infinite 1   NO
big*              135/6   144   16 254000MB  4-20:00:00 1   NO
sw01_short         11/8    20   16 254000MB     2:00:00 1   NO
sw04_longrun       11/0    12   16 254000MB 14-20:00:00 2   NO
sw09_urgent         0/7     8   16 254000MB     1:00:00 2   NO
urgent             46/6    54   16 254000MB     9:00:00 3   NO

Unter NODES kann man die verfügbaren Knoten ablesen. A steht hier für Allocated, sprich in Benutzung. I steht für Idle, also verfügbare Knoten.

de/guide/sinfo.txt · Zuletzt geändert: 2017/09/27 10:29 von Sebastian Engel
Nach oben
CC Attribution-Share Alike 3.0 Unported
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0