Sto lavorando su una macchina cluster che utilizza Slurm Job Manager. Ho appena avviato un codice multithread e vorrei controllare l'utilizzo di core e thread per un determinato ID nodo. Ad esempio,
scoreusage -N 92512
dove "scoreusage" è il comando di cui non sono sicuro.
Risposta accettata:
Sono passati alcuni anni da quando ho eseguito un cluster di slurm, ma squeue
dovrebbe darti quello che vuoi Prova:
squeue --nodelist 92512 -o "%A %j %C %J"
(che dovrebbe fornire il tuo jobid, jobname, cpus e thread per i tuoi lavori sul nodo 92512)
A proposito, a meno che tu non desideri specificamente i dettagli solo da un nodo particolare, potresti fare meglio a cercare per ID lavoro piuttosto che per ID nodo.
Ci sono molti buoni siti con documentazione sull'uso di slurm disponibile sul web, facilmente reperibile tramite google - la maggior parte delle università ecc. che eseguono un cluster HPC scrivono i propri documenti e guida e "cheat-sheet", personalizzati in base ai dettagli del loro cluster specifico (s) (quindi tienilo in considerazione e adatta eventuali esempi al TUO cluster). C'è anche una buona documentazione generica sull'uso di slurm
su https://slurm.schedmd.com/documentation.html