Comandos para el uso del clusteruy
Estos son algunos comandos que considero útiles para el trabajo en el ClusterUY, más allá de los comandos básicos. Para saber cómo crear un usuario, conectarse al cluster y ejecutar un trabajo, ver la sección de ayuda del sitio del ClusterUY.
Los comandos hay que escribirlos una única vez, y luego se pueden reutilizar sin necesidad de escribirlos desde cero. Para esto se usa la combinación de teclas Ctrl+R en la línea de comandos, luego se empieza a escribir el comando de interés (ya utilizado), y una vez que aparece le damos a la tecla Tab para completar el comando.
A menos que se indique lo contrario, todos los comandos se ejecutan desde una consola en el ClusterUY. Es decir que primero hay que conectarse al cluster mediante ssh.
Conectarse a un nodo donde estamos ejecutando un trabajo
Podemos conectarnos a un nodo donde se está ejecutando uno de nuestros trabajos. Por ejemplo, si el trabajo de interés tiene número de identificación 3997077, usamos el comando:
$ srun --jobid=3997077 --pty bash -l
Una vez en el nodo, podemos ver detalles de la ejecución de nuestro trabajo mediante el comando htop (o top):
$ htop
Esto muestra la memoria RAM que está utilizando nuestro trabajo, y la cantidad de hilos (entre otras cosas).
Información sobre recursos de cada nodo
Para ver los nodos disponibles en el cluster y qué recursos de hardware tienen (en particular cantidad de memoria y cpus):
$ sinfo -Nel
Para tener más detalles del nodo de nombre “node24”:
$ scontrol show node node24
Memoria y tiempo de un trabajo finalizado
Una vez que finaliza un trabajo, podemos ver detalles de su ejecución, como el tiempo de ejecución y la máxima memoria RAM utilizada. Para esto primero hay que iniciar una sesión interactiva:
$ interactivo -g
Luego ejecutar el comando seff, seguido del número que identifica al trabajo finalizado de interés. Por ejemplo:
$ seff 3996513
Devuelve, entre otras cosas:
Job ID: 3996513
Nodes: 1
Cores per node: 20
Job Wall-clock time: 00:11:58
Memory Utilized: 9.80 GB
Trabajos en ejecución y en espera
Para ver los trabajos en ejecución y en espera del usuario miUsuario solamente:
squeue -u miUsuario --long
De todos los usuarios:
squeue --long
Referencias
-
Tutorial Básico clusteruy de 11/23. Centro Nacional de Supercomputación. ClusterUY. (09/24). https://www.cluster.uy/images/sccad_2023.pdf
-
Comando sinfo de slurm. Slurm Support & Development. (09/24). https://slurm.schedmd.com/sinfo.html.