Estos son algunos comandos que considero útiles para el trabajo en el ClusterUY, más allá de los comandos básicos. Para saber cómo crear un usuario, conectarse al cluster y ejecutar un trabajo, ver la sección de ayuda del sitio del ClusterUY.

Los comandos hay que escribirlos una única vez, y luego se pueden reutilizar sin necesidad de escribirlos desde cero. Para esto se usa la combinación de teclas Ctrl+R en la línea de comandos, luego se empieza a escribir el comando de interés (ya utilizado), y una vez que aparece le damos a la tecla Tab para completar el comando.

A menos que se indique lo contrario, todos los comandos se ejecutan desde una consola en el ClusterUY. Es decir que primero hay que conectarse al cluster mediante ssh.

Conectarse a un nodo donde estamos ejecutando un trabajo

Podemos conectarnos a un nodo donde se está ejecutando uno de nuestros trabajos. Por ejemplo, si el trabajo de interés tiene número de identificación 3997077, usamos el comando:

$ srun --jobid=3997077 --pty bash -l

Una vez en el nodo, podemos ver detalles de la ejecución de nuestro trabajo mediante el comando htop (o top):

$ htop

Esto muestra la memoria RAM que está utilizando nuestro trabajo, y la cantidad de hilos (entre otras cosas).

Información sobre recursos de cada nodo

Para ver los nodos disponibles en el cluster y qué recursos de hardware tienen (en particular cantidad de memoria y cpus):

$ sinfo -Nel

Para tener más detalles del nodo de nombre “node24”:

$ scontrol show node node24

Memoria y tiempo de un trabajo finalizado

Una vez que finaliza un trabajo, podemos ver detalles de su ejecución, como el tiempo de ejecución y la máxima memoria RAM utilizada. Para esto primero hay que iniciar una sesión interactiva:

$ interactivo -g

Luego ejecutar el comando seff, seguido del número que identifica al trabajo finalizado de interés. Por ejemplo:

$ seff 3996513

Devuelve, entre otras cosas:

Job ID: 3996513
Nodes: 1
Cores per node: 20
Job Wall-clock time: 00:11:58
Memory Utilized: 9.80 GB

Trabajos en ejecución y en espera

Para ver los trabajos en ejecución y en espera del usuario miUsuario solamente:

squeue -u miUsuario --long

De todos los usuarios:

squeue --long

Referencias

  1. Tutorial Básico clusteruy de 11/23. Centro Nacional de Supercomputación. ClusterUY. (09/24). https://www.cluster.uy/images/sccad_2023.pdf

  2. Comando sinfo de slurm. Slurm Support & Development. (09/24). https://slurm.schedmd.com/sinfo.html.