Utilización del sistema de colas en el HPC-4500
Nota para los usuarios de las colas del VPP300 o del AP3000 o conocedores del NQS:
El nuevo sistema de colas aporta nuevos comandos para enviar y controlar los trabajos que se envían a la cola. Sin embargo, se sigue manteniendo la compatibilidad con los comandos de manejo de colas que ya se utilizaban tanto en el AP como en el VPP; es decir, los comandos qsub, qstat y qdel siguen existiendo y pueden seguir utilizándose de la forma en que se venían utilizando en los otros ordenadores. Los nuevos comandos implementan la misma funcionalidad que los antiguos, además de añadir nuevas capacidades para el control de los trabajos.
Comandos para el manejo de las colas:
Información sobre las colas: bqueues [opcións] [cola]
Por ejemplo:
bqueues: Enseñar la lista de todas las colas y el estado en que se encuentran
bqueues –u nome_usuario: Enseñar la lista de las colas a las que tiene acceso el usuario especificado y el estado en que se encuentran
bqueues larga: Enseña información sobre la cola ´larga´
bqueues –l larga: Enseña información adicional sobre la cola ´larga´
Enviar un trabajo a una cola: bsub [opcións] < [script.lsf]
Se puede enviar un script con las opciones o bien enviar directamente el trabajo. Por ejemplo, el comando:
bsub –q corta –o saída.out –i entrada.in /home/c/programa
es equivalente a:
bsub < ejemplo.lsf
Con script ejemplo.lsf:
#BSUB –q corta
#BSUB –o saída.out
#BSUB –i entrada.in
cd /home/c
programa
Opciones más importantes:
-q nome_cola |
Envía el trabajo á cola indicada |
-J nome_traballo |
Asigna el nombre indicado al trabajo |
-o arquivo_saída |
Escribe la salida estándar del trabajo al archivo especificado |
-e arquivo_erros |
Escribe la salida de errores estándar del trabajo al archivo especificado |
-i arquivo_entrada |
El trabajo tiene como entrada estándar el fichero especificado |
-n min_proc[,max_proc] |
Indica el número mínimo y máximo de procesadores para ejecutar un trabajo paralelo. Si no se especifica ningún valor, só se utiliza 1 CPU, y si sólo se especifica un único valor n, se utilizará en CPUs |
-B |
Cuando comienza a ejecutarse el trabajo, se notifica por e-mail |
-N |
Cuando finaliza el trabajo, se notifica por e-mail |
-u usuario |
Enviar los e-mail a la dirección e-mail especificada en usuario |
Si no se especifican los archivos para la salida normal y de errores, los resultados serán enviados por e-mail al usuario que envió el trabajo (a menos que se especifique la opción –o, en este caso se enviará al usuario indicado en esta opción).
Controlar el estado en el que se encuentran los trabajos: bjobs [opcións] [jobID]
Opciones más importantes:
-a |
Informa sobre todos los trabajos en la cola |
-q nome_cola |
Informa unicamente sobre los trabajos en la cola especificada |
-l |
Muestra información sobre los trabajos en formato largo |
-u nome_usuario |
Informa unicamente sobre los trabajos del usuario indicado |
- J nome_traballo |
Muestra información unicamente sobre el trabajo indicado |
jobID |
Muestra información sobre el trabajo con este indicador (jobID) |
Los posibles estados en los que se puede encontrar un trabajo son los siguientes:
PEND |
El trabajo se encuentra a la espera de ser ejecutado |
PSUSP |
El trabajo ha pasado a estado suspendido mientras estaba esperando |
USUSP |
El trabajo ha pasado a estado suspendido cuando se estaba ejecutando |
RUN |
El trabajo se está ejecutando |
DONE |
El trabajo ha finalizado sin que se produciesen errores |
EXIT |
El trabajo ha finalizado debido a algún error en la ejecución o bien porque fue cancelado |
Eliminar un trabajo de la cola: bkill jobID
El jobID es el identificador del trabajo que se quiere cancelar. El trabajo se cancelará, tanto si está encolado (PEND) coma si está en ejecución (RUN) |