Utilización do sistema de colas no HPC-4500
Nota para os usuarios das colas do VPP300 ou do AP3000 ou coñecedores do NQS:
O novo sistema de colas aporta novos comandos para enviar e controlar os traballos que se envían á cola. Porén, séguese mantendo a compatibilidade cos comandos de manexo de colas que xa se utilizaban tanto no AP como no VPP; é dicir, os comandos qsub, qstat e qdel seguen existindo e poden seguir utilizándose do xeito no que se viñan utilizando nos outros ordenadores. Os novos comandos implementan a mesma funcionalidade que os antigos, ademais de engadir novas capacidades para o control dos traballos.
Comandos para o manexo das colas:
Información sobre as colas: bqueues [opcións] [cola]
Por exemplo:
bqueues: Amosa a lista de tódalas colas e o estado en que se encontran
bqueues –u nome_usuario: Amosa a lista das colas as que ten acceso o usuario especificado e o estado en que se encontran
bqueues larga: Amosa información sobre a cola ´larga´
bqueues –l larga: Amosa información adicional sobre a cola ´larga´
Enviar un traballo a unha cola: bsub [opcións] < [script.lsf]
Pódese enviar un script coas opcións ou ben enviar directamente o traballo. Por exemplo, o comando:
bsub –q corta –o saída.out –i entrada.in /home/c/programa
é equivalente a:
bsub < ejemplo.lsf
Co script exemplo.lsf:
#BSUB –q corta
#BSUB –o saída.out
#BSUB –i entrada.in
cd /home/c
programa
Opcións máis importantes:
-q nome_cola |
Envía o traballo á cola indicada |
-J nome_traballo |
Asigna o nome indicado ao traballo |
-o arquivo_saída |
Escribe a saída estándar do traballo ao arquivo especificado |
-e arquivo_erros |
Escribe a saída de erros estándar do traballo ao arquivo especificado |
-i arquivo_entrada |
O traballo ten como entrada estándar o ficheiro especificado |
-n min_proc[,max_proc] |
Indica o número mínimo e máximo de procesadores para executar un traballo paralelo. Se non se especifica ningún valor, só se utiliza 1 CPU, e se só se especifica un único valor n, utilizaránse n CPUs |
-B |
Cando comeza a executarse o traballo, notifícase por e-mail |
-N |
Cando finaliza o traballo, notifícase por e-mail |
-u usuario |
Enviar os e-mail á dirección e-mail especificada en usuario |
Se non se especifican os arquivos para a saída normal e de erros, os resultados serán enviados por e-mail ao usuario que enviou o traballo (a menos que se especifique a opción –u, neste caso enviarase ao usuario indicado nesta opción).
Controlar o estado no que se atopan os traballos: bjobs [opcións] [jobID]
Opcións máis importantes:
-a |
Informa sobre todos os traballos na cola |
-q nome_cola |
Informa unicamente sobre os traballos na cola especificada |
-l |
Amosa información sobre os traballos en formato longo |
-u nome_usuario |
Informa unicamente sobre os traballos do usuario indicado |
- J nome_traballo |
Amosa información unicamente sobre o traballo indicado |
jobID |
Amosa información sobre o traballo con este indicador (jobID) |
Os posibles estados nos que se pode encontrar un traballo son os seguintes:
PEND |
O traballo atópase á espera de ser executado |
PSUSP |
O traballo ten pasado a estado suspendido mentres estaba esperando |
USUSP |
O traballo ten pasado a estado suspendido cando se estaba executando |
RUN |
O traballo estase executando |
DONE |
O traballo ten finalizado sen que se produciran erros |
EXIT |
O traballo ten finalizado debido a algún erro na execución ou ben porque foi cancelado |
Eliminar un traballo da cola: bkill jobID
O jobID é o identificador do traballo que se quere cancelar. O traballo cancelarase, tanto se está encolado (PEND) coma se está en execución (RUN)
|