Entorno SLURM (Dic 22, 2023)

Info de Users, Accounts y QOS

El Patagón utiliza el sistema de accounts y qos de SLURM para manejar el uso de recursos de forma balanceada entre usuarios. Existen limites de recursos a nivel de usuario, como también a nivel de account. Un account agrupa un conjunto de usuarios de una misma institución/laboratorio/departamento, y cada account tiene un QOS asociado el cual establece limites en el uso de recursos. A continuación se presenta información de utilidad para conocer los limites actuales puestos en el Patagón.

Queries útiles

  • Listar accounts existentes: sacctmgr list account
  • Consultar por el account asociado a mi cuenta: sacctmgr list user <user>
  • Listar los QOS existentes: sacctmgr list qos
  • Listar la asociación entre usuario, account y QOS: sacctmgr list association where user=<user>

Particiones

Existen las particiones gpu, rtx y cpu:

  • gpu: Partición con 8x GPUs NVIDIA A100 y CPU Cores AMD Zen2. Ideal para trabajos de Inteligencia Artificial y HPC General.

    • MaxCPUsPerNode=64
    • DefMemPerNode=65556
    • DefCpuPerGPU=8
    • DefMemPerGPU=65556
    • MaxMemPerNode=532000
    • MaxTime=3-12:00:00
  • rtx: Partición con 3x GPUs NVIDIA L40 y CPU Cores AMD Zen4. Ideal para trabajos generales y gráficos en precision FP32.

    • MaxCPUsPerNode=128
    • DefMemPerNode=65556
    • DefCpuPerGPU=8
    • DefMemPerGPU=65556
    • MaxMemPerNode=600000
    • MaxTime=7-00:00:00
  • cpu: Partición con núcleos AMD Zen2. Ideal para trabajos generales que solo usan CPUs.

    • MaxCPUsPerNode=64
    • fMemPerNode=16384
    • MaxMemPerNode=420000
    • MaxTime=3-12:00:00

QoS

Se definen los siguientes perfiles (QOS):

  • external: accounts SLURM externos a la UACh.

    • MaxTRESPerUser=cpu=24,gres/gpu=2
    • MaxJobsPerUser=2 (ejecución)
    • MaxSubmitJobsPerUser=2 (ejecución + encolados).
    • MaxJobsPerAccount=4
    • MaxSubmitJobsPerAccount=10
  • internal: accounts SLURM de la UACh.

    • MaxTRESPerUser=cpu=32,gres/gpu=4
    • MaxJobsPerUser=4
    • MaxSubmitJobsPerUser=4
    • MaxJobsPerAccount=8
    • MaxSubmitJobsPerAccount=20
  • temporal: grupo de investigación raíz del Patagón.

    • MaxJobsPerUser=8
    • MaxSubmitJobsPerUser=8