Entorno SLURM (Dic 22, 2023)

Info de Users, Accounts y QOS

El Patagón utiliza el sistema de accounts y qos de SLURM para manejar el uso de recursos de forma balanceada entre usuarios. Existen limites de recursos a nivel de usuario, como también a nivel de account. Un account agrupa un conjunto de usuarios de una misma institución/laboratorio/departamento, y cada account tiene un QOS asociado el cual establece limites en el uso de recursos. A continuación se presenta información de utilidad para conocer los limites actuales puestos en el Patagón.

Queries útiles

  • Listar accounts existentes: sacctmgr list account
  • Consultar por el account asociado a mi cuenta: sacctmgr list user <user>
  • Listar los QOS existentes: sacctmgr list qos
  • Listar la asociación entre usuario, account y QOS: sacctmgr list association where user=<user>

Particiones

Existen las siguientes particiones:

  • A100: (En Mantención) Partición con 8x GPUs NVIDIA A100 y CPU Cores AMD Zen2. Ideal para trabajos de Inteligencia Artificial y HPC General. Para mas informacion ejecutar scontrol show partition A100.
  • L40: Partición con 3x GPUs NVIDIA L40 y CPU Cores AMD Zen4. Ideal para trabajos generales y gráficos en precision FP32. Para mas informacion ejecutar scontrol show partition L40.
  • A4000: Partición con 3x GPUs NVIDIA L40 y CPU Cores AMD Zen4. Ideal para trabajos generales y gráficos en precision FP32. Para mas informacion ejecutar scontrol show partition A4000.
  • cpu: Partición con núcleos AMD Zen4. Ideal para trabajos de CPU paralelos. Para mas informacion ejecutar scontrol show partition cpu.

QoS

Se definen los siguientes perfiles (QOS):

  • external: accounts SLURM externos a la UACh.

    • MaxTRESPerUser=cpu=24,gres/gpu=2
    • MaxJobsPerUser=2 (ejecución)
    • MaxSubmitJobsPerUser=2 (ejecución + encolados).
    • MaxJobsPerAccount=4
    • MaxSubmitJobsPerAccount=10
  • internal: accounts SLURM de la UACh.

    • MaxTRESPerUser=cpu=32,gres/gpu=4
    • MaxJobsPerUser=4
    • MaxSubmitJobsPerUser=4
    • MaxJobsPerAccount=8
    • MaxSubmitJobsPerAccount=20
  • temporal: grupo de investigación raíz del Patagón.

    • MaxJobsPerUser=8
    • MaxSubmitJobsPerUser=8