Microsoft Azure HBv4 HPC Comparison Benchmarks

Benchmarks for a future article on Phoronix looking at HBv4 Genoa-X Linux performance..

HTML result view exported from: https://openbenchmarking.org/result/2307054-PTS-AZUREHPC63&rdt&grw.

HeFFTe - Highly Efficient FFT for Exascale

Test: r2c - Backend: FFTW - Precision: double - X Y Z: 512

HeFFTe - Highly Efficient FFT for Exascale

Test: r2c - Backend: Stock - Precision: float - X Y Z: 512

High Performance Conjugate Gradient

X Y Z: 144 144 144 - RT: 60

HeFFTe - Highly Efficient FFT for Exascale

Test: r2c - Backend: Stock - Precision: double-long - X Y Z: 512

HeFFTe - Highly Efficient FFT for Exascale

Test: r2c - Backend: FFTW - Precision: float - X Y Z: 256

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: FFTW - Precision: double - X Y Z: 128

High Performance Conjugate Gradient

X Y Z: 160 160 160 - RT: 60

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: FFTW - Precision: float - X Y Z: 256

NAS Parallel Benchmarks

Test / Class: BT.C

NAS Parallel Benchmarks

Test / Class: CG.C

NAS Parallel Benchmarks

Test / Class: EP.D

NAS Parallel Benchmarks

Test / Class: FT.C

NAS Parallel Benchmarks

Test / Class: IS.D

NAS Parallel Benchmarks

Test / Class: MG.C

oneDNN

Harness: IP Shapes 1D - Data Type: f32 - Engine: CPU

HeFFTe - Highly Efficient FFT for Exascale

Test: r2c - Backend: Stock - Precision: double - X Y Z: 256

NAS Parallel Benchmarks

Test / Class: SP.C

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: FFTW - Precision: float - X Y Z: 512

NAMD

ATPase Simulation - 327,506 Atoms

HeFFTe - Highly Efficient FFT for Exascale

Test: r2c - Backend: FFTW - Precision: float - X Y Z: 512

libxsmm

M N K: 128

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: FFTW - Precision: double - X Y Z: 256

libxsmm

M N K: 256

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: Stock - Precision: double-long - X Y Z: 512

libxsmm

M N K: 32

HeFFTe - Highly Efficient FFT for Exascale

Test: r2c - Backend: FFTW - Precision: double - X Y Z: 256

libxsmm

M N K: 64

HeFFTe - Highly Efficient FFT for Exascale

Test: r2c - Backend: Stock - Precision: float - X Y Z: 256

Laghos

Test: Triple Point Problem

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: Stock - Precision: double - X Y Z: 128

Laghos

Test: Sedov Blast Wave, ube_922_hex.mesh

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: Stock - Precision: double - X Y Z: 512

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: FFTW - Precision: double - X Y Z: 512

oneDNN

Harness: IP Shapes 3D - Data Type: f32 - Engine: CPU

HeFFTe - Highly Efficient FFT for Exascale

Test: r2c - Backend: FFTW - Precision: double-long - X Y Z: 512

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: Stock - Precision: float - X Y Z: 256

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: Stock - Precision: float-long - X Y Z: 512

HeFFTe - Highly Efficient FFT for Exascale

Test: r2c - Backend: FFTW - Precision: double-long - X Y Z: 256

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: FFTW - Precision: double-long - X Y Z: 512

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: Stock - Precision: float-long - X Y Z: 256

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: FFTW - Precision: double-long - X Y Z: 128

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: FFTW - Precision: double-long - X Y Z: 256

HeFFTe - Highly Efficient FFT for Exascale

Test: r2c - Backend: FFTW - Precision: float-long - X Y Z: 512

HeFFTe - Highly Efficient FFT for Exascale

Test: r2c - Backend: FFTW - Precision: float-long - X Y Z: 256

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: FFTW - Precision: float-long - X Y Z: 512

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: FFTW - Precision: float-long - X Y Z: 256

oneDNN

Harness: Convolution Batch Shapes Auto - Data Type: f32 - Engine: CPU

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: Stock - Precision: double-long - X Y Z: 256

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: Stock - Precision: float - X Y Z: 512

HeFFTe - Highly Efficient FFT for Exascale

Test: r2c - Backend: Stock - Precision: double-long - X Y Z: 256

HeFFTe - Highly Efficient FFT for Exascale

Test: c2c - Backend: Stock - Precision: double - X Y Z: 256

oneDNN

Harness: Deconvolution Batch shapes_3d - Data Type: f32 - Engine: CPU

oneDNN

Harness: Recurrent Neural Network Training - Data Type: f32 - Engine: CPU

HeFFTe - Highly Efficient FFT for Exascale

Test: r2c - Backend: Stock - Precision: double - X Y Z: 512

oneDNN

Harness: Recurrent Neural Network Inference - Data Type: f32 - Engine: CPU

oneDNN

Harness: Recurrent Neural Network Training - Data Type: bf16bf16bf16 - Engine: CPU

oneDNN

Harness: Recurrent Neural Network Inference - Data Type: bf16bf16bf16 - Engine: CPU

ACES DGEMM

Sustained Floating-Point Rate

Remhos

Test: Sample Remap Example

Pennant

Test: sedovbig

Pennant

Test: leblancbig

7-Zip Compression

Test: Compression Rating

7-Zip Compression

Test: Decompression Rating

Timed Linux Kernel Compilation

Build: allmodconfig

HeFFTe - Highly Efficient FFT for Exascale

Test: r2c - Backend: Stock - Precision: float-long - X Y Z: 256

Blender

Blend File: BMW27 - Compute: CPU-Only

Blender

Blend File: Classroom - Compute: CPU-Only

Blender

Blend File: Fishy Cat - Compute: CPU-Only

Blender

Blend File: Barbershop - Compute: CPU-Only

Blender

Blend File: Pabellon Barcelona - Compute: CPU-Only

Intel Open Image Denoise

Run: RT.hdr_alb_nrm.3840x2160 - Device: CPU-Only

Intel Open Image Denoise

Run: RT.ldr_alb_nrm.3840x2160 - Device: CPU-Only

Intel Open Image Denoise

Run: RTLightmap.hdr.4096x4096 - Device: CPU-Only

OSPRay

Benchmark: particle_volume/ao/real_time

OSPRay

Benchmark: particle_volume/scivis/real_time

OSPRay

Benchmark: particle_volume/pathtracer/real_time

OSPRay

Benchmark: gravity_spheres_volume/dim_512/ao/real_time

OSPRay

Benchmark: gravity_spheres_volume/dim_512/scivis/real_time

OSPRay

Benchmark: gravity_spheres_volume/dim_512/pathtracer/real_time

HeFFTe - Highly Efficient FFT for Exascale

Test: r2c - Backend: Stock - Precision: float-long - X Y Z: 512

Timed Node.js Compilation

Time To Compile

Liquid-DSP

Threads: 1 - Buffer Length: 256 - Filter Length: 32

Liquid-DSP

Threads: 32 - Buffer Length: 256 - Filter Length: 32

Liquid-DSP

Threads: 32 - Buffer Length: 256 - Filter Length: 57

Liquid-DSP

Threads: 128 - Buffer Length: 256 - Filter Length: 32

Liquid-DSP

Threads: 128 - Buffer Length: 256 - Filter Length: 57

Liquid-DSP

Threads: 176 - Buffer Length: 256 - Filter Length: 32

Liquid-DSP

Threads: 176 - Buffer Length: 256 - Filter Length: 57

Liquid-DSP

Threads: 176 - Buffer Length: 256 - Filter Length: 512

PostgreSQL

Scaling Factor: 1 - Clients: 500 - Mode: Read Only

PostgreSQL

Scaling Factor: 1 - Clients: 500 - Mode: Read Only - Average Latency

PostgreSQL

Scaling Factor: 1 - Clients: 800 - Mode: Read Only

PostgreSQL

Scaling Factor: 1 - Clients: 800 - Mode: Read Only - Average Latency

PETSc

Test: Streams

High Performance Conjugate Gradient

X Y Z: 104 104 104 - RT: 60

Phoronix Test Suite v10.8.5