m6i.8xlarge
amazon testing on Ubuntu 22.04 via the Phoronix Test Suite.


m6i.8xlarge: 

	Processor: Intel Xeon Platinum 8375C (16 Cores / 32 Threads), Motherboard: Amazon EC2 m6i.8xlarge (1.0 BIOS), Chipset: Intel 440FX 82441FX PMC, Memory: 1 x 128 GB DDR4-3200MT/s, Disk: 537GB Amazon Elastic Block Store, Graphics: EFI VGA, Network: Amazon Elastic

	OS: Ubuntu 22.04, Kernel: 6.5.0-1017-aws (x86_64), Vulkan: 1.3.255, Compiler: GCC 11.4.0, File-System: ext4, Screen Resolution: 800x600, System Layer: amazon


Whisper.cpp 1.6.2
Model: ggml-medium.en - Input: 2016 State of the Union
Seconds < Lower Is Better
m6i.8xlarge . 977.35 |=========================================================


Whisper.cpp 1.6.2
Model: ggml-small.en - Input: 2016 State of the Union
Seconds < Lower Is Better
m6i.8xlarge . 347.07 |=========================================================


ONNX Runtime 1.17
Model: GPT-2 - Device: CPU - Executor: Standard
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 6.28573 |========================================================


ONNX Runtime 1.17
Model: GPT-2 - Device: CPU - Executor: Standard
Inferences Per Second > Higher Is Better
m6i.8xlarge . 160.21 |=========================================================


ONNX Runtime 1.17
Model: ArcFace ResNet-100 - Device: CPU - Executor: Standard
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 22.87 |==========================================================


ONNX Runtime 1.17
Model: ArcFace ResNet-100 - Device: CPU - Executor: Standard
Inferences Per Second > Higher Is Better
m6i.8xlarge . 44.47 |==========================================================


ONNX Runtime 1.17
Model: super-resolution-10 - Device: CPU - Executor: Standard
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 8.00676 |========================================================


ONNX Runtime 1.17
Model: super-resolution-10 - Device: CPU - Executor: Standard
Inferences Per Second > Higher Is Better
m6i.8xlarge . 131.79 |=========================================================


ONNX Runtime 1.17
Model: fcn-resnet101-11 - Device: CPU - Executor: Standard
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 257.87 |=========================================================


ONNX Runtime 1.17
Model: fcn-resnet101-11 - Device: CPU - Executor: Standard
Inferences Per Second > Higher Is Better
m6i.8xlarge . 3.92245 |========================================================


ONNX Runtime 1.17
Model: Faster R-CNN R-50-FPN-int8 - Device: CPU - Executor: Standard
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 204.97 |=========================================================


ONNX Runtime 1.17
Model: Faster R-CNN R-50-FPN-int8 - Device: CPU - Executor: Standard
Inferences Per Second > Higher Is Better
m6i.8xlarge . 4.88161 |========================================================


Whisper.cpp 1.6.2
Model: ggml-base.en - Input: 2016 State of the Union
Seconds < Lower Is Better
m6i.8xlarge . 131.72 |=========================================================


ONNX Runtime 1.17
Model: Faster R-CNN R-50-FPN-int8 - Device: CPU - Executor: Parallel
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 219.80 |=========================================================


ONNX Runtime 1.17
Model: Faster R-CNN R-50-FPN-int8 - Device: CPU - Executor: Parallel
Inferences Per Second > Higher Is Better
m6i.8xlarge . 4.55004 |========================================================


ONNX Runtime 1.17
Model: GPT-2 - Device: CPU - Executor: Parallel
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 7.51583 |========================================================


ONNX Runtime 1.17
Model: GPT-2 - Device: CPU - Executor: Parallel
Inferences Per Second > Higher Is Better
m6i.8xlarge . 132.96 |=========================================================


ONNX Runtime 1.17
Model: fcn-resnet101-11 - Device: CPU - Executor: Parallel
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 572.45 |=========================================================


ONNX Runtime 1.17
Model: fcn-resnet101-11 - Device: CPU - Executor: Parallel
Inferences Per Second > Higher Is Better
m6i.8xlarge . 1.74709 |========================================================


ONNX Runtime 1.17
Model: bertsquad-12 - Device: CPU - Executor: Parallel
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 67.65 |==========================================================


ONNX Runtime 1.17
Model: bertsquad-12 - Device: CPU - Executor: Parallel
Inferences Per Second > Higher Is Better
m6i.8xlarge . 14.78 |==========================================================


ONNX Runtime 1.17
Model: bertsquad-12 - Device: CPU - Executor: Standard
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 42.86 |==========================================================


ONNX Runtime 1.17
Model: bertsquad-12 - Device: CPU - Executor: Standard
Inferences Per Second > Higher Is Better
m6i.8xlarge . 23.33 |==========================================================


ONNX Runtime 1.17
Model: yolov4 - Device: CPU - Executor: Parallel
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 88.19 |==========================================================


ONNX Runtime 1.17
Model: yolov4 - Device: CPU - Executor: Parallel
Inferences Per Second > Higher Is Better
m6i.8xlarge . 11.34 |==========================================================


ONNX Runtime 1.17
Model: yolov4 - Device: CPU - Executor: Standard
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 64.75 |==========================================================


ONNX Runtime 1.17
Model: yolov4 - Device: CPU - Executor: Standard
Inferences Per Second > Higher Is Better
m6i.8xlarge . 15.44 |==========================================================


ONNX Runtime 1.17
Model: T5 Encoder - Device: CPU - Executor: Standard
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 3.91611 |========================================================


ONNX Runtime 1.17
Model: T5 Encoder - Device: CPU - Executor: Standard
Inferences Per Second > Higher Is Better
m6i.8xlarge . 255.15 |=========================================================


ONNX Runtime 1.17
Model: T5 Encoder - Device: CPU - Executor: Parallel
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 5.24137 |========================================================


ONNX Runtime 1.17
Model: T5 Encoder - Device: CPU - Executor: Parallel
Inferences Per Second > Higher Is Better
m6i.8xlarge . 190.74 |=========================================================


ONNX Runtime 1.17
Model: ArcFace ResNet-100 - Device: CPU - Executor: Parallel
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 28.82 |==========================================================


ONNX Runtime 1.17
Model: ArcFace ResNet-100 - Device: CPU - Executor: Parallel
Inferences Per Second > Higher Is Better
m6i.8xlarge . 34.70 |==========================================================


ONNX Runtime 1.17
Model: CaffeNet 12-int8 - Device: CPU - Executor: Standard
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 1.23548 |========================================================


ONNX Runtime 1.17
Model: CaffeNet 12-int8 - Device: CPU - Executor: Standard
Inferences Per Second > Higher Is Better
m6i.8xlarge . 808.41 |=========================================================


ONNX Runtime 1.17
Model: CaffeNet 12-int8 - Device: CPU - Executor: Parallel
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 1.80072 |========================================================


ONNX Runtime 1.17
Model: CaffeNet 12-int8 - Device: CPU - Executor: Parallel
Inferences Per Second > Higher Is Better
m6i.8xlarge . 554.93 |=========================================================


ONNX Runtime 1.17
Model: ResNet50 v1-12-int8 - Device: CPU - Executor: Standard
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 3.00865 |========================================================


ONNX Runtime 1.17
Model: ResNet50 v1-12-int8 - Device: CPU - Executor: Standard
Inferences Per Second > Higher Is Better
m6i.8xlarge . 332.25 |=========================================================


ONNX Runtime 1.17
Model: ResNet50 v1-12-int8 - Device: CPU - Executor: Parallel
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 3.47731 |========================================================


ONNX Runtime 1.17
Model: ResNet50 v1-12-int8 - Device: CPU - Executor: Parallel
Inferences Per Second > Higher Is Better
m6i.8xlarge . 287.50 |=========================================================


ONNX Runtime 1.17
Model: super-resolution-10 - Device: CPU - Executor: Parallel
Inference Time Cost (ms) < Lower Is Better
m6i.8xlarge . 10.14 |==========================================================


ONNX Runtime 1.17
Model: super-resolution-10 - Device: CPU - Executor: Parallel
Inferences Per Second > Higher Is Better
m6i.8xlarge . 98.62 |==========================================================


Llama.cpp b3067
Model: Meta-Llama-3-8B-Instruct-Q8_0.gguf
Tokens Per Second > Higher Is Better
m6i.8xlarge . 12.49 |==========================================================