RTX 4070 SUPER

Intel Core i9-13900K testing with a ASUS TUF GAMING Z790-PRO WIFI (1401 BIOS) and NVIDIA GeForce RTX 3090 24GB on EndeavourOS rolling via the Phoronix Test Suite.

HTML result view exported from: https://openbenchmarking.org/result/2402116-SADD-240207012&sro&grs.

VkFFT

Test: FFT + iFFT C2C 1D batched in half precision

ProjectPhysX OpenCL-Benchmark

Operation: Memory Bandwidth Coalesced Write

VkFFT

Test: FFT + iFFT C2C 1D batched in single precision, no reshuffling

VkFFT

Test: FFT + iFFT C2C 1D batched in single precision

clpeak

OpenCL Test: Global Memory Bandwidth

ProjectPhysX OpenCL-Benchmark

Operation: Memory Bandwidth Coalesced Read

cl-mem

Benchmark: Write

cl-mem

Benchmark: Read

VkResample

Upscale: 2x - Precision: Single

ViennaCL

Test: OpenCL BLAS - dAXPY

NAMD CUDA

ATPase Simulation - 327,506 Atoms

Libplacebo

Test: hdr_peakdetect

ViennaCL

Test: OpenCL BLAS - dDOT

LuxCoreRender

Scene: Rainbow Colors and Prism - Acceleration: GPU

ViennaCL

Test: OpenCL BLAS - dCOPY

RealSR-NCNN

Scale: 4x - TAA: Yes

ProjectPhysX OpenCL-Benchmark

Operation: INT64 Compute

VkFFT

Test: FFT + iFFT C2C 1D batched in double precision

clpeak

OpenCL Test: Integer Compute INT

clpeak

OpenCL Test: Single-Precision Float

NeatBench

Acceleration: GPU

Hashcat

Benchmark: MD5

Hashcat

Benchmark: TrueCrypt RIPEMD160 + XTS

ProjectPhysX OpenCL-Benchmark

Operation: INT8 Compute

Hashcat

Benchmark: SHA-512

GpuOwl

Exponent: 332220523

clpeak

OpenCL Test: Double-Precision Double

ProjectPhysX OpenCL-Benchmark

Operation: FP64 Compute

Hashcat

Benchmark: SHA1

Hashcat

Benchmark: 7-Zip

ViennaCL

Test: OpenCL BLAS - dGEMM-TT

VkResample

Upscale: 2x - Precision: Double

ProjectPhysX OpenCL-Benchmark

Operation: FP32 Compute

GpuOwl

Exponent: 57885161

ProjectPhysX OpenCL-Benchmark

Operation: INT32 Compute

ViennaCL

Test: OpenCL BLAS - dGEMM-TN

ViennaCL

Test: OpenCL BLAS - dGEMM-NT

ViennaCL

Test: OpenCL BLAS - sAXPY

ProjectPhysX OpenCL-Benchmark

Operation: INT16 Compute

MandelGPU

OpenCL Device: GPU

ViennaCL

Test: OpenCL BLAS - dGEMM-NN

GpuOwl

Exponent: 77936867

Libplacebo

Test: deband_heavy

Libplacebo

Test: polar_nocompute

Rodinia

Test: OpenCL Particle Filter

Blender

Blend File: Classroom - Compute: NVIDIA OptiX

Blender

Blend File: Pabellon Barcelona - Compute: NVIDIA OptiX

LuxCoreRender

Scene: Danish Mood - Acceleration: GPU

Blender

Blend File: Fishy Cat - Compute: NVIDIA OptiX

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 256 - Model: ResNet-152

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 32 - Model: ResNet-152

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 16 - Model: ResNet-50

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 512 - Model: ResNet-50

LuxCoreRender

Scene: LuxCore Benchmark - Acceleration: GPU

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 64 - Model: ResNet-50

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 256 - Model: ResNet-50

FAHBench

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 32 - Model: ResNet-50

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 64 - Model: ResNet-152

Libplacebo

Test: hdr_lut

VkFFT

Test: FFT + iFFT C2C Bluestein benchmark in double precision

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 16 - Model: ResNet-152

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 512 - Model: ResNet-152

VkFFT

Test: FFT + iFFT R2C / C2R

LuxCoreRender

Scene: Orange Juice - Acceleration: GPU

Blender

Blend File: BMW27 - Compute: NVIDIA OptiX

Blender

Blend File: Barbershop - Compute: NVIDIA OptiX

IndigoBench

Acceleration: OpenCL GPU - Scene: Bedroom

OctaneBench

Total Score

ViennaCL

Test: OpenCL BLAS - dGEMV-N

Waifu2x-NCNN Vulkan

Scale: 2x - Denoise: 3 - TAA: Yes

VkFFT

Test: FFT + iFFT C2C Bluestein in single precision

IndigoBench

Acceleration: OpenCL GPU - Scene: Supercar

ViennaCL

Test: OpenCL BLAS - sCOPY

ViennaCL

Test: CPU BLAS - dGEMM-TT

cl-mem

Benchmark: Copy

VkFFT

Test: FFT + iFFT C2C multidimensional in single precision

ViennaCL

Test: CPU BLAS - dGEMM-TN

ViennaCL

Test: CPU BLAS - dGEMM-NN

TensorFlow

Device: GPU - Batch Size: 1 - Model: AlexNet

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 16 - Model: Efficientnet_v2_l

ViennaCL

Test: OpenCL BLAS - dGEMV-T

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 512 - Model: Efficientnet_v2_l

ViennaCL

Test: CPU BLAS - dGEMM-NT

ViennaCL

Test: OpenCL BLAS - sDOT

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 256 - Model: Efficientnet_v2_l

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 64 - Model: Efficientnet_v2_l

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 1 - Model: Efficientnet_v2_l

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 1 - Model: ResNet-152

TensorFlow

Device: GPU - Batch Size: 1 - Model: VGG-16

ViennaCL

Test: CPU BLAS - sAXPY

Libplacebo

Test: av1_grain_lap

TensorFlow

Device: GPU - Batch Size: 16 - Model: AlexNet

ViennaCL

Test: CPU BLAS - dDOT

TensorFlow

Device: GPU - Batch Size: 1 - Model: GoogLeNet

ViennaCL

Test: CPU BLAS - dCOPY

TensorFlow

Device: GPU - Batch Size: 512 - Model: AlexNet

TensorFlow

Device: GPU - Batch Size: 16 - Model: VGG-16

TensorFlow

Device: GPU - Batch Size: 256 - Model: AlexNet

TensorFlow

Device: GPU - Batch Size: 32 - Model: GoogLeNet

ViennaCL

Test: CPU BLAS - dAXPY

TensorFlow

Device: GPU - Batch Size: 32 - Model: ResNet-50

ViennaCL

Test: CPU BLAS - dGEMV-N

TensorFlow

Device: GPU - Batch Size: 64 - Model: GoogLeNet

vkpeak

fp32-vec4

ViennaCL

Test: CPU BLAS - sCOPY

TensorFlow

Device: GPU - Batch Size: 64 - Model: ResNet-50

TensorFlow

Device: GPU - Batch Size: 32 - Model: AlexNet

TensorFlow

Device: GPU - Batch Size: 1 - Model: ResNet-50

TensorFlow

Device: GPU - Batch Size: 256 - Model: VGG-16

TensorFlow

Device: GPU - Batch Size: 64 - Model: VGG-16

TensorFlow

Device: GPU - Batch Size: 16 - Model: ResNet-50

vkpeak

fp32-scalar

TensorFlow

Device: GPU - Batch Size: 64 - Model: AlexNet

vkpeak

int16-scalar

vkpeak

fp16-scalar

vkpeak

fp16-vec4

vkpeak

int16-vec4

TensorFlow

Device: GPU - Batch Size: 16 - Model: GoogLeNet

vkpeak

int32-scalar

vkpeak

fp64-vec4

vkpeak

int32-vec4

vkpeak

fp64-scalar

TensorFlow

Device: GPU - Batch Size: 32 - Model: VGG-16

NCNN

Target: Vulkan GPU - Model: FastestDet

NCNN

Target: Vulkan GPU - Model: vision_transformer

NCNN

Target: Vulkan GPU - Model: regnety_400m

NCNN

Target: Vulkan GPU - Model: squeezenet_ssd

NCNN

Target: Vulkan GPU - Model: yolov4-tiny

NCNN

Target: Vulkan GPU - Model: resnet50

NCNN

Target: Vulkan GPU - Model: alexnet

NCNN

Target: Vulkan GPU - Model: resnet18

NCNN

Target: Vulkan GPU - Model: vgg16

NCNN

Target: Vulkan GPU - Model: googlenet

NCNN

Target: Vulkan GPU - Model: blazeface

NCNN

Target: Vulkan GPU - Model: efficientnet-b0

NCNN

Target: Vulkan GPU - Model: mnasnet

NCNN

Target: Vulkan GPU - Model: shufflenet-v2

NCNN

Target: Vulkan GPU-v3-v3 - Model: mobilenet-v3

NCNN

Target: Vulkan GPU-v2-v2 - Model: mobilenet-v2

NCNN

Target: Vulkan GPU - Model: mobilenet

ViennaCL

Test: CPU BLAS - dGEMV-T

ViennaCL

Test: CPU BLAS - sDOT

FinanceBench

Benchmark: Black-Scholes OpenCL

LuxCoreRender

Scene: DLSC - Acceleration: GPU

RealSR-NCNN

Scale: 4x - TAA: No

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 32 - Model: Efficientnet_v2_l

PyTorch

Device: NVIDIA CUDA GPU - Batch Size: 1 - Model: ResNet-50

Phoronix Test Suite v10.8.5