SIMD support for math intrinsics (#379)

simeonschaub · web-flow · commit 11ed992e16a6 · 2025-11-13T09:24:12.000Z
diff --git a/lib/intrinsics/Project.toml b/lib/intrinsics/Project.toml
@@ -1,17 +1,24 @@
 name = "SPIRVIntrinsics"
 uuid = "71d1d633-e7e8-4a92-83a1-de8814b09ba8"
 authors = ["Tim Besard <tim.besard@gmail.com>"]
-version = "0.5.3"
+version = "0.5.4"
 
 [deps]
 ExprTools = "e2ba6199-217a-4e67-a87a-7c52f15ade04"
 GPUToolbox = "096a3bc2-3ced-46d0-87f4-dd12716f4bfc"
 LLVM = "929cbde3-209d-540e-8aea-75f648917ca0"
 SpecialFunctions = "276daf66-3868-5448-9aa4-cd146d93841b"
 
+[weakdeps]
+SIMD = "fdea26ae-647d-5447-a871-4b548cad5224"
+
+[extensions]
+SPIRVIntrinsicsSIMDExt = "SIMD"
+
 [compat]
 ExprTools = "0.1"
 GPUToolbox = "0.2, 0.3, 1"
 LLVM = "9.1"
+SIMD = "3.6"
 SpecialFunctions = "1.3, 2"
 julia = "1.10"
diff --git a/lib/intrinsics/ext/SPIRVIntrinsicsSIMDExt.jl b/lib/intrinsics/ext/SPIRVIntrinsicsSIMDExt.jl
@@ -0,0 +1,121 @@
+module SPIRVIntrinsicsSIMDExt
+
+using SPIRVIntrinsics
+using SPIRVIntrinsics: @device_override, @device_function, @builtin_ccall, @typed_ccall
+using SIMD
+import SpecialFunctions
+
+const known_intrinsics = String[]
+
+# Generate vectorized math intrinsics
+for N in [2, 3, 4, 8, 16], T in [Float16, Float32, Float64]
+    VT = :(Vec{$N,$T})
+    LVT = :(SIMD.LVec{$N,$T})
+
+    @eval begin
+        # Unary operations
+        @device_override @inline Base.acos(x::$VT) = $VT(@builtin_ccall("acos", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.acosh(x::$VT) = $VT(@builtin_ccall("acosh", $LVT, ($LVT,), x.data))
+        @device_function @inline SPIRVIntrinsics.acospi(x::$VT) = $VT(@builtin_ccall("acospi", $LVT, ($LVT,), x.data))
+
+        @device_override @inline Base.asin(x::$VT) = $VT(@builtin_ccall("asin", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.asinh(x::$VT) = $VT(@builtin_ccall("asinh", $LVT, ($LVT,), x.data))
+        @device_function @inline SPIRVIntrinsics.asinpi(x::$VT) = $VT(@builtin_ccall("asinpi", $LVT, ($LVT,), x.data))
+
+        @device_override @inline Base.atan(x::$VT) = $VT(@builtin_ccall("atan", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.atanh(x::$VT) = $VT(@builtin_ccall("atanh", $LVT, ($LVT,), x.data))
+        @device_function @inline SPIRVIntrinsics.atanpi(x::$VT) = $VT(@builtin_ccall("atanpi", $LVT, ($LVT,), x.data))
+
+        @device_override @inline Base.cbrt(x::$VT) = $VT(@builtin_ccall("cbrt", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.ceil(x::$VT) = $VT(@builtin_ccall("ceil", $LVT, ($LVT,), x.data))
+
+        @device_override @inline Base.cos(x::$VT) = $VT(@builtin_ccall("cos", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.cosh(x::$VT) = $VT(@builtin_ccall("cosh", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.cospi(x::$VT) = $VT(@builtin_ccall("cospi", $LVT, ($LVT,), x.data))
+
+        @device_override @inline SpecialFunctions.erfc(x::$VT) = $VT(@builtin_ccall("erfc", $LVT, ($LVT,), x.data))
+        @device_override @inline SpecialFunctions.erf(x::$VT) = $VT(@builtin_ccall("erf", $LVT, ($LVT,), x.data))
+
+        @device_override @inline Base.exp(x::$VT) = $VT(@builtin_ccall("exp", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.exp2(x::$VT) = $VT(@builtin_ccall("exp2", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.exp10(x::$VT) = $VT(@builtin_ccall("exp10", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.expm1(x::$VT) = $VT(@builtin_ccall("expm1", $LVT, ($LVT,), x.data))
+
+        @device_override @inline Base.abs(x::$VT) = $VT(@builtin_ccall("fabs", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.floor(x::$VT) = $VT(@builtin_ccall("floor", $LVT, ($LVT,), x.data))
+
+        @device_override @inline SpecialFunctions.loggamma(x::$VT) = $VT(@builtin_ccall("lgamma", $LVT, ($LVT,), x.data))
+
+        @device_override @inline Base.log(x::$VT) = $VT(@builtin_ccall("log", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.log2(x::$VT) = $VT(@builtin_ccall("log2", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.log10(x::$VT) = $VT(@builtin_ccall("log10", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.log1p(x::$VT) = $VT(@builtin_ccall("log1p", $LVT, ($LVT,), x.data))
+        @device_function @inline SPIRVIntrinsics.logb(x::$VT) = $VT(@builtin_ccall("logb", $LVT, ($LVT,), x.data))
+
+        @device_function @inline SPIRVIntrinsics.rint(x::$VT) = $VT(@builtin_ccall("rint", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.round(x::$VT) = $VT(@builtin_ccall("round", $LVT, ($LVT,), x.data))
+        @device_function @inline SPIRVIntrinsics.rsqrt(x::$VT) = $VT(@builtin_ccall("rsqrt", $LVT, ($LVT,), x.data))
+
+        @device_override @inline Base.sin(x::$VT) = $VT(@builtin_ccall("sin", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.sinh(x::$VT) = $VT(@builtin_ccall("sinh", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.sinpi(x::$VT) = $VT(@builtin_ccall("sinpi", $LVT, ($LVT,), x.data))
+
+        @device_override @inline Base.sqrt(x::$VT) = $VT(@builtin_ccall("sqrt", $LVT, ($LVT,), x.data))
+
+        @device_override @inline Base.tan(x::$VT) = $VT(@builtin_ccall("tan", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.tanh(x::$VT) = $VT(@builtin_ccall("tanh", $LVT, ($LVT,), x.data))
+        @device_override @inline Base.tanpi(x::$VT) = $VT(@builtin_ccall("tanpi", $LVT, ($LVT,), x.data))
+
+        @device_override @inline SpecialFunctions.gamma(x::$VT) = $VT(@builtin_ccall("tgamma", $LVT, ($LVT,), x.data))
+
+        @device_override @inline Base.trunc(x::$VT) = $VT(@builtin_ccall("trunc", $LVT, ($LVT,), x.data))
+
+        # Binary operations
+        @device_override @inline Base.atan(y::$VT, x::$VT) = $VT(@builtin_ccall("atan2", $LVT, ($LVT, $LVT), y.data, x.data))
+        @device_function @inline SPIRVIntrinsics.atanpi(y::$VT, x::$VT) = $VT(@builtin_ccall("atan2pi", $LVT, ($LVT, $LVT), y.data, x.data))
+
+        @device_override @inline Base.copysign(x::$VT, y::$VT) = $VT(@builtin_ccall("copysign", $LVT, ($LVT, $LVT), x.data, y.data))
+        @device_function @inline SPIRVIntrinsics.dim(x::$VT, y::$VT) = $VT(@builtin_ccall("fdim", $LVT, ($LVT, $LVT), x.data, y.data))
+
+        @device_override @inline Base.hypot(x::$VT, y::$VT) = $VT(@builtin_ccall("hypot", $LVT, ($LVT, $LVT), x.data, y.data))
+
+        @device_override @inline Base.max(x::$VT, y::$VT) = $VT(@builtin_ccall("fmax", $LVT, ($LVT, $LVT), x.data, y.data))
+        @device_override @inline Base.min(x::$VT, y::$VT) = $VT(@builtin_ccall("fmin", $LVT, ($LVT, $LVT), x.data, y.data))
+
+        @device_function @inline SPIRVIntrinsics.maxmag(x::$VT, y::$VT) = $VT(@builtin_ccall("maxmag", $LVT, ($LVT, $LVT), x.data, y.data))
+        @device_function @inline SPIRVIntrinsics.minmag(x::$VT, y::$VT) = $VT(@builtin_ccall("minmag", $LVT, ($LVT, $LVT), x.data, y.data))
+
+        @device_function @inline SPIRVIntrinsics.nextafter(x::$VT, y::$VT) = $VT(@builtin_ccall("nextafter", $LVT, ($LVT, $LVT), x.data, y.data))
+
+        @device_override @inline Base.:(^)(x::$VT, y::$VT) = $VT(@builtin_ccall("pow", $LVT, ($LVT, $LVT), x.data, y.data))
+        @device_function @inline SPIRVIntrinsics.powr(x::$VT, y::$VT) = $VT(@builtin_ccall("powr", $LVT, ($LVT, $LVT), x.data, y.data))
+
+        @device_override @inline Base.rem(x::$VT, y::$VT) = $VT(@builtin_ccall("remainder", $LVT, ($LVT, $LVT), x.data, y.data))
+
+        # Ternary operations
+        @device_override @inline Base.fma(a::$VT, b::$VT, c::$VT) = $VT(@builtin_ccall("fma", $LVT, ($LVT, $LVT, $LVT), a.data, b.data, c.data))
+        @device_function @inline SPIRVIntrinsics.mad(a::$VT, b::$VT, c::$VT) = $VT(@builtin_ccall("mad", $LVT, ($LVT, $LVT, $LVT), a.data, b.data, c.data))
+    end
+
+    # Special operations with Int32 parameters
+    VIntT = :(Vec{$N,Int32})
+    LVIntT = :(SIMD.LVec{$N,Int32})
+
+    @eval begin
+        @device_function @inline SPIRVIntrinsics.ilogb(x::$VT) = $VIntT(@builtin_ccall("ilogb", $LVIntT, ($LVT,), x.data))
+        @device_override @inline Base.ldexp(x::$VT, k::$VIntT) = $VT(@builtin_ccall("ldexp", $LVT, ($LVT, $LVIntT), x.data, k.data))
+        @device_override @inline Base.:(^)(x::$VT, y::$VIntT) = $VT(@builtin_ccall("pown", $LVT, ($LVT, $LVIntT), x.data, y.data))
+        @device_function @inline SPIRVIntrinsics.rootn(x::$VT, y::$VIntT) = $VT(@builtin_ccall("rootn", $LVT, ($LVT, $LVIntT), x.data, y.data))
+    end
+end
+
+# nan functions - take unsigned integer codes and return floats
+for N in [2, 3, 4, 8, 16]
+    @eval begin
+        @device_function @inline SPIRVIntrinsics.nan(nancode::Vec{$N,UInt16}) = Vec{$N,Float16}(@builtin_ccall("nan", SIMD.LVec{$N,Float16}, (SIMD.LVec{$N,UInt16},), nancode.data))
+        @device_function @inline SPIRVIntrinsics.nan(nancode::Vec{$N,UInt32}) = Vec{$N,Float32}(@builtin_ccall("nan", SIMD.LVec{$N,Float32}, (SIMD.LVec{$N,UInt32},), nancode.data))
+        @device_function @inline SPIRVIntrinsics.nan(nancode::Vec{$N,UInt64}) = Vec{$N,Float64}(@builtin_ccall("nan", SIMD.LVec{$N,Float64}, (SIMD.LVec{$N,UInt64},), nancode.data))
+    end
+end
+
+end # module
diff --git a/lib/intrinsics/src/utils.jl b/lib/intrinsics/src/utils.jl
@@ -39,17 +39,18 @@ macro builtin_ccall(name, ret, argtypes, args...)
             error("Unknown type $T")
         end
     end
+    mangle(::Type{NTuple{N, VecElement{T}}}) where {N, T} = "Dv$(N)_" * mangle(T)
 
     # C++-style mangling; very limited to just support these intrinsics
     # TODO: generalize for use with other intrinsics? do we need to mangle those?
     mangled = "_Z$(length(name))$name"
     for t in argtypes
         # with `@eval @builtin_ccall`, we get actual types in the ast, otherwise symbols
-        t = (isa(t, Symbol) || isa(t, Expr)) ? eval(t) : t
+        t = (isa(t, Symbol) || isa(t, Expr)) ? __module__.eval(t) : t
         mangled *= mangle(t)
     end
 
-    push!(known_intrinsics, mangled)
+    push!(__module__.known_intrinsics, mangled)
     esc(quote
         @typed_ccall($mangled, llvmcall, $ret, ($(argtypes...),), $(args...))
     end)
@@ -63,7 +64,7 @@ Base.Experimental.@MethodTable(method_table)
 
 macro device_override(ex)
     esc(quote
-        Base.Experimental.@overlay(method_table, $ex)
+        Base.Experimental.@overlay($method_table, $ex)
     end)
 end
 
diff --git a/src/compiler/compilation.jl b/src/compiler/compilation.jl
@@ -16,6 +16,9 @@ GPUCompiler.isintrinsic(job::OpenCLCompilerJob, fn::String) =
            Tuple{CompilerJob{SPIRVCompilerTarget}, typeof(fn)},
            job, fn) ||
     in(fn, known_intrinsics) ||
+    let SPIRVIntrinsicsSIMDExt = Base.get_extension(SPIRVIntrinsics, :SPIRVIntrinsicsSIMDExt)
+        SPIRVIntrinsicsSIMDExt !== nothing && in(fn, SPIRVIntrinsicsSIMDExt.known_intrinsics)
+    end ||
     contains(fn, "__spirv_")
 
 GPUCompiler.kernel_state_type(::OpenCLCompilerJob) = KernelState
diff --git a/test/Project.toml b/test/Project.toml
@@ -12,6 +12,7 @@ Preferences = "21216c6a-2e73-6563-6e65-726566657250"
 Printf = "de0858da-6303-5e67-8744-51eddeeeb8d7"
 REPL = "3fa0cd96-eef1-5676-8a61-b3b8758bbffb"
 Random = "9a3f8284-a2c9-5f02-9a11-845980a1fd5c"
+SIMD = "fdea26ae-647d-5447-a871-4b548cad5224"
 SPIRVIntrinsics = "71d1d633-e7e8-4a92-83a1-de8814b09ba8"
 SPIRV_LLVM_Backend_jll = "4376b9bf-cff8-51b6-bb48-39421dff0d0c"
 SPIRV_LLVM_Translator_jll = "4a5d46fc-d8cf-5151-a261-86b458210efb"
diff --git a/test/atomics.jl b/test/atomics.jl
@@ -1,4 +1,4 @@
-using SPIRVIntrinsics: @builtin_ccall, @typed_ccall, LLVMPtr
+using SPIRVIntrinsics: @builtin_ccall, @typed_ccall, LLVMPtr, known_intrinsics
 
 @testset "atomics" begin
 
diff --git a/test/intrinsics.jl b/test/intrinsics.jl
@@ -1,3 +1,5 @@
+using SIMD
+
 function call_on_device(f, args...)
     function kernel(res, f, args...)
         res[] = f(args...)
@@ -11,6 +13,7 @@ end
 
 const float_types = filter(x -> x <: Base.IEEEFloat, GPUArraysTestSuite.supported_eltypes(CLArray))
 const ispocl = cl.platform().name == "Portable Computing Language"
+const simd_ns = [2, 3, 4, 8, 16]
 
 @testset "intrinsics" begin
 
@@ -162,6 +165,66 @@ end
     @test call_on_device(OpenCL.mad, x, y, z) ≈ x * y + z
 end
 
+@testset "SIMD - $N x $T" for N in simd_ns, T in float_types
+    # codegen emits i48 here, which SPIR-V doesn't support
+    # XXX: fix upstream?
+    T == Float16 && N == 3 && continue
+
+    v = Vec{N, T}(ntuple(_ -> rand(T), N))
+
+    # unary ops: sin, cos, sqrt
+    a = call_on_device(sin, v)
+    @test all(a[i] ≈ sin(v[i]) for i in 1:N)
+
+    b = call_on_device(cos, v)
+    @test all(b[i] ≈ cos(v[i]) for i in 1:N)
+
+    c = call_on_device(sqrt, v)
+    @test all(c[i] ≈ sqrt(v[i]) for i in 1:N)
+
+    # binary ops: max, hypot
+    w = Vec{N, T}(ntuple(_ -> rand(T), N))
+    d = call_on_device(max, v, w)
+    @test all(d[i] == max(v[i], w[i]) for i in 1:N)
+
+    broken = ispocl && T == Float16
+    if !broken
+        h = call_on_device(hypot, v, w)
+        @test all(h[i] ≈ hypot(v[i], w[i]) for i in 1:N)
+    end
+
+    # ternary op: fma
+    x = Vec{N, T}(ntuple(_ -> rand(T), N))
+    e = call_on_device(fma, v, w, x)
+    @test all(e[i] ≈ fma(v[i], w[i], x[i]) for i in 1:N)
+
+    # special cases: ilogb, ldexp, ^ with Int32, rootn
+    v_pos = Vec{N, T}(ntuple(_ -> rand(T) + T(1), N))
+    @test call_on_device(OpenCL.ilogb, v_pos) isa Vec{N, Int32} broken = broken
+
+    k = Vec{N, Int32}(ntuple(_ -> rand(Int32.(-5:5)), N))
+    @test let
+        ldexp_result = call_on_device(ldexp, v_pos, k)
+        all(ldexp_result[i] ≈ ldexp(v_pos[i], k[i]) for i in 1:N)
+    end broken = broken
+
+    base = Vec{N, T}(ntuple(_ -> rand(T) + T(0.5), N))
+    exp_int = Vec{N, Int32}(ntuple(_ -> rand(Int32.(0:3)), N))
+    @test let
+        pow_result = call_on_device(^, base, exp_int)
+        all(pow_result[i] ≈ base[i] ^ exp_int[i] for i in 1:N)
+    end broken = broken
+
+    rootn_base = Vec{N, T}(ntuple(_ -> rand(T) * T(10) + T(1), N))
+    rootn_n = Vec{N, Int32}(ntuple(_ -> rand(Int32.(2:4)), N))
+    @test call_on_device(OpenCL.rootn, rootn_base, rootn_n) isa Vec{N, T} broken = broken
+
+    # special cases: nan
+    nan_code = Vec{N, Base.uinttype(T)}(ntuple(_ -> rand(Base.uinttype(T)), N))
+    nan_result = call_on_device(OpenCL.nan, nan_code)
+    @test all(isnan(nan_result[i]) for i in 1:N)
+end
+
 end
 
 end

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-using SPIRVIntrinsics: @builtin_ccall, @typed_ccall, LLVMPtr`
	`1`	`+using SPIRVIntrinsics: @builtin_ccall, @typed_ccall, LLVMPtr, known_intrinsics`
`2`	`2`
`3`	`3`	`@testset "atomics" begin`
`4`	`4`