vulkan: fix flash attention dot product precision (ggml-org#20589)

0cc4m · web-flow · commit 46dba9fce860 · 2026-03-16T10:45:49.000+01:00
diff --git a/ggml/src/ggml-vulkan/vulkan-shaders/flash_attn.comp b/ggml/src/ggml-vulkan/vulkan-shaders/flash_attn.comp
@@ -245,7 +245,7 @@ void main() {
 #endif
                     }
                     [[unroll]] for (uint32_t r = 0; r < rows_per_thread; ++r) {
-                        Sf[r][c] += ACC_TYPE(dot(Q_cache[r], K_Tf));
+                        Sf[r][c] += dot(ACC_TYPEV4(Q_cache[r]), ACC_TYPEV4(K_Tf));
                     }
                 }
             }
@@ -270,7 +270,7 @@ void main() {
 #endif
                     }
                     [[unroll]] for (uint32_t r = 0; r < rows_per_thread; ++r) {
-                        Sf[r][c] += ACC_TYPE(dot(Qf[tile_row(r) * qf_stride + d * D_split + d_tid], K_Tf));
+                        Sf[r][c] += dot(ACC_TYPEV4(Qf[tile_row(r) * qf_stride + d * D_split + d_tid]), ACC_TYPEV4(K_Tf));
                     }
                 }
             }

Original file line number	Diff line number	Diff line change
`@@ -245,7 +245,7 @@ void main() {`
`245`	`245`	`#endif`
`246`	`246`	`}`
`247`	`247`	`[[unroll]] for (uint32_t r = 0; r < rows_per_thread; ++r) {`
`248`		`- Sf[r][c] += ACC_TYPE(dot(Q_cache[r], K_Tf));`
	`248`	`+ Sf[r][c] += dot(ACC_TYPEV4(Q_cache[r]), ACC_TYPEV4(K_Tf));`
`249`	`249`	`}`
`250`	`250`	`}`
`251`	`251`	`}`
`@@ -270,7 +270,7 @@ void main() {`
`270`	`270`	`#endif`
`271`	`271`	`}`
`272`	`272`	`[[unroll]] for (uint32_t r = 0; r < rows_per_thread; ++r) {`
`273`		`- Sf[r][c] += ACC_TYPE(dot(Qf[tile_row(r) * qf_stride + d * D_split + d_tid], K_Tf));`
	`273`	`+ Sf[r][c] += dot(ACC_TYPEV4(Qf[tile_row(r) * qf_stride + d * D_split + d_tid]), ACC_TYPEV4(K_Tf));`
`274`	`274`	`}`
`275`	`275`	`}`
`276`	`276`	`}`