Performance med mange funktionskald i C og CUDA
Hej,Jeg ønsker at hører om der er nogle der ved om der er nogen performance forskel på at have nogle linjer kode i en for-løkke eller at ligge linjerne ind i en funktion som så kørers inde i for-løkken?
Kode skal senere implementeres på GPU (massiv parallel), og her er jeg også lidt i tvivl hvordan CUDA reagere ved så mange funktions kald.
Det nævnes, at funktionen skal have mange parameter ind (~10) og at for-løkken (funktions kald) ligger imellem 2-4 milioner, og dette gøres måske ~200 gange.
Håber der er nogen som kan hjælpe
Mvh
./tym