Add ARM assembly optimized memcpy for RP2350 #2552

earlephilhower · 2024-10-22T02:37:38Z

33% faster for 4K memcpy using DMAMemcyp example

With this assembly:
CPU: 4835 clock cycles for 4K
DMA: 2169 clock cycles for 4K

Using stock Newlib memcpy:
CPU: 7314 clock cycles for 4K
DMA: 2175 clock cycles for 4K

(What's interesting is that if we place this in RAM it's actually slower in this test because the CPU instruction fetch will fight with the data read and write, causing stalls...neat!)

33% faster for 4K memcpy using DMAMemcyp example With this assembly: CPU: 4835 clock cycles for 4K DMA: 2169 clock cycles for 4K Using stock Newlib memcpy: CPU: 7314 clock cycles for 4K DMA: 2175 clock cycles for 4K

earlephilhower added 3 commits October 21, 2024 19:33

Add ARM assembly optimized memcpy for RP2350

31fcbf8

33% faster for 4K memcpy using DMAMemcyp example With this assembly: CPU: 4835 clock cycles for 4K DMA: 2169 clock cycles for 4K Using stock Newlib memcpy: CPU: 7314 clock cycles for 4K DMA: 2175 clock cycles for 4K

Only use ASM shim for ARM

278213f

Merge branch 'master' into memasm

a928585

earlephilhower merged commit e7419fb into master Oct 23, 2024
26 checks passed

earlephilhower deleted the memasm branch October 23, 2024 22:11

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add ARM assembly optimized memcpy for RP2350 #2552

Add ARM assembly optimized memcpy for RP2350 #2552

earlephilhower commented Oct 22, 2024

Add ARM assembly optimized memcpy for RP2350 #2552

Add ARM assembly optimized memcpy for RP2350 #2552

Conversation

earlephilhower commented Oct 22, 2024