我正在尝试以尾数11位精度实现快速atan2(float)。atan2实现将用于图像处理。因此,最好使用SIMD指令(针对x86(带有SSE2)和ARM(带有vpfv4 NEON)的impl)实现。
现在,我使用chebyshev多项式逼近(https://jp.mathworks.com/help/fixedpoint/examples/calculate-fixed-point-arctangent.html)。
我愿意手动实现矢量化代码。我将使用SSE2(或更高版本)和NEON包装器库。我计划或尝试了这些实施选项
否则好主意?