эффективная векторизованная реализация логарифма в AVX2
Целью является реализация эффективной векторизованной версии функции Log21D_M2561. (__m256d a), но доступно на других компиляторах.
подход к реализации
общая стратегия для log2 (a) включает в себя вычисление суммы показателя и log2 мантиссы, которая имеет ограниченный диапазон от 1.0 до 2.0. Это позволяет нам использовать полиномиальное аппроксимацию для log2 Mantissa.
Задержка инструкции:
Современное оборудование имеет длинные задержки инструкции. Чтобы оптимизировать производительность, мы можем использовать более быстрые схемы полиномиальной оценки, такие как схема Эстрин, которая позволяет параллельно выполнять полиномиальные термины.
Использование FMA:
инструкция Fused-Multiply-Add (FMA) очень эффективна. Используя FMA в нашей реализации, мы можем ускорить процесс полинома. Можно достичь очень высокой точности по сравнению с определенным диапазоном значений мантиссы.
] сравнение с существующими реализациямиОтказ от ответственности: Все предоставленные ресурсы частично взяты из Интернета. В случае нарушения ваших авторских прав или других прав и интересов, пожалуйста, объясните подробные причины и предоставьте доказательства авторских прав или прав и интересов, а затем отправьте их по электронной почте: [email protected]. Мы сделаем это за вас как можно скорее.
Copyright© 2022 湘ICP备2022001581号-3