」工欲善其事,必先利其器。「—孔子《論語.錄靈公》
首頁 > 程式設計 > 如何使用 AVX 內聯函數將 8 個浮點數載入到 __m256 變數中?

如何使用 AVX 內聯函數將 8 個浮點數載入到 __m256 變數中?

發佈於2024-11-17
瀏覽:715

How to Load 8 Floats into an __m256 Variable Using AVX Intrinsics?

將8 個浮點從記憶體載入到__m256 變數

您的目標是用內部變數__m256 取代浮點緩衝區[8]。以下是實現此目的的說明:

AVX2 說明:

  1. 使用VPMOVZXBD ymm0, [rsi] 將記憶體中的位元組零擴展為32-位整數。
  2. 使用 VCVTDQ2PS ymm0, ymm0 將整數轉換為浮點數。

AVX1 說明:

  1. 使用 VPMOVZXBD xmm0 , [rsi] 載入前四個位元組。
  2. 使用 VPMOVZXBD xmm1, [rsi 4] 載入接下來的四個位元組。
  3. 使用 VINSERTF128 將第二個加載插入到 ymm0 的高 128 位元ymm0, ymm0, xmm1, 1.
  4. 用VCVTDQ2PS轉換為浮點數 ymm0, ymm0.

最佳化提示:

  • 對於 AVX2,請考慮使用 128 位元廣播負載和 VPMOVZXBD 來提高效能。
  • 避免將 VPMOVZXBD ymm, [mem] 與內在函數一起使用,因為它可能會導致錯過優化。
  • 對於 AVX1,使用 _mm_loadl_epi64 將負載折疊到 VPMOVZXBD 指令中以獲得最佳程式碼。
最新教學 更多>

免責聲明: 提供的所有資源部分來自互聯網,如果有侵犯您的版權或其他權益,請說明詳細緣由並提供版權或權益證明然後發到郵箱:[email protected] 我們會在第一時間內為您處理。

Copyright© 2022 湘ICP备2022001581号-3