SelectionDAG: Improve expandFP_TO_INT_SAT

wzssyqa · wzssyqa · commit fe17c5f435c2 · 2025-05-09T15:28:53.000+08:00
Currently, expandFP_TO_INT_SAT uses FMAXNUM and FMINNUM, which is
not correct if the Src is sNaN.

Let's try all 3 flavor of Max/Min for it:
1) FMAXIMUMNUM/FMINIMUMNUM
   See test/CodeGen/RISCV/bfloat-convert.ll

2) FMAXNUM/FMAXNUM
   See test/CodeGen/Mips/Half2Int16.ll

3) FMAXIMUM/FMAXIMUM
   See test/CodeGen/WebAssembly/Half2Int16.ll
diff --git a/llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp b/llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp
@@ -11542,22 +11542,47 @@ SDValue TargetLowering::expandFP_TO_INT_SAT(SDNode *Node,
   // If the integer bounds are exactly representable as floats and min/max are
   // legal, emit a min+max+fptoi sequence. Otherwise we have to use a sequence
   // of comparisons and selects.
-  bool MinMaxLegal = isOperationLegal(ISD::FMINNUM, SrcVT) &&
+  bool MinMax2019NumLegal = isOperationLegal(ISD::FMINIMUMNUM, SrcVT) &&
+                     isOperationLegal(ISD::FMAXIMUMNUM, SrcVT);
+  bool MinMax2019Legal = isOperationLegal(ISD::FMINIMUM, SrcVT) &&
+                     isOperationLegal(ISD::FMAXIMUM, SrcVT);
+  bool MinMax2008Legal = isOperationLegal(ISD::FMINNUM, SrcVT) &&
                      isOperationLegal(ISD::FMAXNUM, SrcVT);
-  if (AreExactFloatBounds && MinMaxLegal) {
-    SDValue Clamped = Src;
 
-    // Clamp Src by MinFloat from below. If Src is NaN the result is MinFloat.
-    Clamped = DAG.getNode(ISD::FMAXNUM, dl, SrcVT, Clamped, MinFloatNode);
-    // Clamp by MaxFloat from above. NaN cannot occur.
-    Clamped = DAG.getNode(ISD::FMINNUM, dl, SrcVT, Clamped, MaxFloatNode);
+  if (AreExactFloatBounds && (MinMax2019NumLegal || MinMax2019Legal || MinMax2008Legal)) {
+    SDValue Clamped = Src;
+    bool Use2019 = false;
+
+    if (MinMax2019NumLegal) {
+      // Clamp Src by MinFloat from below. If Src is NaN the result is MinFloat.
+      Clamped = DAG.getNode(ISD::FMAXIMUMNUM, dl, SrcVT, Clamped, MinFloatNode);
+      // Clamp by MaxFloat from above. NaN cannot occur.
+      Clamped = DAG.getNode(ISD::FMINIMUMNUM, dl, SrcVT, Clamped, MaxFloatNode);
+    } else if (MinMax2008Legal) {
+      // Try 2008 first as it has better performance for converting SNaN to unsigned.
+      if (!IsSigned && !DAG.isKnownNeverSNaN(Clamped)) {
+        Clamped = DAG.getNode(ISD::FMAXNUM, dl, SrcVT, Clamped, Clamped);
+      }
+      // Clamp Src by MinFloat from below. If Src is NaN the result is MinFloat.
+      Clamped = DAG.getNode(ISD::FMAXNUM, dl, SrcVT, Clamped, MinFloatNode);
+      // Clamp by MaxFloat from above. NaN cannot occur.
+      Clamped = DAG.getNode(ISD::FMINNUM, dl, SrcVT, Clamped, MaxFloatNode);
+    } else if (MinMax2019Legal) {
+      // Clamp Src by MinFloat from below. If Src is NaN the result is qNaN.
+      Clamped = DAG.getNode(ISD::FMAXIMUM, dl, SrcVT, Clamped, MinFloatNode);
+      // Clamp by MaxFloat from above. NaN may occur.
+      Clamped = DAG.getNode(ISD::FMINIMUM, dl, SrcVT, Clamped, MaxFloatNode);
+      Use2019 = true;
+    } else {
+      llvm_unreachable("No Min/Max supported?");
+    }
     // Convert clamped value to integer.
     SDValue FpToInt = DAG.getNode(IsSigned ? ISD::FP_TO_SINT : ISD::FP_TO_UINT,
                                   dl, DstVT, Clamped);
 
     // In the unsigned case we're done, because we mapped NaN to MinFloat,
     // which will cast to zero.
-    if (!IsSigned)
+    if ((!IsSigned && !Use2019) || DAG.isKnownNeverNaN(Src))
       return FpToInt;
 
     // Otherwise, select 0 if Src is NaN.
diff --git a/llvm/test/CodeGen/Mips/Half2Int16.ll b/llvm/test/CodeGen/Mips/Half2Int16.ll
@@ -0,0 +1,145 @@
+; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 5
+; RUN: llc < %s -mtriple=mipsisa32r6 -mattr=-soft-float | FileCheck %s
+
+define i16 @fcvt_h_s_sat(float %a) {
+; CHECK-LABEL: fcvt_h_s_sat:
+; CHECK:       # %bb.0: # %start
+; CHECK-NEXT:    lui $1, %hi($CPI0_0)
+; CHECK-NEXT:    lwc1 $f0, %lo($CPI0_0)($1)
+; CHECK-NEXT:    max.s $f0, $f12, $f0
+; CHECK-NEXT:    lui $1, %hi($CPI0_1)
+; CHECK-NEXT:    lwc1 $f1, %lo($CPI0_1)($1)
+; CHECK-NEXT:    min.s $f0, $f0, $f1
+; CHECK-NEXT:    trunc.w.s $f0, $f0
+; CHECK-NEXT:    mfc1 $1, $f0
+; CHECK-NEXT:    cmp.un.s $f0, $f12, $f12
+; CHECK-NEXT:    mfc1 $2, $f0
+; CHECK-NEXT:    jr $ra
+; CHECK-NEXT:    seleqz $2, $1, $2
+start:
+  %0 = tail call i16 @llvm.fptosi.sat.i16.f32(float %a)
+  ret i16 %0
+}
+
+define i16 @fcvt_hu_s_sat(float %a) {
+; CHECK-LABEL: fcvt_hu_s_sat:
+; CHECK:       # %bb.0: # %start
+; CHECK-NEXT:    max.s $f0, $f12, $f12
+; CHECK-NEXT:    mtc1 $zero, $f1
+; CHECK-NEXT:    max.s $f0, $f0, $f1
+; CHECK-NEXT:    lui $1, %hi($CPI1_0)
+; CHECK-NEXT:    lwc1 $f1, %lo($CPI1_0)($1)
+; CHECK-NEXT:    min.s $f0, $f0, $f1
+; CHECK-NEXT:    lui $1, %hi($CPI1_1)
+; CHECK-NEXT:    lwc1 $f1, %lo($CPI1_1)($1)
+; CHECK-NEXT:    cmp.lt.s $f2, $f0, $f1
+; CHECK-NEXT:    trunc.w.s $f3, $f0
+; CHECK-NEXT:    mfc1 $1, $f3
+; CHECK-NEXT:    mfc1 $2, $f2
+; CHECK-NEXT:    selnez $1, $1, $2
+; CHECK-NEXT:    sub.s $f0, $f0, $f1
+; CHECK-NEXT:    trunc.w.s $f0, $f0
+; CHECK-NEXT:    mfc1 $3, $f0
+; CHECK-NEXT:    lui $4, 32768
+; CHECK-NEXT:    xor $3, $3, $4
+; CHECK-NEXT:    seleqz $2, $3, $2
+; CHECK-NEXT:    jr $ra
+; CHECK-NEXT:    or $2, $1, $2
+start:
+  %0 = tail call i16 @llvm.fptoui.sat.i16.f32(float %a)
+  ret i16 %0
+}
+
+define i16 @fcvt_h_s_sat_nnan(float nofpclass(nan) %a) {
+; CHECK-LABEL: fcvt_h_s_sat_nnan:
+; CHECK:       # %bb.0: # %start
+; CHECK-NEXT:    lui $1, %hi($CPI2_0)
+; CHECK-NEXT:    lwc1 $f0, %lo($CPI2_0)($1)
+; CHECK-NEXT:    max.s $f0, $f12, $f0
+; CHECK-NEXT:    lui $1, %hi($CPI2_1)
+; CHECK-NEXT:    lwc1 $f1, %lo($CPI2_1)($1)
+; CHECK-NEXT:    min.s $f0, $f0, $f1
+; CHECK-NEXT:    trunc.w.s $f0, $f0
+; CHECK-NEXT:    jr $ra
+; CHECK-NEXT:    mfc1 $2, $f0
+start:
+  %0 = tail call i16 @llvm.fptosi.sat.i16.f32(float %a)
+  ret i16 %0
+}
+
+define i16 @fcvt_hu_s_sat_nnan(float nofpclass(nan) %a) {
+; CHECK-LABEL: fcvt_hu_s_sat_nnan:
+; CHECK:       # %bb.0: # %start
+; CHECK-NEXT:    mtc1 $zero, $f0
+; CHECK-NEXT:    max.s $f0, $f12, $f0
+; CHECK-NEXT:    lui $1, %hi($CPI3_0)
+; CHECK-NEXT:    lwc1 $f1, %lo($CPI3_0)($1)
+; CHECK-NEXT:    min.s $f0, $f0, $f1
+; CHECK-NEXT:    lui $1, %hi($CPI3_1)
+; CHECK-NEXT:    lwc1 $f1, %lo($CPI3_1)($1)
+; CHECK-NEXT:    cmp.lt.s $f2, $f0, $f1
+; CHECK-NEXT:    trunc.w.s $f3, $f0
+; CHECK-NEXT:    mfc1 $1, $f3
+; CHECK-NEXT:    mfc1 $2, $f2
+; CHECK-NEXT:    selnez $1, $1, $2
+; CHECK-NEXT:    sub.s $f0, $f0, $f1
+; CHECK-NEXT:    trunc.w.s $f0, $f0
+; CHECK-NEXT:    mfc1 $3, $f0
+; CHECK-NEXT:    lui $4, 32768
+; CHECK-NEXT:    xor $3, $3, $4
+; CHECK-NEXT:    seleqz $2, $3, $2
+; CHECK-NEXT:    jr $ra
+; CHECK-NEXT:    or $2, $1, $2
+start:
+  %0 = tail call i16 @llvm.fptoui.sat.i16.f32(float %a)
+  ret i16 %0
+}
+
+define i16 @fcvt_h_s_sat_nsnan(float nofpclass(snan) %a) {
+; CHECK-LABEL: fcvt_h_s_sat_nsnan:
+; CHECK:       # %bb.0: # %start
+; CHECK-NEXT:    lui $1, %hi($CPI4_0)
+; CHECK-NEXT:    lwc1 $f0, %lo($CPI4_0)($1)
+; CHECK-NEXT:    max.s $f0, $f12, $f0
+; CHECK-NEXT:    lui $1, %hi($CPI4_1)
+; CHECK-NEXT:    lwc1 $f1, %lo($CPI4_1)($1)
+; CHECK-NEXT:    min.s $f0, $f0, $f1
+; CHECK-NEXT:    trunc.w.s $f0, $f0
+; CHECK-NEXT:    mfc1 $1, $f0
+; CHECK-NEXT:    cmp.un.s $f0, $f12, $f12
+; CHECK-NEXT:    mfc1 $2, $f0
+; CHECK-NEXT:    jr $ra
+; CHECK-NEXT:    seleqz $2, $1, $2
+start:
+  %0 = tail call i16 @llvm.fptosi.sat.i16.f32(float %a)
+  ret i16 %0
+}
+
+define i16 @fcvt_hu_s_sat_nsnan(float nofpclass(snan) %a) {
+; CHECK-LABEL: fcvt_hu_s_sat_nsnan:
+; CHECK:       # %bb.0: # %start
+; CHECK-NEXT:    mtc1 $zero, $f0
+; CHECK-NEXT:    max.s $f0, $f12, $f0
+; CHECK-NEXT:    lui $1, %hi($CPI5_0)
+; CHECK-NEXT:    lwc1 $f1, %lo($CPI5_0)($1)
+; CHECK-NEXT:    min.s $f0, $f0, $f1
+; CHECK-NEXT:    lui $1, %hi($CPI5_1)
+; CHECK-NEXT:    lwc1 $f1, %lo($CPI5_1)($1)
+; CHECK-NEXT:    cmp.lt.s $f2, $f0, $f1
+; CHECK-NEXT:    trunc.w.s $f3, $f0
+; CHECK-NEXT:    mfc1 $1, $f3
+; CHECK-NEXT:    mfc1 $2, $f2
+; CHECK-NEXT:    selnez $1, $1, $2
+; CHECK-NEXT:    sub.s $f0, $f0, $f1
+; CHECK-NEXT:    trunc.w.s $f0, $f0
+; CHECK-NEXT:    mfc1 $3, $f0
+; CHECK-NEXT:    lui $4, 32768
+; CHECK-NEXT:    xor $3, $3, $4
+; CHECK-NEXT:    seleqz $2, $3, $2
+; CHECK-NEXT:    jr $ra
+; CHECK-NEXT:    or $2, $1, $2
+start:
+  %0 = tail call i16 @llvm.fptoui.sat.i16.f32(float %a)
+  ret i16 %0
+}
+
diff --git a/llvm/test/CodeGen/WebAssembly/Half2Int16.ll b/llvm/test/CodeGen/WebAssembly/Half2Int16.ll
@@ -0,0 +1,119 @@
+; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 5
+; RUN: llc < %s -mtriple=wasm32 | FileCheck %s
+
+define i16 @fcvt_h_s_sat(float %a) {
+; CHECK-LABEL: fcvt_h_s_sat:
+; CHECK:         .functype fcvt_h_s_sat (f32) -> (i32)
+; CHECK-NEXT:  # %bb.0: # %start
+; CHECK-NEXT:    i32.const 0
+; CHECK-NEXT:    local.get 0
+; CHECK-NEXT:    f32.const -0x1p15
+; CHECK-NEXT:    f32.max
+; CHECK-NEXT:    f32.const 0x1.fffcp14
+; CHECK-NEXT:    f32.min
+; CHECK-NEXT:    i32.trunc_sat_f32_s
+; CHECK-NEXT:    local.get 0
+; CHECK-NEXT:    local.get 0
+; CHECK-NEXT:    f32.ne
+; CHECK-NEXT:    i32.select
+; CHECK-NEXT:    # fallthrough-return
+start:
+  %0 = tail call i16 @llvm.fptosi.sat.i16.f32(float %a)
+  ret i16 %0
+}
+
+define i16 @fcvt_hu_s_sat(float %a) {
+; CHECK-LABEL: fcvt_hu_s_sat:
+; CHECK:         .functype fcvt_hu_s_sat (f32) -> (i32)
+; CHECK-NEXT:  # %bb.0: # %start
+; CHECK-NEXT:    i32.const 0
+; CHECK-NEXT:    local.get 0
+; CHECK-NEXT:    f32.const 0x0p0
+; CHECK-NEXT:    f32.max
+; CHECK-NEXT:    f32.const 0x1.fffep15
+; CHECK-NEXT:    f32.min
+; CHECK-NEXT:    i32.trunc_sat_f32_u
+; CHECK-NEXT:    local.get 0
+; CHECK-NEXT:    local.get 0
+; CHECK-NEXT:    f32.ne
+; CHECK-NEXT:    i32.select
+; CHECK-NEXT:    # fallthrough-return
+start:
+  %0 = tail call i16 @llvm.fptoui.sat.i16.f32(float %a)
+  ret i16 %0
+}
+
+define i16 @fcvt_h_s_sat_nnan(float nofpclass(nan) %a) {
+; CHECK-LABEL: fcvt_h_s_sat_nnan:
+; CHECK:         .functype fcvt_h_s_sat_nnan (f32) -> (i32)
+; CHECK-NEXT:  # %bb.0: # %start
+; CHECK-NEXT:    local.get 0
+; CHECK-NEXT:    f32.const -0x1p15
+; CHECK-NEXT:    f32.max
+; CHECK-NEXT:    f32.const 0x1.fffcp14
+; CHECK-NEXT:    f32.min
+; CHECK-NEXT:    i32.trunc_sat_f32_s
+; CHECK-NEXT:    # fallthrough-return
+start:
+  %0 = tail call i16 @llvm.fptosi.sat.i16.f32(float %a)
+  ret i16 %0
+}
+
+define i16 @fcvt_hu_s_sat_nnan(float nofpclass(nan) %a) {
+; CHECK-LABEL: fcvt_hu_s_sat_nnan:
+; CHECK:         .functype fcvt_hu_s_sat_nnan (f32) -> (i32)
+; CHECK-NEXT:  # %bb.0: # %start
+; CHECK-NEXT:    local.get 0
+; CHECK-NEXT:    f32.const 0x0p0
+; CHECK-NEXT:    f32.max
+; CHECK-NEXT:    f32.const 0x1.fffep15
+; CHECK-NEXT:    f32.min
+; CHECK-NEXT:    i32.trunc_sat_f32_u
+; CHECK-NEXT:    # fallthrough-return
+start:
+  %0 = tail call i16 @llvm.fptoui.sat.i16.f32(float %a)
+  ret i16 %0
+}
+
+define i16 @fcvt_h_s_sat_nsnan(float nofpclass(snan) %a) {
+; CHECK-LABEL: fcvt_h_s_sat_nsnan:
+; CHECK:         .functype fcvt_h_s_sat_nsnan (f32) -> (i32)
+; CHECK-NEXT:  # %bb.0: # %start
+; CHECK-NEXT:    i32.const 0
+; CHECK-NEXT:    local.get 0
+; CHECK-NEXT:    f32.const -0x1p15
+; CHECK-NEXT:    f32.max
+; CHECK-NEXT:    f32.const 0x1.fffcp14
+; CHECK-NEXT:    f32.min
+; CHECK-NEXT:    i32.trunc_sat_f32_s
+; CHECK-NEXT:    local.get 0
+; CHECK-NEXT:    local.get 0
+; CHECK-NEXT:    f32.ne
+; CHECK-NEXT:    i32.select
+; CHECK-NEXT:    # fallthrough-return
+start:
+  %0 = tail call i16 @llvm.fptosi.sat.i16.f32(float %a)
+  ret i16 %0
+}
+
+define i16 @fcvt_hu_s_sat_nsnan(float nofpclass(snan) %a) {
+; CHECK-LABEL: fcvt_hu_s_sat_nsnan:
+; CHECK:         .functype fcvt_hu_s_sat_nsnan (f32) -> (i32)
+; CHECK-NEXT:  # %bb.0: # %start
+; CHECK-NEXT:    i32.const 0
+; CHECK-NEXT:    local.get 0
+; CHECK-NEXT:    f32.const 0x0p0
+; CHECK-NEXT:    f32.max
+; CHECK-NEXT:    f32.const 0x1.fffep15
+; CHECK-NEXT:    f32.min
+; CHECK-NEXT:    i32.trunc_sat_f32_u
+; CHECK-NEXT:    local.get 0
+; CHECK-NEXT:    local.get 0
+; CHECK-NEXT:    f32.ne
+; CHECK-NEXT:    i32.select
+; CHECK-NEXT:    # fallthrough-return
+start:
+  %0 = tail call i16 @llvm.fptoui.sat.i16.f32(float %a)
+  ret i16 %0
+}
+