kv-cells : use "shift" instead of "delta" consistently

ggerganov · ggerganov · commit 44856a70cd0e · 2025-05-23T11:49:58.000+03:00
ggml-ci
diff --git a/src/llama-kv-cache.cpp b/src/llama-kv-cache.cpp
@@ -217,8 +217,8 @@ void llama_kv_cache_unified::seq_keep(llama_seq_id seq_id) {
     }
 }
 
-void llama_kv_cache_unified::seq_add(llama_seq_id seq_id, llama_pos p0, llama_pos p1, llama_pos delta) {
-    if (delta == 0) {
+void llama_kv_cache_unified::seq_add(llama_seq_id seq_id, llama_pos p0, llama_pos p1, llama_pos shift) {
+    if (shift == 0) {
         return;
     }
 
@@ -243,7 +243,7 @@ void llama_kv_cache_unified::seq_add(llama_seq_id seq_id, llama_pos p0, llama_po
         }
 
         if (cells.seq_has(i, seq_id)) {
-            if (cells.pos_add(i, delta)) {
+            if (cells.pos_add(i, shift)) {
                 if (new_head == cells.size()) {
                     new_head = i;
                 }
@@ -336,7 +336,7 @@ bool llama_kv_cache_unified::update(llama_context & lctx) {
 
     auto * sched = lctx.get_sched();
 
-    if (cells.pos_has_shift()) {
+    if (cells.get_has_shift()) {
         if (!get_can_shift()) {
             GGML_ABORT("The current KV cache / model configuration does not support K-shift");
         }
@@ -360,7 +360,7 @@ bool llama_kv_cache_unified::update(llama_context & lctx) {
             need_reserve = true;
         }
 
-        cells.pos_reset_delta();
+        cells.reset_shift();
     }
 
     if (do_defrag) {
@@ -706,7 +706,7 @@ void llama_kv_cache_unified::set_input_k_shift(ggml_tensor * dst) const {
     int32_t * data = (int32_t *) dst->data;
 
     for (uint32_t i = 0; i < cells.size(); ++i) {
-        data[i] = cells.is_empty(i) ? 0 : cells.get_delta(i);
+        data[i] = cells.is_empty(i) ? 0 : cells.get_shift(i);
     }
 }
 
@@ -1631,9 +1631,9 @@ void llama_kv_cache_unified_iswa::seq_keep(llama_seq_id seq_id) {
     kv_swa ->seq_keep(seq_id);
 }
 
-void llama_kv_cache_unified_iswa::seq_add(llama_seq_id seq_id, llama_pos p0, llama_pos p1, llama_pos delta) {
-    kv_base->seq_add(seq_id, p0, p1, delta);
-    kv_swa ->seq_add(seq_id, p0, p1, delta);
+void llama_kv_cache_unified_iswa::seq_add(llama_seq_id seq_id, llama_pos p0, llama_pos p1, llama_pos shift) {
+    kv_base->seq_add(seq_id, p0, p1, shift);
+    kv_swa ->seq_add(seq_id, p0, p1, shift);
 }
 
 void llama_kv_cache_unified_iswa::seq_div(llama_seq_id seq_id, llama_pos p0, llama_pos p1, int d) {
@@ -2005,8 +2005,8 @@ void llama_kv_cache_recurrent::seq_keep(llama_seq_id seq_id) {
     }
 }
 
-void llama_kv_cache_recurrent::seq_add(llama_seq_id seq_id, llama_pos p0, llama_pos p1, llama_pos delta) {
-    if (delta == 0) {
+void llama_kv_cache_recurrent::seq_add(llama_seq_id seq_id, llama_pos p0, llama_pos p1, llama_pos shift) {
+    if (shift == 0) {
         return;
     }
 
@@ -2029,7 +2029,7 @@ void llama_kv_cache_recurrent::seq_add(llama_seq_id seq_id, llama_pos p0, llama_
         if (tail_id >= 0) {
             kv_cell & cell = cells[tail_id];
             if (cell.has_seq_id(seq_id) && p0 <= cell.pos && cell.pos < p1) {
-                cell.pos += delta;
+                cell.pos += shift;
             }
         }
     }
diff --git a/src/llama-kv-cache.h b/src/llama-kv-cache.h
@@ -123,7 +123,7 @@ class llama_kv_cache_unified : public llama_kv_cache {
     bool seq_rm  (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1) override;
     void seq_cp  (llama_seq_id seq_id_src, llama_seq_id seq_id_dst, llama_pos p0, llama_pos p1) override;
     void seq_keep(llama_seq_id seq_id)                                                          override;
-    void seq_add (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, llama_pos delta) override;
+    void seq_add (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, llama_pos shift) override;
     void seq_div (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, int d) override;
 
     llama_pos seq_pos_min(llama_seq_id seq_id) const override;
@@ -316,7 +316,7 @@ class llama_kv_cache_unified_iswa : public llama_kv_cache {
     bool seq_rm  (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1) override;
     void seq_cp  (llama_seq_id seq_id_src, llama_seq_id seq_id_dst, llama_pos p0, llama_pos p1) override;
     void seq_keep(llama_seq_id seq_id)                                                          override;
-    void seq_add (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, llama_pos delta) override;
+    void seq_add (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, llama_pos shift) override;
     void seq_div (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, int d) override;
 
     llama_pos seq_pos_min(llama_seq_id seq_id) const override;
@@ -422,7 +422,7 @@ class llama_kv_cache_recurrent : public llama_kv_cache {
     bool seq_rm  (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1) override;
     void seq_cp  (llama_seq_id seq_id_src, llama_seq_id seq_id_dst, llama_pos p0, llama_pos p1) override;
     void seq_keep(llama_seq_id seq_id)                                                          override;
-    void seq_add (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, llama_pos delta) override;
+    void seq_add (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, llama_pos shift) override;
     void seq_div (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, int d) override;
 
     llama_pos seq_pos_min(llama_seq_id seq_id) const override;
diff --git a/src/llama-kv-cells.h b/src/llama-kv-cells.h
@@ -1,24 +1,32 @@
 #pragma once
 
+#include "llama.h"
+
 #include <bitset>
 #include <cassert>
 #include <vector>
 
-using llama_pos    = int32_t;
-using llama_seq_id = int32_t;
-
 // meta information about KV cells that can be part of multiple sequences at the same time
 // TODO: add unit tests
-struct llama_kv_cells_unified {
+class llama_kv_cells_unified {
+public:
     void reset() {
         for (uint32_t i = 0; i < pos.size(); ++i) {
             pos[i]   = -1;
-            delta[i] =  0;
+            shift[i] =  0;
             seq[i].reset();
         }
 
         used      = 0;
-        has_delta = false;
+        has_shift = false;
+    }
+
+    void reset_shift() {
+        has_shift = false;
+
+        for (uint32_t i = 0; i < shift.size(); ++i) {
+            shift[i] = 0;
+        }
     }
 
     uint32_t size() const {
@@ -27,7 +35,7 @@ struct llama_kv_cells_unified {
 
     void resize(uint32_t n) {
         pos.resize(n);
-        delta.resize(n);
+        shift.resize(n);
         seq.resize(n);
 
         reset();
@@ -44,17 +52,21 @@ struct llama_kv_cells_unified {
         return used;
     }
 
+    bool get_has_shift() const {
+        return has_shift;
+    }
+
     // move cell isrc to idst
     void mv(uint32_t isrc, uint32_t idst) {
         assert(isrc < pos.size());
         assert(idst < pos.size());
 
         pos  [idst] = pos  [isrc];
-        delta[idst] = delta[isrc];
+        shift[idst] = shift[isrc];
         seq  [idst] = seq  [isrc];
 
         pos  [isrc] = -1;
-        delta[isrc] =  0;
+        shift[isrc] =  0;
         seq  [isrc].reset();
     }
 
@@ -70,7 +82,7 @@ struct llama_kv_cells_unified {
             res.pos[j] = pos[i + j];
             res.seq[j] = seq[i + j];
 
-            assert(delta[i + j] == 0);
+            assert(shift[i + j] == 0);
         }
 
         return res;
@@ -92,7 +104,7 @@ struct llama_kv_cells_unified {
             pos[i + j] = other.pos[j];
             seq[i + j] = other.seq[j];
 
-            assert(delta[i + j] == 0);
+            assert(shift[i + j] == 0);
         }
     }
 
@@ -174,11 +186,11 @@ struct llama_kv_cells_unified {
     }
 
     // note: call only if the cell is not empty
-    llama_pos get_delta(uint32_t i) const {
+    llama_pos get_shift(uint32_t i) const {
         assert(i < pos.size());
         assert(pos[i] != -1);
 
-        return delta[i];
+        return shift[i];
     }
 
     bool pos_in(uint32_t i, llama_pos p0, llama_pos p1) const {
@@ -203,9 +215,9 @@ struct llama_kv_cells_unified {
         assert(pos[i] != -1);
 
         pos[i]   += d;
-        delta[i] += d;
+        shift[i] += d;
 
-        has_delta = true;
+        has_shift = true;
 
         if (pos[i] < 0) {
             pos[i] = -1;
@@ -228,30 +240,31 @@ struct llama_kv_cells_unified {
         const llama_pos p_old = pos[i];
 
         pos[i]   /= d;
-        delta[i] += p_old - pos[i];
+        shift[i] += p_old - pos[i];
 
-        has_delta = true;
-    }
-
-    bool pos_has_shift() const {
-        return has_delta;
-    }
-
-    void pos_reset_delta() {
-        has_delta = false;
-
-        for (uint32_t i = 0; i < delta.size(); ++i) {
-            delta[i] = 0;
-        }
+        has_shift = true;
     }
 
 private:
     uint32_t used = 0; // used cells (i.e. at least one seq_id)
 
-    bool has_delta = false;
+    bool has_shift = false;
 
     std::vector<llama_pos> pos;
-    std::vector<llama_pos> delta;
+
+    // this array accumulates any applied shifts to the pos array since the last reset_shift() call
+    // this is used to queue multiple updates to the pos array, which in the end can be applied in one go:
+    //
+    //   cells.pos_add(x, shift_x);
+    //   cells.pos_div(y, shift_y);
+    //   ...
+    //   for (int i = 0; i < n; ++i) {
+    //       auto shift_i = cells.get_shift(i);
+    //       ...
+    //   }
+    //   cells.reset_shift();
+    //
+    std::vector<llama_pos> shift;
 
     // TODO: assert n_seq_max <= 64
     std::vector<std::bitset<64>> seq;
diff --git a/src/llama-memory.h b/src/llama-memory.h
@@ -22,7 +22,7 @@ class llama_memory_i {
     virtual bool seq_rm  (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1) = 0;
     virtual void seq_cp  (llama_seq_id seq_id_src, llama_seq_id seq_id_dst, llama_pos p0, llama_pos p1) = 0;
     virtual void seq_keep(llama_seq_id seq_id) = 0;
-    virtual void seq_add (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, llama_pos delta) = 0;
+    virtual void seq_add (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, llama_pos shift) = 0;
     virtual void seq_div (llama_seq_id seq_id,                              llama_pos p0, llama_pos p1, int d) = 0;
 
     virtual llama_pos seq_pos_min(llama_seq_id seq_id) const = 0;

Original file line number	Diff line number	Diff line change
`@@ -217,8 +217,8 @@ void llama_kv_cache_unified::seq_keep(llama_seq_id seq_id) {`
`217`	`217`	`}`
`218`	`218`	`}`
`219`	`219`
`220`		`-void llama_kv_cache_unified::seq_add(llama_seq_id seq_id, llama_pos p0, llama_pos p1, llama_pos delta) {`
`221`		`- if (delta == 0) {`
	`220`	`+void llama_kv_cache_unified::seq_add(llama_seq_id seq_id, llama_pos p0, llama_pos p1, llama_pos shift) {`
	`221`	`+ if (shift == 0) {`
`222`	`222`	`return;`
`223`	`223`	`}`
`224`	`224`
`@@ -243,7 +243,7 @@ void llama_kv_cache_unified::seq_add(llama_seq_id seq_id, llama_pos p0, llama_po`
`243`	`243`	`}`
`244`	`244`
`245`	`245`	`if (cells.seq_has(i, seq_id)) {`
`246`		`- if (cells.pos_add(i, delta)) {`
	`246`	`+ if (cells.pos_add(i, shift)) {`
`247`	`247`	`if (new_head == cells.size()) {`
`248`	`248`	`new_head = i;`
`249`	`249`	`}`
`@@ -336,7 +336,7 @@ bool llama_kv_cache_unified::update(llama_context & lctx) {`
`336`	`336`
`337`	`337`	`auto * sched = lctx.get_sched();`
`338`	`338`
`339`		`- if (cells.pos_has_shift()) {`
	`339`	`+ if (cells.get_has_shift()) {`
`340`	`340`	`if (!get_can_shift()) {`
`341`	`341`	`GGML_ABORT("The current KV cache / model configuration does not support K-shift");`
`342`	`342`	`}`
`@@ -360,7 +360,7 @@ bool llama_kv_cache_unified::update(llama_context & lctx) {`
`360`	`360`	`need_reserve = true;`
`361`	`361`	`}`
`362`	`362`
`363`		`- cells.pos_reset_delta();`
	`363`	`+ cells.reset_shift();`
`364`	`364`	`}`
`365`	`365`
`366`	`366`	`if (do_defrag) {`
`@@ -706,7 +706,7 @@ void llama_kv_cache_unified::set_input_k_shift(ggml_tensor * dst) const {`
`706`	`706`	`int32_t * data = (int32_t *) dst->data;`
`707`	`707`
`708`	`708`	`for (uint32_t i = 0; i < cells.size(); ++i) {`
`709`		`- data[i] = cells.is_empty(i) ? 0 : cells.get_delta(i);`
	`709`	`+ data[i] = cells.is_empty(i) ? 0 : cells.get_shift(i);`
`710`	`710`	`}`
`711`	`711`	`}`
`712`	`712`
`@@ -1631,9 +1631,9 @@ void llama_kv_cache_unified_iswa::seq_keep(llama_seq_id seq_id) {`
`1631`	`1631`	`kv_swa ->seq_keep(seq_id);`
`1632`	`1632`	`}`
`1633`	`1633`
`1634`		`-void llama_kv_cache_unified_iswa::seq_add(llama_seq_id seq_id, llama_pos p0, llama_pos p1, llama_pos delta) {`
`1635`		`- kv_base->seq_add(seq_id, p0, p1, delta);`
`1636`		`- kv_swa ->seq_add(seq_id, p0, p1, delta);`
	`1634`	`+void llama_kv_cache_unified_iswa::seq_add(llama_seq_id seq_id, llama_pos p0, llama_pos p1, llama_pos shift) {`
	`1635`	`+ kv_base->seq_add(seq_id, p0, p1, shift);`
	`1636`	`+ kv_swa ->seq_add(seq_id, p0, p1, shift);`
`1637`	`1637`	`}`
`1638`	`1638`
`1639`	`1639`	`void llama_kv_cache_unified_iswa::seq_div(llama_seq_id seq_id, llama_pos p0, llama_pos p1, int d) {`
`@@ -2005,8 +2005,8 @@ void llama_kv_cache_recurrent::seq_keep(llama_seq_id seq_id) {`
`2005`	`2005`	`}`
`2006`	`2006`	`}`
`2007`	`2007`
`2008`		`-void llama_kv_cache_recurrent::seq_add(llama_seq_id seq_id, llama_pos p0, llama_pos p1, llama_pos delta) {`
`2009`		`- if (delta == 0) {`
	`2008`	`+void llama_kv_cache_recurrent::seq_add(llama_seq_id seq_id, llama_pos p0, llama_pos p1, llama_pos shift) {`
	`2009`	`+ if (shift == 0) {`
`2010`	`2010`	`return;`
`2011`	`2011`	`}`
`2012`	`2012`
`@@ -2029,7 +2029,7 @@ void llama_kv_cache_recurrent::seq_add(llama_seq_id seq_id, llama_pos p0, llama_`
`2029`	`2029`	`if (tail_id >= 0) {`
`2030`	`2030`	`kv_cell & cell = cells[tail_id];`
`2031`	`2031`	`if (cell.has_seq_id(seq_id) && p0 <= cell.pos && cell.pos < p1) {`
`2032`		`- cell.pos += delta;`
	`2032`	`+ cell.pos += shift;`
`2033`	`2033`	`}`
`2034`	`2034`	`}`
`2035`	`2035`	`}`