ggml-org
diff --git a/‎include/llama.h
Lines changed: 1 addition & 0 deletions b/‎include/llama.h
Lines changed: 1 addition & 0 deletions
diff --git a/‎src/llama-context.cpp
Lines changed: 5 additions & 1 deletion b/‎src/llama-context.cpp
Lines changed: 5 additions & 1 deletion
diff --git a/‎src/llama-cparams.cpp
Lines changed: 4 additions & 0 deletions b/‎src/llama-cparams.cpp
Lines changed: 4 additions & 0 deletions
diff --git a/‎src/llama-cparams.h
Lines changed: 2 additions & 0 deletions b/‎src/llama-cparams.h
Lines changed: 2 additions & 0 deletions
@@ -471,6 +471,7 @@ extern "C" {
     LLAMA_API int64_t llama_time_us(void);
 
     LLAMA_API size_t llama_max_devices(void);
+    LLAMA_API size_t llama_max_parallel_sequences(void);
 
     LLAMA_API bool llama_supports_mmap       (void);
     LLAMA_API bool llama_supports_mlock      (void);
 
@@ -25,7 +25,11 @@ llama_context::llama_context(
 
     const auto & hparams = model.hparams;
 
-    cparams.n_seq_max        = std::max(1u, params.n_seq_max);
+    cparams.n_seq_max = std::max(1u, params.n_seq_max);
+    if (cparams.n_seq_max > LLAMA_MAX_PARALLEL_SEQUENCES) {
+        throw std::runtime_error("n_seq_max must be <= " + std::to_string(LLAMA_MAX_PARALLEL_SEQUENCES));
+    }
+
     cparams.n_threads        = params.n_threads;
     cparams.n_threads_batch  = params.n_threads_batch;
     cparams.yarn_ext_factor  = params.yarn_ext_factor;
 
@@ -1 +1,5 @@
 #include "llama-cparams.h"
+
+size_t llama_max_parallel_sequences(void) {
+    return LLAMA_MAX_PARALLEL_SEQUENCES;
+}
@@ -4,6 +4,8 @@
 
 #include <cstdint>
 
+#define LLAMA_MAX_PARALLEL_SEQUENCES 64
+
 struct llama_cparams {
     uint32_t n_ctx;           // context size used during inference
     uint32_t n_batch;