sampling : update naming

ggerganov · ggerganov · commit 9630a50c826a · 2024-08-28T20:04:32.000+03:00
ggml-ci
diff --git a/common/sampling.cpp b/common/sampling.cpp
@@ -2,39 +2,38 @@
 
 #include "common.h"
 
-struct llama_sampling_context * llama_sampling_init(const struct gpt_sampling_params & params, const struct llama_model * model) {
+struct llama_sampling_context * llama_sampling_init(const struct llama_model * model, const struct gpt_sampling_params & params) {
     struct llama_sampling_context * result = new llama_sampling_context();
 
     result->params = params;
 
     {
-        auto lp = llama_sampling_default_params();
-
-        lp.seed              = params.seed;
-        lp.n_prev            = params.n_prev;
-        lp.n_probs           = params.n_probs;
-        lp.min_keep          = params.min_keep;
-        lp.top_k             = params.top_k;
-        lp.top_p             = params.top_p;
-        lp.min_p             = params.min_p;
-        lp.tfs_z             = params.tfs_z;
-        lp.typical_p         = params.typical_p;
-        lp.temp              = params.temp;
-        lp.dynatemp_range    = params.dynatemp_range;
-        lp.dynatemp_exponent = params.dynatemp_exponent;
-        lp.penalty_last_n    = params.penalty_last_n;
-        lp.penalty_repeat    = params.penalty_repeat;
-        lp.penalty_freq      = params.penalty_freq;
-        lp.penalty_present   = params.penalty_present;
-        lp.mirostat          = params.mirostat;
-        lp.mirostat_tau      = params.mirostat_tau;
-        lp.mirostat_eta      = params.mirostat_eta;
-        lp.penalize_nl       = params.penalize_nl;
-        lp.ignore_eos        = params.ignore_eos;
-
-        result->smpl = llama_sampling_init(model, lp);
-
-        llama_sampling_set_rng_seed  (result->smpl, params.seed);
+        auto lparams = llama_sampling_default_params();
+
+        lparams.seed              = params.seed;
+        lparams.n_prev            = params.n_prev;
+        lparams.n_probs           = params.n_probs;
+        lparams.min_keep          = params.min_keep;
+        lparams.top_k             = params.top_k;
+        lparams.top_p             = params.top_p;
+        lparams.min_p             = params.min_p;
+        lparams.tfs_z             = params.tfs_z;
+        lparams.typical_p         = params.typical_p;
+        lparams.temp              = params.temp;
+        lparams.dynatemp_range    = params.dynatemp_range;
+        lparams.dynatemp_exponent = params.dynatemp_exponent;
+        lparams.penalty_last_n    = params.penalty_last_n;
+        lparams.penalty_repeat    = params.penalty_repeat;
+        lparams.penalty_freq      = params.penalty_freq;
+        lparams.penalty_present   = params.penalty_present;
+        lparams.mirostat          = params.mirostat;
+        lparams.mirostat_tau      = params.mirostat_tau;
+        lparams.mirostat_eta      = params.mirostat_eta;
+        lparams.penalize_nl       = params.penalize_nl;
+        lparams.ignore_eos        = params.ignore_eos;
+
+        result->smpl = llama_sampling_init(model, lparams);
+
         llama_sampling_set_grammar   (result->smpl, params.grammar.c_str(), "root");
         llama_sampling_set_logit_bias(result->smpl, params.logit_bias.size(), params.logit_bias.data());
     }
@@ -248,7 +247,7 @@ static llama_token llama_sampling_sample(
         } else {
             sampler_queue(ctx_sampling, cur_p);
 
-            id = llama_sampling_sample(smpl, cur_p);
+            id = llama_sampling_sample_dist(smpl, cur_p);
 
             //{
             //    const int n_top = 10;
diff --git a/common/sampling.h b/common/sampling.h
@@ -63,7 +63,7 @@ struct llama_sampling_context {
 };
 
 // Create a new sampling context instance.
-struct llama_sampling_context * llama_sampling_init(const struct gpt_sampling_params & params, const struct llama_model * model);
+struct llama_sampling_context * llama_sampling_init(const struct llama_model * model, const struct gpt_sampling_params & params);
 
 void llama_sampling_free(struct llama_sampling_context * ctx);
 
diff --git a/examples/batched/batched.cpp b/examples/batched/batched.cpp
@@ -187,7 +187,7 @@ int main(int argc, char ** argv) {
             llama_sampling_top_p(smpl, &candidates_p);
             llama_sampling_temp (smpl, &candidates_p);
 
-            const llama_token new_token_id = llama_sampling_sample(smpl, &candidates_p);
+            const llama_token new_token_id = llama_sampling_sample_dist(smpl, &candidates_p);
 
             //const llama_token new_token_id = llama_sampling_sample_greedy(smpl, &candidates_p);
 
diff --git a/examples/infill/infill.cpp b/examples/infill/infill.cpp
@@ -345,7 +345,7 @@ int main(int argc, char ** argv) {
 
     std::vector<llama_token> embd;
 
-    ctx_sampling = llama_sampling_init(sparams, model);
+    ctx_sampling = llama_sampling_init(model, sparams);
 
     while (n_remain != 0 || params.interactive) {
         // predict
diff --git a/examples/llava/llava-cli.cpp b/examples/llava/llava-cli.cpp
@@ -191,7 +191,7 @@ static void process_prompt(struct llava_context * ctx_llava, struct llava_image_
 
     LOG_TEE("\n");
 
-    struct llama_sampling_context * ctx_sampling = llama_sampling_init(params->sparams, ctx_llava->model);
+    struct llama_sampling_context * ctx_sampling = llama_sampling_init(ctx_llava->model, params->sparams);
     if (!ctx_sampling) {
         fprintf(stderr, "%s: failed to initialize sampling subsystem\n", __func__);
         exit(1);
diff --git a/examples/llava/minicpmv-cli.cpp b/examples/llava/minicpmv-cli.cpp
@@ -238,7 +238,7 @@ static struct llama_sampling_context * llama_init(struct llava_context * ctx_lla
 
     LOG_TEE("\n");
 
-    struct llama_sampling_context * ctx_sampling = llama_sampling_init(params->sparams, ctx_llava->model);
+    struct llama_sampling_context * ctx_sampling = llama_sampling_init(ctx_llava->model, params->sparams);
     return ctx_sampling;
 }
 
diff --git a/examples/lookahead/lookahead.cpp b/examples/lookahead/lookahead.cpp
@@ -117,7 +117,7 @@ int main(int argc, char ** argv) {
     llama_batch batch = llama_batch_init(params.n_ctx, 0, W + G + 1);
 
     // target model sampling context
-    struct llama_sampling_context * ctx_sampling = llama_sampling_init(params.sparams, model);
+    struct llama_sampling_context * ctx_sampling = llama_sampling_init(model, params.sparams);
 
     // verification n-grams
     std::vector<ngram_data> ngrams_cur(G);
diff --git a/examples/lookup/lookup.cpp b/examples/lookup/lookup.cpp
@@ -104,7 +104,7 @@ int main(int argc, char ** argv){
 
     bool has_eos = false;
 
-    struct llama_sampling_context * ctx_sampling = llama_sampling_init(params.sparams, model);
+    struct llama_sampling_context * ctx_sampling = llama_sampling_init(model, params.sparams);
 
     std::vector<llama_token> draft;
 
diff --git a/examples/main/main.cpp b/examples/main/main.cpp
@@ -494,7 +494,7 @@ int main(int argc, char ** argv) {
         antiprompt_ids.emplace_back(::llama_tokenize(ctx, antiprompt, false, true));
     }
 
-    ctx_sampling = llama_sampling_init(sparams, model);
+    ctx_sampling = llama_sampling_init(model, sparams);
     if (!ctx_sampling) {
         fprintf(stderr, "%s: failed to initialize sampling subsystem\n", __func__);
         exit(1);
diff --git a/examples/parallel/parallel.cpp b/examples/parallel/parallel.cpp
@@ -161,7 +161,7 @@ int main(int argc, char ** argv) {
     for (size_t i = 0; i < clients.size(); ++i) {
         auto & client = clients[i];
         client.id = i;
-        client.ctx_sampling = llama_sampling_init(params.sparams, model);
+        client.ctx_sampling = llama_sampling_init(model, params.sparams);
     }
 
     std::vector<llama_token> tokens_system;
diff --git a/examples/save-load-state/save-load-state.cpp b/examples/save-load-state/save-load-state.cpp
@@ -78,7 +78,7 @@ int main(int argc, char ** argv) {
             candidates.emplace_back(llama_token_data{token_id, logits[token_id], 0.0f});
         }
         llama_token_data_array candidates_p = { candidates.data(), candidates.size(), false };
-        auto next_token = llama_sampling_sample(smpl, &candidates_p);
+        auto next_token = llama_sampling_sample_dist(smpl, &candidates_p);
         auto next_token_str = llama_token_to_piece(ctx, next_token);
 
         printf("%s", next_token_str.c_str());
@@ -139,7 +139,7 @@ int main(int argc, char ** argv) {
             candidates.emplace_back(llama_token_data{token_id, logits[token_id], 0.0f});
         }
         llama_token_data_array candidates_p = { candidates.data(), candidates.size(), false };
-        auto next_token = llama_sampling_sample(smpl2, &candidates_p);
+        auto next_token = llama_sampling_sample_dist(smpl2, &candidates_p);
         auto next_token_str = llama_token_to_piece(ctx2, next_token);
 
         printf("%s", next_token_str.c_str());
@@ -232,7 +232,7 @@ int main(int argc, char ** argv) {
             candidates.emplace_back(llama_token_data{token_id, logits[token_id], 0.0f});
         }
         llama_token_data_array candidates_p = { candidates.data(), candidates.size(), false };
-        auto next_token = llama_sampling_sample(smpl3, &candidates_p);
+        auto next_token = llama_sampling_sample_dist(smpl3, &candidates_p);
         auto next_token_str = llama_token_to_piece(ctx3, next_token);
 
         printf("%s", next_token_str.c_str());
diff --git a/examples/server/server.cpp b/examples/server/server.cpp
@@ -1058,7 +1058,7 @@ struct server_context {
                 llama_sampling_free(slot.ctx_sampling);
             }
 
-            slot.ctx_sampling = llama_sampling_init(slot.sparams, model);
+            slot.ctx_sampling = llama_sampling_init(model, slot.sparams);
             if (slot.ctx_sampling == nullptr) {
                 // for now, the only error that may happen here is invalid grammar
                 send_error(task, "Failed to parse grammar", ERROR_TYPE_INVALID_REQUEST);
diff --git a/examples/speculative/speculative.cpp b/examples/speculative/speculative.cpp
@@ -176,7 +176,7 @@ int main(int argc, char ** argv) {
     bool has_eos = false;
 
     // target model sampling context (reuse the llama_context's sampling instance)
-    struct llama_sampling_context * ctx_sampling = llama_sampling_init(params.sparams, model_tgt);
+    struct llama_sampling_context * ctx_sampling = llama_sampling_init(model_tgt, params.sparams);
 
     // draft sequence data
     std::vector<seq_draft> drafts(n_seq_dft);
@@ -187,7 +187,7 @@ int main(int argc, char ** argv) {
 
     for (int s = 0; s < n_seq_dft; ++s) {
         // allocate llama_sampling for each draft sequence
-        drafts[s].ctx_sampling = llama_sampling_init(params.sparams, model_dft);
+        drafts[s].ctx_sampling = llama_sampling_init(model_dft, params.sparams);
     }
 
     llama_batch batch_dft = llama_batch_init(params.n_ctx, 0, 1);
@@ -334,7 +334,7 @@ int main(int argc, char ** argv) {
                         // all drafted tokens were rejected
                         // sample from the target model
                         LOG("all drafted tokens were rejected, sampling from residual distribution\n");
-                        token_id = llama_sampling_sample(ctx_sampling->smpl, &dist_tgt);
+                        token_id = llama_sampling_sample_dist(ctx_sampling->smpl, &dist_tgt);
                         llama_sampling_accept(ctx_sampling, token_id, true);
                         token_str = llama_token_to_piece(ctx_tgt, token_id);
                     }
diff --git a/include/llama.h b/include/llama.h
@@ -1086,8 +1086,8 @@ extern "C" {
             struct llama_sampling * smpl,
            llama_token_data_array * candidates);
 
-    /// @details Randomly selects a token from the candidates based on their probabilities
-    LLAMA_API llama_token llama_sampling_sample(
+    /// @details Randomly selects a token from the candidates based on their probability distribution.
+    LLAMA_API llama_token llama_sampling_sample_dist(
             struct llama_sampling * smpl,
            llama_token_data_array * candidates);
 
diff --git a/src/llama-sampling.cpp b/src/llama-sampling.cpp
@@ -532,7 +532,7 @@ llama_token llama_sampling_sample_mirostat_impl(struct llama_token_data_array *
 
     // Sample the next word X using top-k sampling
     llama_sampling_top_k_impl(candidates, int(k), 1);
-    llama_token X = llama_sampling_sample_impl(candidates, rng);
+    llama_token X = llama_sampling_sample_dist_impl(candidates, rng);
 
     // Compute error as the difference between observed surprise and target surprise value
     size_t X_idx = std::distance(candidates->data, std::find_if(candidates->data, candidates->data + candidates->size, [&](const llama_token_data & candidate) {
@@ -563,7 +563,7 @@ llama_token llama_sampling_sample_mirostat_v2_impl(struct llama_token_data_array
     llama_sampling_softmax_impl(candidates);
 
     // Sample the next word X from the remaining words
-    llama_token X = llama_sampling_sample_impl(candidates, rng);
+    llama_token X = llama_sampling_sample_dist_impl(candidates, rng);
 
     // Compute error as the difference between observed surprise and target surprise value
     size_t X_idx = std::distance(candidates->data, std::find_if(candidates->data, candidates->data + candidates->size, [&](const llama_token_data & candidate) {
@@ -589,18 +589,19 @@ llama_token llama_sampling_sample_greedy_impl(llama_token_data_array * candidate
     return result;
 }
 
-llama_token llama_sampling_sample_impl(struct llama_token_data_array * candidates, std::mt19937 & rng) {
+llama_token llama_sampling_sample_dist_impl(struct llama_token_data_array * candidates, std::mt19937 & rng) {
     llama_sampling_softmax_impl(candidates);
 
     std::vector<float> probs;
     probs.reserve(candidates->size);
+
     for (size_t i = 0; i < candidates->size; ++i) {
         probs.push_back(candidates->data[i].p);
     }
 
     std::discrete_distribution<> dist(probs.begin(), probs.end());
-    int idx = dist(rng);
 
+    const int idx = dist(rng);
     llama_token result = candidates->data[idx].id;
 
     return result;
diff --git a/src/llama-sampling.h b/src/llama-sampling.h
@@ -97,7 +97,7 @@ llama_token llama_sampling_sample_mirostat_impl   (struct llama_token_data_array
 llama_token llama_sampling_sample_mirostat_v2_impl(struct llama_token_data_array * candidates, std::mt19937 & rng, float tau, float eta, float & mu);
 
 llama_token llama_sampling_sample_greedy_impl     (struct llama_token_data_array * candidates);
-llama_token llama_sampling_sample_impl            (struct llama_token_data_array * candidates, std::mt19937 & rng);
+llama_token llama_sampling_sample_dist_impl       (struct llama_token_data_array * candidates, std::mt19937 & rng);
 
 void llama_sampling_accept_impl(struct llama_sampling & smpl, llama_token token, bool apply_grammar);
 
diff --git a/src/llama.cpp b/src/llama.cpp
@@ -20260,10 +20260,10 @@ llama_token llama_sampling_sample_greedy(struct llama_sampling * smpl, llama_tok
     return res;
 }
 
-llama_token llama_sampling_sample(struct llama_sampling * smpl, llama_token_data_array * candidates) {
+llama_token llama_sampling_sample_dist(struct llama_sampling * smpl, llama_token_data_array * candidates) {
     time_meas tm(smpl->t_sample_us);
 
-    auto res = llama_sampling_sample_impl(candidates, smpl->rng);
+    auto res = llama_sampling_sample_dist_impl(candidates, smpl->rng);
 
     smpl->n_sample++;
 

Original file line number	Diff line number	Diff line change
`@@ -238,7 +238,7 @@ static struct llama_sampling_context * llama_init(struct llava_context * ctx_lla`
`238`	`238`
`239`	`239`	`LOG_TEE("\n");`
`240`	`240`
`241`		`- struct llama_sampling_context * ctx_sampling = llama_sampling_init(params->sparams, ctx_llava->model);`
	`241`	`+ struct llama_sampling_context * ctx_sampling = llama_sampling_init(ctx_llava->model, params->sparams);`
`242`	`242`	`return ctx_sampling;`
`243`	`243`	`}`
`244`	`244`
Original file line number	Diff line number	Diff line change
`@@ -494,7 +494,7 @@ int main(int argc, char ** argv) {`
`494`	`494`	`antiprompt_ids.emplace_back(::llama_tokenize(ctx, antiprompt, false, true));`
`495`	`495`	`}`
`496`	`496`
`497`		`- ctx_sampling = llama_sampling_init(sparams, model);`
	`497`	`+ ctx_sampling = llama_sampling_init(model, sparams);`
`498`	`498`	`if (!ctx_sampling) {`
`499`	`499`	`fprintf(stderr, "%s: failed to initialize sampling subsystem\n", __func__);`
`500`	`500`	`exit(1);`
Original file line number	Diff line number	Diff line change
`@@ -161,7 +161,7 @@ int main(int argc, char ** argv) {`
`161`	`161`	`for (size_t i = 0; i < clients.size(); ++i) {`
`162`	`162`	`auto & client = clients[i];`
`163`	`163`	`client.id = i;`
`164`		`- client.ctx_sampling = llama_sampling_init(params.sparams, model);`
	`164`	`+ client.ctx_sampling = llama_sampling_init(model, params.sparams);`
`165`	`165`	`}`
`166`	`166`
`167`	`167`	`std::vector<llama_token> tokens_system;`
Original file line number	Diff line number	Diff line change
`@@ -1058,7 +1058,7 @@ struct server_context {`
`1058`	`1058`	`llama_sampling_free(slot.ctx_sampling);`
`1059`	`1059`	`}`
`1060`	`1060`
`1061`		`- slot.ctx_sampling = llama_sampling_init(slot.sparams, model);`
	`1061`	`+ slot.ctx_sampling = llama_sampling_init(model, slot.sparams);`
`1062`	`1062`	`if (slot.ctx_sampling == nullptr) {`
`1063`	`1063`	`// for now, the only error that may happen here is invalid grammar`
`1064`	`1064`	`send_error(task, "Failed to parse grammar", ERROR_TYPE_INVALID_REQUEST);`
Original file line number	Diff line number	Diff line change
`@@ -20260,10 +20260,10 @@ llama_token llama_sampling_sample_greedy(struct llama_sampling * smpl, llama_tok`
`20260`	`20260`	`return res;`
`20261`	`20261`	`}`
`20262`	`20262`
`20263`		`-llama_token llama_sampling_sample(struct llama_sampling * smpl, llama_token_data_array * candidates) {`
	`20263`	`+llama_token llama_sampling_sample_dist(struct llama_sampling * smpl, llama_token_data_array * candidates) {`
`20264`	`20264`	`time_meas tm(smpl->t_sample_us);`
`20265`	`20265`
`20266`		`- auto res = llama_sampling_sample_impl(candidates, smpl->rng);`
	`20266`	`+ auto res = llama_sampling_sample_dist_impl(candidates, smpl->rng);`
`20267`	`20267`
`20268`	`20268`	`smpl->n_sample++;`
`20269`	`20269`