Loss/progress training callbacks

2024-09-28 14:54:30 +01:00 · 2023-11-14 18:11:00 +02:00 · 2023-11-14 18:11:00 +02:00 · 2409eecef5
commit 2409eecef5
parent b53a46b18d
6 changed files with 106 additions and 6 deletions
--- a/java/src/org/futo/inputmethod/latin/uix/settings/pages/TrainDev.kt
+++ b/java/src/org/futo/inputmethod/latin/uix/settings/pages/TrainDev.kt
@ -24,6 +24,7 @@ import org.futo.inputmethod.latin.xlm.TrainingWorker
 import org.futo.inputmethod.latin.xlm.TrainingWorkerStatus
 import org.futo.inputmethod.latin.xlm.loadHistoryLogBackup
 import java.util.concurrent.TimeUnit
 import kotlin.math.roundToInt
@OptIn(ExperimentalMaterial3Api::class)
@ -33,6 +34,9 @@ fun TrainDevScreen(navController: NavHostController = rememberNavController()) {
    var trainingDataAmount by remember { mutableStateOf(0) }
    val trainingState = TrainingWorkerStatus.state.collectAsState(initial = TrainingState.None)
    val progress = TrainingWorkerStatus.progress.collectAsState(initial = 0.0f)
    val loss = TrainingWorkerStatus.loss.collectAsState(initial = Float.MAX_VALUE)
    val context = LocalContext.current
    LaunchedEffect(Unit) {
        val data = mutableListOf<HistoryLogForTraining>()
@ -54,14 +58,14 @@ fun TrainDevScreen(navController: NavHostController = rememberNavController()) {
            WorkManager.getInstance(context).enqueue(workRequest)
        }, enabled = !TrainingWorkerStatus.isTraining.value) {
            if(TrainingWorkerStatus.isTraining.value) {
-                Text("Currently training, check status in logcat")
+                Text("Currently training (${(progress.value * 100.0f).roundToInt()}%, loss ${loss.value})")
            } else {
                Text("Train model")
            }
        }
        when(trainingState.value) {
-            TrainingState.Finished -> Text("Last train finished successfully!")
+            TrainingState.Finished -> Text("Last train finished successfully! Final loss: ${loss.value}")
            TrainingState.ErrorInadequateData -> Text("Last training run failed due to lack of data")
            else -> { }
        }
--- a/java/src/org/futo/inputmethod/latin/xlm/AdapterTrainer.kt
+++ b/java/src/org/futo/inputmethod/latin/xlm/AdapterTrainer.kt
@ -2,6 +2,9 @@ package org.futo.inputmethod.latin.xlm
 import kotlinx.coroutines.DelicateCoroutinesApi
 import kotlinx.coroutines.Dispatchers
 import kotlinx.coroutines.flow.Flow
 import kotlinx.coroutines.flow.MutableSharedFlow
 import kotlinx.coroutines.flow.SharedFlow
 import kotlinx.coroutines.newSingleThreadContext
 import kotlinx.coroutines.withContext
@ -10,7 +13,14 @@ val TrainingContext = newSingleThreadContext("AdapterTrainingContext")
 class InadequateDataException() : Exception("Inadequate Training Data")
-class AdapterTrainer(baseModelPath: String, tokenizerPath: String, checkpointPath: String, examples: List<String>) {
+class AdapterTrainer(
    baseModelPath: String,
    tokenizerPath: String,
    checkpointPath: String,
    examples: List<String>,
    val lossFlow: MutableSharedFlow<Float>?,
    val progressFlow: MutableSharedFlow<Float>?
 ) {
    private external fun openNative(baseModelPath: String, tokenizerPath: String, outputPath: String): Long
    private external fun closeNative(handle: Long)
    private external fun addExample(handle: Long, example: String)
@ -19,6 +29,14 @@ class AdapterTrainer(baseModelPath: String, tokenizerPath: String, checkpointPat
    private var handle: Long = 0L
    private fun isHandleValid() = handle != 0L
    private fun emitProgress(progress: Float) {
        progressFlow?.tryEmit(progress)
    }
    private fun emitLoss(loss: Float) {
        lossFlow?.tryEmit(loss)
    }
    init {
        handle = openNative(baseModelPath, tokenizerPath, checkpointPath)
        if(!isHandleValid()) {
@ -50,10 +68,20 @@ class AdapterTrainerBuilder(val baseModelPath: String, val tokenizerPath: String
        examples.addAll(newExamples)
    }
    private var lossFlow: MutableSharedFlow<Float>? = null
    fun setLossFlow(flow: MutableSharedFlow<Float>) {
        lossFlow = flow
    }
    private var progressFlow: MutableSharedFlow<Float>? = null
    fun setProgressFlow(flow: MutableSharedFlow<Float>) {
        progressFlow = flow
    }
    fun loadAndPrepare(): AdapterTrainer {
        println("Preparing AdapterTrainer. Training data:")
        examples.forEach { println(" - [$it]") }
-        return AdapterTrainer(baseModelPath, tokenizerPath, checkpointPath, examples)
+        return AdapterTrainer(baseModelPath, tokenizerPath, checkpointPath, examples, lossFlow = lossFlow, progressFlow = progressFlow)
    }
 }
--- a/java/src/org/futo/inputmethod/latin/xlm/TrainingWorker.kt
+++ b/java/src/org/futo/inputmethod/latin/xlm/TrainingWorker.kt
@ -41,6 +41,9 @@ object TrainingWorkerStatus {
    val state = MutableSharedFlow<TrainingState>(replay = 1)
    val lmRequest = MutableSharedFlow<LanguageModelFacilitatorRequest>(replay = 0)
    val isTraining = mutableStateOf(false)
    val loss = MutableSharedFlow<Float>(replay = 4)
    val progress = MutableSharedFlow<Float>(replay = 4)
 }
@ -174,6 +177,9 @@ class TrainingWorker(context: Context, parameters: WorkerParameters) : Coroutine
            outputFile.absolutePath
        )
        builder.setLossFlow(TrainingWorkerStatus.loss)
        builder.setProgressFlow(TrainingWorkerStatus.progress)
        val data = getTrainingData()
        builder.addExamples(data.lines())
--- a/native/jni/org_futo_inputmethod_latin_xlm_AdapterTrainer.cpp
+++ b/native/jni/org_futo_inputmethod_latin_xlm_AdapterTrainer.cpp
@ -33,6 +33,28 @@ namespace latinime {
        sentencepiece::SentencePieceProcessor spm;
        struct train_params params;
        static void OnLossCallback(void *userdata, float loss) {
            auto *state = reinterpret_cast<AdapterTrainerState *>(userdata);
            state->OnLoss(loss);
        }
        static void OnProgressCallback(void *userdata, float progress) {
            auto *state = reinterpret_cast<AdapterTrainerState *>(userdata);
            state->OnProgress(progress);
        }
        JNIEnv *env;
        jobject callbackObject;
        jmethodID lossMethodId;
        jmethodID progressMethodId;
        void OnLoss(float loss) const {
            env->CallVoidMethod(callbackObject, lossMethodId, loss);
        }
        void OnProgress(float progress) const {
            env->CallVoidMethod(callbackObject, progressMethodId, progress);
        }
        bool Initialize() {
            params = get_default_train_params();
            params.common.fn_train_data = "";
@ -57,6 +79,10 @@ namespace latinime {
            params.lora_r = 16;
            params.lora_alpha = 16;
            params.common.callbacks.userdata = this;
            params.common.callbacks.loss     = AdapterTrainerState::OnLossCallback;
            params.common.callbacks.progress = AdapterTrainerState::OnProgressCallback;
            // TODO: Check model path valid / try to pre-load resources?
            if(!spm.Load(tokenizerPath).ok()){
@ -83,6 +109,8 @@ namespace latinime {
        state->tokenizerPath = jstring2string(env, tokenizerPathStr);
        state->outputPath    = jstring2string(env, outputPathStr);
        state->env = env;
        if(!state->Initialize()) {
            delete state;
            return 0;
@ -103,8 +131,21 @@ namespace latinime {
    }
    // TODO: Callback for progress
-    static void xlm_AdapterTrainer_train(JNIEnv *env, jclass clazz, jlong statePtr) {
+    static void xlm_AdapterTrainer_train(JNIEnv *env, jobject instance, jlong statePtr) {
        jclass clazz = env->GetObjectClass(instance);
        assert(clazz);
        jmethodID progressMethodId = env->GetMethodID(clazz, "emitProgress", "(F)V");
        jmethodID lossMethodId = env->GetMethodID(clazz, "emitLoss", "(F)V");
        assert(progressMethodId);
        assert(lossMethodId);
        auto *state = reinterpret_cast<AdapterTrainerState *>(statePtr);
        state->env = env;
        state->lossMethodId = lossMethodId;
        state->progressMethodId = progressMethodId;
        state->callbackObject = instance;
        int result = state->Train();
        if(result != 0) {
            AKLOGE("train returned with non-zero code %d", result);
--- a/native/jni/src/ggml/train.cpp
+++ b/native/jni/src/ggml/train.cpp
@ -1429,10 +1429,22 @@ void train_opt_callback(void * vdata, int accum_step, float * sched, bool * canc
        int impr_plot = -(int)(1 + (opt->loss_before - opt->loss_after) * 10.0f + 0.5f);
        if (impr_plot > 0) impr_plot = 0;
        if (std::isnan(opt->loss_before) || std::isnan(opt->loss_after)) impr_plot = 0;
        size_t sample_curr = std::min(1+train->shuffle_next_sample, train->shuffle_sample_count);
        AKLOGI("%s: iter=%6d sample=%zu/%zu sched=%f loss=%f",
-               __func__, opt->iter, std::min(1+train->shuffle_next_sample, train->shuffle_sample_count), train->shuffle_sample_count,
+               __func__, opt->iter, sample_curr, train->shuffle_sample_count,
               *sched, opt->loss_after);
        // Call our callbacks
        if(params->callbacks.loss != nullptr) {
            params->callbacks.loss(params->callbacks.userdata, opt->loss_after);
        }
        if(params->callbacks.progress != nullptr) {
            float progress_iterations = ((float)opt->iter) / ((float)params->adam_n_iter);
            float progress_samples = ((float)sample_curr) / ((float)(train->shuffle_sample_count * params->n_epochs));
            params->callbacks.progress(params->callbacks.userdata, std::max(progress_iterations, progress_samples));
        }
        if (data->millis_per_iter > 0) {
            AKLOGI(" dt=");
--- a/native/jni/src/ggml/train.h
+++ b/native/jni/src/ggml/train.h
@ -26,6 +26,13 @@ struct train_state {
    size_t        shuffle_next_sample;
 };
 struct train_callbacks {
    void *userdata;
    void (*loss)(void* userdata, float loss);
    void (*progress)(void* userdata, float progress);
 };
 struct train_params_common {
    const char * fn_train_data;
    const char * fn_checkpoint_in;
@ -81,6 +88,8 @@ struct train_params_common {
    float adam_beta2;
    float adam_gclip;
    float adam_eps_f;
    struct train_callbacks callbacks;
 };
 typedef void (*save_train_files_callback)(void * data, struct train_state * train);