Add voice input audio focus and device display/config

2024-09-28 14:54:30 +01:00 · 2024-06-01 00:50:08 +03:00 · 2024-06-01 00:50:08 +03:00 · f2e42384bd
commit f2e42384bd
parent 60bc8a2d1d
7 changed files with 193 additions and 38 deletions
--- a/java/src/org/futo/inputmethod/latin/uix/VoiceInputSettingKeys.kt
+++ b/java/src/org/futo/inputmethod/latin/uix/VoiceInputSettingKeys.kt
@ -29,6 +29,16 @@ val DISALLOW_SYMBOLS = SettingsKey(
    default = true
 )
 val PREFER_BLUETOOTH = SettingsKey(
    key = booleanPreferencesKey("prefer_bluetooth_recording"),
    default = false
 )
 val AUDIO_FOCUS = SettingsKey(
    key = booleanPreferencesKey("request_audio_focus"),
    default = true
 )
 val ENGLISH_MODEL_INDEX = SettingsKey(
    key = intPreferencesKey("english_model_index"),
    default = 0
--- a/java/src/org/futo/inputmethod/latin/uix/actions/VoiceInputAction.kt
+++ b/java/src/org/futo/inputmethod/latin/uix/actions/VoiceInputAction.kt
@ -27,11 +27,13 @@ import kotlinx.coroutines.launch
 import kotlinx.coroutines.withContext
 import kotlinx.coroutines.yield
 import org.futo.inputmethod.latin.R
 import org.futo.inputmethod.latin.uix.AUDIO_FOCUS
 import org.futo.inputmethod.latin.uix.Action
 import org.futo.inputmethod.latin.uix.ActionWindow
 import org.futo.inputmethod.latin.uix.DISALLOW_SYMBOLS
 import org.futo.inputmethod.latin.uix.ENABLE_SOUND
 import org.futo.inputmethod.latin.uix.KeyboardManagerForAction
 import org.futo.inputmethod.latin.uix.PREFER_BLUETOOTH
 import org.futo.inputmethod.latin.uix.PersistentActionState
 import org.futo.inputmethod.latin.uix.ResourceHelper
 import org.futo.inputmethod.latin.uix.VERBOSE_PROGRESS
@ -43,6 +45,7 @@ import org.futo.voiceinput.shared.ModelDoesNotExistException
 import org.futo.voiceinput.shared.RecognizerView
 import org.futo.voiceinput.shared.RecognizerViewListener
 import org.futo.voiceinput.shared.RecognizerViewSettings
 import org.futo.voiceinput.shared.RecordingSettings
 import org.futo.voiceinput.shared.SoundPlayer
 import org.futo.voiceinput.shared.types.Language
 import org.futo.voiceinput.shared.types.ModelLoader
@ -84,6 +87,8 @@ private class VoiceInputActionWindow(
        val enableSound = async { context.getSetting(ENABLE_SOUND) }
        val verboseFeedback = async { context.getSetting(VERBOSE_PROGRESS) }
        val disallowSymbols = async { context.getSetting(DISALLOW_SYMBOLS) }
        val useBluetoothAudio = async { context.getSetting(PREFER_BLUETOOTH) }
        val requestAudioFocus = async { context.getSetting(AUDIO_FOCUS) }
        val primaryModel = model
        val languageSpecificModels = mutableMapOf<Language, ModelLoader>()
@ -104,6 +109,10 @@ private class VoiceInputActionWindow(
                glossary = state.userDictionaryObserver.getWords().map { it.word },
                languages = allowedLanguages,
                suppressSymbols = disallowSymbols.await()
            ),
            recordingConfiguration = RecordingSettings(
                preferBluetoothMic = useBluetoothAudio.await(),
                requestAudioFocus = requestAudioFocus.await()
            )
        )
    }
@ -203,7 +212,7 @@ private class VoiceInputActionWindow(
        }
    }
-    override fun recordingStarted() {
+    override fun recordingStarted(device: String) {
        if (shouldPlaySounds) {
            state.soundPlayer.playStartSound()
        }
--- a/java/src/org/futo/inputmethod/latin/uix/settings/pages/VoiceInput.kt
+++ b/java/src/org/futo/inputmethod/latin/uix/settings/pages/VoiceInput.kt
@ -1,35 +1,18 @@
 package org.futo.inputmethod.latin.uix.settings.pages
 import android.content.Intent
 import androidx.compose.foundation.layout.Box
 import androidx.compose.foundation.layout.fillMaxWidth
 import androidx.compose.foundation.layout.padding
 import androidx.compose.material3.DropdownMenuItem
 import androidx.compose.material3.ExperimentalMaterial3Api
 import androidx.compose.material3.ExposedDropdownMenuBox
 import androidx.compose.material3.ExposedDropdownMenuDefaults
 import androidx.compose.material3.MaterialTheme
 import androidx.compose.material3.Text
 import androidx.compose.material3.TextField
 import androidx.compose.runtime.Composable
 import androidx.compose.runtime.getValue
 import androidx.compose.runtime.mutableStateOf
 import androidx.compose.runtime.remember
 import androidx.compose.runtime.setValue
 import androidx.compose.ui.Alignment
 import androidx.compose.ui.Modifier
 import androidx.compose.ui.platform.LocalContext
 import androidx.compose.ui.res.painterResource
 import androidx.compose.ui.res.stringResource
 import androidx.compose.ui.tooling.preview.Preview
 import androidx.compose.ui.unit.dp
 import androidx.navigation.NavHostController
 import androidx.navigation.compose.rememberNavController
 import org.futo.inputmethod.latin.R
 import org.futo.inputmethod.latin.uix.AUDIO_FOCUS
 import org.futo.inputmethod.latin.uix.DISALLOW_SYMBOLS
 import org.futo.inputmethod.latin.uix.ENABLE_SOUND
-import org.futo.inputmethod.latin.uix.ENGLISH_MODEL_INDEX
+import org.futo.inputmethod.latin.uix.PREFER_BLUETOOTH
 import org.futo.inputmethod.latin.uix.SettingsKey
 import org.futo.inputmethod.latin.uix.USE_SYSTEM_VOICE_INPUT
 import org.futo.inputmethod.latin.uix.VERBOSE_PROGRESS
 import org.futo.inputmethod.latin.uix.settings.NavigationItem
@ -38,8 +21,6 @@ import org.futo.inputmethod.latin.uix.settings.ScreenTitle
 import org.futo.inputmethod.latin.uix.settings.ScrollableList
 import org.futo.inputmethod.latin.uix.settings.SettingToggleDataStore
 import org.futo.inputmethod.latin.uix.settings.useDataStore
 import org.futo.voiceinput.shared.ENGLISH_MODELS
 import org.futo.voiceinput.shared.types.ModelLoader
@Preview
@Composable
@ -49,7 +30,6 @@ fun VoiceInputScreen(navController: NavHostController = rememberNavController())
    ScrollableList {
        ScreenTitle("Voice Input", showBack = true, navController)
        SettingToggleDataStore(
            title = "Disable built-in voice input",
            subtitle = "Use voice input provided by external app",
@ -76,10 +56,23 @@ fun VoiceInputScreen(navController: NavHostController = rememberNavController())
            SettingToggleDataStore(
                title = "Verbose progress",
-                subtitle = "Display verbose information about model inference",
+                subtitle = "Display verbose information such as mic being used",
                setting = VERBOSE_PROGRESS
            )
            SettingToggleDataStore(
                title = "Prefer Bluetooth Mic",
                subtitle = "There may be extra delay to recording starting as Bluetooth SCO connection must be negotiated",
                setting = PREFER_BLUETOOTH
            )
            SettingToggleDataStore(
                title = "Audio Focus",
                subtitle = "Pause videos/music when voice input is activated",
                setting = AUDIO_FOCUS
            )
            SettingToggleDataStore(
                title = "Suppress symbols",
                setting = DISALLOW_SYMBOLS
--- a/voiceinput-shared/src/main/java/org/futo/voiceinput/shared/AudioRecognizer.kt
+++ b/voiceinput-shared/src/main/java/org/futo/voiceinput/shared/AudioRecognizer.kt
@ -5,7 +5,10 @@ import android.content.Context
 import android.content.Intent
 import android.content.pm.PackageManager
 import android.hardware.SensorPrivacyManager
 import android.media.AudioDeviceInfo
 import android.media.AudioFocusRequest
 import android.media.AudioFormat
 import android.media.AudioManager
 import android.media.AudioRecord
 import android.media.MediaRecorder
 import android.media.MicrophoneDirection
@ -42,9 +45,43 @@ import kotlin.math.min
 import kotlin.math.pow
 import kotlin.math.sqrt
 private fun getRecordingDeviceKind(type: Int): String {
    return when (type) {
        AudioDeviceInfo.TYPE_BUILTIN_EARPIECE -> "BUILTIN"
        AudioDeviceInfo.TYPE_BUILTIN_MIC -> "BUILTIN"
        AudioDeviceInfo.TYPE_BLUETOOTH_SCO -> "BLUETOOTH_SCO"
        AudioDeviceInfo.TYPE_BLUETOOTH_A2DP -> "BLUETOOTH_A2DP"
        AudioDeviceInfo.TYPE_WIRED_HEADSET -> "WIRED_HEADSET"
        AudioDeviceInfo.TYPE_HDMI -> "HDMI"
        AudioDeviceInfo.TYPE_TELEPHONY -> "TELEPHONY"
        AudioDeviceInfo.TYPE_DOCK -> "DOCK"
        AudioDeviceInfo.TYPE_USB_ACCESSORY -> "USB_ACCESSORY"
        AudioDeviceInfo.TYPE_USB_DEVICE -> "USB_DEVICE"
        AudioDeviceInfo.TYPE_USB_HEADSET -> "USB_HEADSET"
        AudioDeviceInfo.TYPE_FM_TUNER -> "FM_TUNER"
        AudioDeviceInfo.TYPE_TV_TUNER -> "TV_TUNER"
        AudioDeviceInfo.TYPE_LINE_ANALOG -> "LINE_ANALOG"
        AudioDeviceInfo.TYPE_LINE_DIGITAL -> "LINE_DIGITAL"
        AudioDeviceInfo.TYPE_IP -> "IP"
        AudioDeviceInfo.TYPE_BUS -> "BUS"
        AudioDeviceInfo.TYPE_REMOTE_SUBMIX -> "REMOTE_SUBMIX"
        AudioDeviceInfo.TYPE_BLE_HEADSET -> "BLE_HEADSET"
        AudioDeviceInfo.TYPE_HDMI_ARC -> "HDMI_ARC"
        AudioDeviceInfo.TYPE_HDMI_EARC -> "HDMI_EARC"
        AudioDeviceInfo.TYPE_DOCK_ANALOG -> "DOCK_ANALOG"
        else -> "unknown@${type}"
    }
 }
 data class RecordingSettings(
    val preferBluetoothMic: Boolean,
    val requestAudioFocus: Boolean
 )
 data class AudioRecognizerSettings(
    val modelRunConfiguration: MultiModelRunConfiguration,
-    val decodingConfiguration: DecodingConfiguration
+    val decodingConfiguration: DecodingConfiguration,
    val recordingConfiguration: RecordingSettings
 )
 class ModelDoesNotExistException(val models: List<ModelLoader>) : Throwable()
@ -66,6 +103,69 @@ class AudioRecognizer(
    private var modelJob: Job? = null
    private var loadModelJob: Job? = null
    private var focusRequest: AudioFocusRequest? = null
    private var communicationDevice = "unknown"
    private fun focusAudio() {
        unfocusAudio()
        if(!settings.recordingConfiguration.requestAudioFocus) return
        try {
            if (Build.VERSION.SDK_INT >= Build.VERSION_CODES.O) {
                val audioManager = context.getSystemService(Context.AUDIO_SERVICE) as AudioManager
                focusRequest =
                    AudioFocusRequest.Builder(AudioManager.AUDIOFOCUS_GAIN_TRANSIENT_EXCLUSIVE)
                        .build()
                audioManager.requestAudioFocus(focusRequest!!)
            }
        }catch(e: Exception) {
            e.printStackTrace()
        }
    }
    private fun unfocusAudio() {
        try {
            if (Build.VERSION.SDK_INT >= Build.VERSION_CODES.O) {
                val audioManager = context.getSystemService(Context.AUDIO_SERVICE) as AudioManager
                if (focusRequest != null) {
                    audioManager.abandonAudioFocusRequest(focusRequest!!)
                }
                focusRequest = null
            }
        }catch(e: Exception) {
            e.printStackTrace()
        }
    }
    private fun setCommunicationDevice() {
        communicationDevice = "Unset"
        if(!settings.recordingConfiguration.preferBluetoothMic) return
        try {
            if (Build.VERSION.SDK_INT >= Build.VERSION_CODES.S) {
                val audioManager = context.getSystemService(Context.AUDIO_SERVICE) as AudioManager
                val devices = audioManager.availableCommunicationDevices
                val tgtDevice = devices.firstOrNull { it.type == AudioDeviceInfo.TYPE_BLUETOOTH_SCO } ?: devices.firstOrNull { it.type == AudioDeviceInfo.TYPE_BUILTIN_MIC } ?: devices.first()
                if (!audioManager.setCommunicationDevice(tgtDevice)) {
                    audioManager.clearCommunicationDevice()
                } else {
                    communicationDevice =
                        tgtDevice.productName.toString() + " (${getRecordingDeviceKind(tgtDevice.type)})"
                }
            }
        } catch(_: Exception) {}
    }
    private fun clearCommunicationDevice() {
        val audioManager = context.getSystemService(Context.AUDIO_SERVICE) as AudioManager
        if (Build.VERSION.SDK_INT >= Build.VERSION_CODES.S) {
            audioManager.clearCommunicationDevice()
        }
    }
    @Throws(ModelDoesNotExistException::class)
    private fun verifyModelsExist() {
        val modelsThatDoNotExist = mutableListOf<ModelLoader>()
@ -100,6 +200,10 @@ class AudioRecognizer(
        isRecording = false
        modelRunner.cancelAll()
        unfocusAudio()
        clearCommunicationDevice()
    }
    fun finish() {
@ -144,10 +248,17 @@ class AudioRecognizer(
        }
    }
    @Throws(SecurityException::class)
    private fun createAudioRecorder(): AudioRecord {
        val purpose = if(settings.recordingConfiguration.preferBluetoothMic) {
            MediaRecorder.AudioSource.VOICE_COMMUNICATION
        } else {
            MediaRecorder.AudioSource.VOICE_RECOGNITION
        }
        val recorder = AudioRecord(
-            MediaRecorder.AudioSource.VOICE_RECOGNITION,
+            purpose,
            16000,
            AudioFormat.CHANNEL_IN_MONO,
            AudioFormat.ENCODING_PCM_16BIT,
@ -160,8 +271,6 @@ class AudioRecognizer(
            recorder.setPreferredMicrophoneDirection(MicrophoneDirection.MIC_DIRECTION_TOWARDS_USER)
        }
        recorder.startRecording()
        return recorder
    }
@ -310,14 +419,32 @@ class AudioRecognizer(
            throw IllegalStateException("Start recording when already recording")
        }
        setCommunicationDevice()
        val recorder = try {
            createAudioRecorder()
        } catch (e: SecurityException) {
            // It's possible we may have lost permission, so let's just ask for permission again
            clearCommunicationDevice()
            requestPermission()
            return
        }
        focusAudio()
        if(communicationDevice == "Unset") {
            if (Build.VERSION.SDK_INT >= Build.VERSION_CODES.P) {
                communicationDevice = recorder.activeMicrophones.joinToString {
                    getRecordingDeviceKind(it.type)
                } + " (may be stale)"
            }
        }
        listener.recordingStarted(communicationDevice)
        recorder.startRecording()
        this.recorder = recorder
        isRecording = true
@ -336,7 +463,6 @@ class AudioRecognizer(
            }
        }
        listener.recordingStarted()
    }
    private val runnerCallback: ModelInferenceCallback = object : ModelInferenceCallback {
--- a/voiceinput-shared/src/main/java/org/futo/voiceinput/shared/RecognizerView.kt
+++ b/voiceinput-shared/src/main/java/org/futo/voiceinput/shared/RecognizerView.kt
@ -23,13 +23,14 @@ data class RecognizerViewSettings(
    val shouldShowInlinePartialResult: Boolean,
    val modelRunConfiguration: MultiModelRunConfiguration,
-    val decodingConfiguration: DecodingConfiguration
+    val decodingConfiguration: DecodingConfiguration,
    val recordingConfiguration: RecordingSettings
 )
 private val VerboseAnnotations = hashMapOf(
    InferenceState.ExtractingMel to R.string.extracting_features,
    InferenceState.LoadingModel to R.string.loading_model,
-    InferenceState.Encoding to R.string.encoding,
+    InferenceState.Encoding to R.string.processing,
    InferenceState.DecodingLanguage to R.string.decoding,
    InferenceState.SwitchingModel to R.string.switching_model,
    InferenceState.DecodingStarted to R.string.decoding
@ -47,7 +48,7 @@ private val DefaultAnnotations = hashMapOf(
 interface RecognizerViewListener {
    fun cancelled()
-    fun recordingStarted()
+    fun recordingStarted(device: String)
    fun finished(result: String)
@ -75,6 +76,8 @@ class RecognizerView(
    private val partialDecodingText = mutableStateOf("")
    private val currentViewState = mutableStateOf(CurrentView.LoadingCircle)
    private val currentDeviceState = mutableStateOf("Recording not started")
    @Composable
    fun Content() {
        when (currentViewState.value) {
@ -93,7 +96,8 @@ class RecognizerView(
            CurrentView.InnerRecognize -> {
                InnerRecognize(
                    magnitude = magnitudeState,
-                    state = statusState
+                    state = statusState,
                    device = if(settings.shouldShowVerboseFeedback) { currentDeviceState } else { null }
                )
            }
@ -168,9 +172,10 @@ class RecognizerView(
            }
        }
-        override fun recordingStarted() {
+        override fun recordingStarted(device: String) {
            updateMagnitude(0.0f, MagnitudeState.NOT_TALKED_YET)
-            listener.recordingStarted()
+            currentDeviceState.value = device
            listener.recordingStarted(device)
        }
        override fun updateMagnitude(magnitude: Float, state: MagnitudeState) {
@ -192,7 +197,8 @@ class RecognizerView(
        listener = audioRecognizerListener,
        settings = AudioRecognizerSettings(
            modelRunConfiguration = settings.modelRunConfiguration,
-            decodingConfiguration = settings.decodingConfiguration
+            decodingConfiguration = settings.decodingConfiguration,
            recordingConfiguration = settings.recordingConfiguration
        )
    )
--- a/voiceinput-shared/src/main/java/org/futo/voiceinput/shared/types/AudioRecognizerListener.kt
+++ b/voiceinput-shared/src/main/java/org/futo/voiceinput/shared/types/AudioRecognizerListener.kt
@ -14,7 +14,7 @@ interface AudioRecognizerListener {
    fun loading()
    fun needPermission(onResult: (Boolean) -> Unit)
-    fun recordingStarted()
+    fun recordingStarted(device: String)
    fun updateMagnitude(magnitude: Float, state: MagnitudeState)
    fun processing()
--- a/voiceinput-shared/src/main/java/org/futo/voiceinput/shared/ui/RecognizeViews.kt
+++ b/voiceinput-shared/src/main/java/org/futo/voiceinput/shared/ui/RecognizeViews.kt
@ -54,7 +54,8 @@ fun AnimatedRecognizeCircle(magnitude: MutableFloatState = mutableFloatStateOf(0
@Composable
 fun InnerRecognize(
    magnitude: MutableFloatState = mutableFloatStateOf(0.5f),
-    state: MutableState<MagnitudeState> = mutableStateOf(MagnitudeState.MIC_MAY_BE_BLOCKED)
+    state: MutableState<MagnitudeState> = mutableStateOf(MagnitudeState.MIC_MAY_BE_BLOCKED),
    device: MutableState<String>? = mutableStateOf("")
 ) {
    Box(modifier = Modifier.fillMaxSize(), contentAlignment = Alignment.Center) {
        AnimatedRecognizeCircle(magnitude = magnitude)
@ -78,6 +79,16 @@ fun InnerRecognize(
            textAlign = TextAlign.Center,
            color = MaterialTheme.colorScheme.onSurface
        )
        if(device != null) {
            Text(
                "Device: ${device.value}",
                style = Typography.labelSmall,
                modifier = Modifier.fillMaxWidth().offset(x = 0.dp, y = 64.dp),
                textAlign = TextAlign.Center,
                color = MaterialTheme.colorScheme.onSurface.copy(alpha = 0.66f)
            )
        }
    }
 }