![Hier erfahren Sie, wie die Live-Untertitel von Android 10 tatsächlich funktionieren - Nachrichten Hier erfahren Sie, wie die Live-Untertitel von Android 10 tatsächlich funktionieren - Nachrichten](https://a.23rdpta.org/news/heres-how-android-10s-live-caption-actually-works.jpg)
Inhalt
Live Caption ist eine der coolsten Android-Funktionen, bei denen mithilfe von maschinellem Lernen auf dem Gerät Untertitel für lokale Videos und Webclips generiert werden.
Google hat einen Blog-Beitrag veröffentlicht, in dem genau beschrieben wird, wie diese raffinierte Funktion funktioniert. Er besteht zunächst aus drei Modellen für maschinelles Lernen auf dem Gerät.
Es gibt ein RNN-T-Modell (Recurrent Neural Network Sequence Transduction) für die Spracherkennung. Google verwendet jedoch auch ein rekurrentes neuronales Netzwerk, um die Interpunktion vorherzusagen.
Das dritte On-Device-Modell für maschinelles Lernen ist ein Convolutional Neural Network (CNN) für Klangereignisse wie Vogelgezwitscher, Menschenklatschen und Musik. Laut Google leitet sich dieses dritte Modell des maschinellen Lernens aus seiner Arbeit an der Live Transcribe-App für Eingabehilfen ab, mit der Sprach- und Tonereignisse übertragen werden können.
Reduzierung der Auswirkungen von Live Caption
Das Unternehmen gibt an, eine Reihe von Maßnahmen ergriffen zu haben, um den Batterieverbrauch und die Leistungsanforderungen von Live Caption zu senken.Zum einen wird die ASR-Engine (Full Automatic Language Recognition) nur ausgeführt, wenn tatsächlich Sprache erkannt wird, und nicht, wenn sie ständig im Hintergrund ausgeführt wird.
„Wenn beispielsweise Musik erkannt wird und keine Sprache im Audiostream vorhanden ist, wird das Etikett auf dem Bildschirm angezeigt und das ASR-Modell wird entladen. Das ASR-Modell wird erst dann wieder in den Speicher geladen, wenn wieder Sprache im Audiostream vorhanden ist “, erklärt Google in seinem Blogbeitrag.
Google hat auch Techniken wie das Bereinigen neuronaler Verbindungen (Reduzieren der Größe des Sprachmodells) verwendet, um den Stromverbrauch um 50% zu senken und die kontinuierliche Ausführung von Live Caption zu ermöglichen.
Google erklärt, dass die Spracherkennungsergebnisse einige Male pro Sekunde aktualisiert werden, wenn der Titel erstellt wird, die Interpunktionsvorhersage jedoch anders ist. Der Suchriese sagt, er liefert eine Interpunktionsvorhersage "auf der Grundlage des Textes des zuletzt erkannten Satzes", um den Ressourcenbedarf zu verringern.
Live Caption ist jetzt in der Google Pixel 4-Serie verfügbar. Google gibt an, dass es in Kürze in der Pixel 3-Serie und auf anderen Geräten verfügbar sein wird. Das Unternehmen arbeitet nach eigenen Angaben auch an der Unterstützung anderer Sprachen und der besseren Unterstützung von Inhalten für mehrere Sprecher.