Es sieht vielleicht so aus, als würde Ruidong Zhang mit sich selbst sprechen, aber tatsächlich gibt der Doktorand im Bereich Informationswissenschaft lautlos den Passcode ein, um sein in der Nähe befindliches Smartphone zu entsperren und den nächsten Song seiner Playlist abzuspielen.
Es ist keine Telepathie: Es ist die scheinbar gewöhnliche, handelsübliche Brille, die er trägt, genannt EchoSpeech – eine stille Spracherkennungsschnittstelle, die akustische Erkennung und künstliche Intelligenz verwendet, um kontinuierlich bis zu 31 nicht geäußerte Befehle basierend auf Lippen- und Mundbewegungen zu erkennen .
Die von Cornells Smart Computer Interfaces for Future Interactions (SciFi) Lab entwickelte stromsparende, tragbare Schnittstelle benötigt nur wenige Minuten an Trainingsdaten, bevor sie Befehle erkennt und mit einem Smartphone verwendet werden kann, so die Forscher.
Zhang ist der Hauptautor von „EchoSpeech: Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing“, das diesen Monat auf der Association for Computing Machinery Conference on Human Factors in Computing Systems (CHI) in Hamburg, Deutschland, vorgestellt wird .
„Für Menschen, die keine Laute vokalisieren können, könnte diese Silent-Speech-Technologie eine hervorragende Eingabe für einen Sprachsynthesizer sein. Es könnte den Patienten ihre Stimme zurückgeben“, sagte Zhang über den potenziellen Nutzen der Technologie bei weiterer Entwicklung.
In seiner jetzigen Form könnte EchoSpeech verwendet werden, um mit anderen per Smartphone an Orten zu kommunizieren, an denen Sprache unbequem oder unangemessen ist, wie z. B. in einem lauten Restaurant oder einer ruhigen Bibliothek. Die geräuschlose Sprachschnittstelle kann auch mit einem Stift gekoppelt und mit Designsoftware wie CAD verwendet werden, wodurch Tastatur und Maus praktisch überflüssig werden.
Ausgestattet mit einem Paar Mikrofonen und Lautsprechern, die kleiner als ein Radiergummi sind, wird die EchoSpeech-Brille zu einem tragbaren KI-betriebenen Sonarsystem, das Schallwellen über das Gesicht sendet und empfängt und Mundbewegungen wahrnimmt. Ein ebenfalls von SciFi Lab-Forschern entwickelter Deep-Learning-Algorithmus analysiert diese Echoprofile dann in Echtzeit mit einer Genauigkeit von etwa 95 %.
Das SciFi Lab hat mehrere tragbare Geräte entwickelt, die Körper-, Hand- und Gesichtsbewegungen mithilfe von maschinellem Lernen und tragbaren Miniatur-Videokameras verfolgen. Kürzlich hat sich das Labor weg von Kameras und hin zu akustischer Sensorik verlagert, um Gesichts- und Körperbewegungen zu verfolgen, unter Berufung auf eine verbesserte Batterielebensdauer; strengere Sicherheit und Privatsphäre; und kleinere, kompaktere Hardware. EchoSpeech baut auf dem ähnlichen akustischen Sensor des Labors namens EarIO auf, einem tragbaren Ohrhörer, der Gesichtsbewegungen verfolgt.
Die meisten Technologien zur Erkennung stiller Sprache sind auf einen ausgewählten Satz vorgegebener Befehle beschränkt und erfordern, dass der Benutzer eine Kamera ansieht oder trägt, was weder praktisch noch machbar ist, sagte Cheng Zhang. Es gibt auch große Datenschutzbedenken bei tragbaren Kameras – sowohl für den Benutzer als auch für diejenigen, mit denen der Benutzer interagiert, sagte er.
Akustische Sensortechnologie wie EchoSpeech macht tragbare Videokameras überflüssig. Und da Audiodaten viel kleiner sind als Bild- oder Videodaten, benötigen sie weniger Bandbreite für die Verarbeitung und können in Echtzeit über Bluetooth an ein Smartphone übertragen werden, sagte François Guimbretière, Professor für Informationswissenschaften an der Cornell Bowers CIS und Mitautor.
Auch die Batterielebensdauer verbessert sich exponentiell, sagte Cheng Zhang: Zehn Stunden mit akustischer Erfassung im Vergleich zu 30 Minuten mit einer Kamera.
Das Team untersucht die Kommerzialisierung der Technologie hinter EchoSpeech, teilweise dank Ignite: Cornell Research Lab to Market Lückenfinanzierung.
In bevorstehenden Arbeiten erforschen die Forscher von SciFi Lab Smart-Glass-Anwendungen zur Verfolgung von Gesichts-, Augen- und Oberkörperbewegungen.
„Wir glauben, dass Glas eine wichtige Personal-Computing-Plattform sein wird, um menschliche Aktivitäten in alltäglichen Umgebungen zu verstehen“, sagte Cheng Zhang.