In Graz findet diese Woche die „Interspeech“, die weltweit größte Konferenz über digitale Sprachkommunikation, statt – mit konkreten Einblicken zur nächsten Entwicklungsstufe. Professor Gernot Kubin von der TU-Graz im HORIZONT-Interview über die Konferenz, Entwicklungen und Herausforderungen.
Die Revolution ist nicht immer sichtbar, aber hörbar: die Stimme aus dem Navigationssystem oder das Bestellen im Online-Shop, obwohl man nicht am Computer, sondern mitten im Wohnzimmer sitzt – Sprachassistenzsysteme erobern immer mehr Lebensbereiche. Entsprechend weit oben auf der Prioritätenliste stehen die Entwicklungen in der digitalen Sprachkommunikation auch bei US-Tech-Giganten wie Apple und Google. Einige ihrer Mitarbeiter waren diese Woche in Graz, denn in der steirischen Landeshauptstadt fand die „Interspeech”, die wichtigste Konferenz zu digitaler Sprachkommunikation, statt. Zu Gast waren rund 2.000 Teilnehmer aus aller Welt.
Den ersten großen Sprung habe man bereits hinter sich, sagt Gernot Kubin, Leiter des Instituts für Signalverarbeitung und Sprachkommunikation an der TU-Graz, im HORIZONT-Interview über Vergangenheit, Gegenwart und Zukunft der digitalen Sprachkommunikation.
HORIZONT: An der Interspeech nehmen die ganz großen Namen aus der Tech-Branche teil. Wie hoch auf der Prioritätenliste ist das Thema digitale Kommunikation derzeit bei Amazon und Co?
Gernot Kubin: Wie man an ihrer Präsenz in Graz sieht, steht das Thema sehr weit oben auf der Prioritätenliste großer Konzerne. Die Präsenz hier heißt nicht nur, dass diese Unternehmen einen Ausstellungsstand haben, sondern viele sind auch wichtige Sponsoren und Förderer der Veranstaltung - und zwar ohne Gegenleistung. Die meisten dieser Firmen haben auch wissenschaftliche Beiträge eingereicht, die durch dasselbe strenge wissenschaftliche Review-System gehen mussten, wie alle anderen wissenschaftlichen Beiträge. Wenn eine Firma wie Amazon, die durchaus fürs Sparen bekannt ist, sich eine Mannschaft leistet, die auf den Gebiet auch wissenschaftlich tätig ist, sieht man, dass das eine hohe Priorität hat. In der Anfangsphase wurde kolportiert, dass Amazon in diesem Bereich rund 1.000 Personen angestellt hat, inzwischen dürften es 5.000 sein.
Alexa und Siri sind der breiten Masse inzwischen ein Begriff. Wann hat diese Entwicklung hin zu einer massentauglichen Anwendung der digitalen Sprachkommunikation an Fahrt gewonnen?
Kubin: Historisch gab es den ersten Meilenstein vor 200 Jahren, als Wolfgang von Kempelen am Hof von Maria Theresia die erste Sprechmaschine weltweit gebaut hat. Als Diplomand hab ich mich 1982 mit Sprechmaschinen auf elektronischer Chipbasis beschäftigt. Der Sprung, der aber jetzt von der breiten Öffentlichkeit wahrgenommen wird, ist an Alexa und Siri gut festzumachen. Siri war unter den ersten Diensten, der an alle anderen Funktionen eines Smartphones eng angebunden war - sei es die Karte oder der Restaurantführer. Der nächste Schritt waren die Smart-Speaker. Der wesentliche Sprung war, dass diese Geräte nun im Wohnzimmer stehen, zurück sprechen und damit Teil des Alltages sind. Dass Alexa spricht und mir damit quasi mit einer Persönlichkeit gegenübersitzt hat schon eine neue Qualität. Dieser Sprung ist massiv durch Amazon vorangetrieben worden.
Eine Entwicklung, die ich für sehr bemerkenswert halte, ist, dass Smart-Speaker der ersten Generation alle ohne Bildschirm veröffentlicht wurden. Seit PCs breitenwirksam wurden, hat sich jeder daran gewöhnt, dass Informationstechnologie bedeutet, einen Bildschirm und eine Tastatur zu bedienen. Durch Siri hat sich das weiterentwickelt: Man kann zusätzlich sprechen und hören. Beim Smart-Speaker gibt es gar keinen Bildschirm und Tastatur mehr. Dass man sich traut, relativ komplexe Interaktionen mit allen möglichen Dienstleistungen nur sprachbasiert und ohne Bildschirm durchzuführen - das ist ein großer Sprung.
Das ist der Ist-Zustand. Welche Entwicklungen stehen in diesem Bereich noch bevor?
Kubin: Eine wichtige Entwicklung wird sein, digitale Sprachkommunikation in noch mehr Umgebungen zu bringen und noch unauffälliger zu machen. Im Idealfall bei sich zu Hause, im Auto oder im Büro. In Japan gibt es zum Beispiel schon Beleuchtungskörper, in denen bereits der Beamer fürs Fernsehen und Smart-Speaker integriert sind. Es verschwindet immer mehr in Alltagsgegenständen und man braucht das Handy nicht mehr aus der Tasche zu holen - wie man das aus Raumschiff Enterprise kennt. Künftig könnte es heißen: Ich wohne in einem Haus und das Haus ist mein Endgerät. Es gibt bereits Kühlschrankhersteller die derartige digitale Assistenten integriert haben. Ob das sinnvoll ist, möchte ich gar nicht bewerten. Aber, dass der Trend in diese Richtung geht, ist klar.
Was sind die größten Hürden in der Entwicklung der digitalen Sprachkommunikation?
Kubin: Digitale Sprachkommunikation wird immer schwieriger, je größer und lauter der Raum ist. Das sind alles Probleme an denen derzeit gearbeitet wird.
Der zweite große Trend ist, dass man vom Konzept ‘One size fits all’ Abstand nimmt: Dass man zum Beispiel nur ein System für Deutsch hat. Dieses funktioniert in Österreich bereits schlechter als in Deutschland, in der Steiermark noch schlechter und in Stinatz womöglich gar nicht mehr. Aber es geht nicht nur um das Anpassen an regionale Dialekte, sondern auch um das Anpassen an Stimmen junger und alter Personen. Das Fernziel ist ein vollkommen personalisierter Dienst, bei dem sich das Gerät auf den einzelnen User eingestellt ist.
Die großen Firmen arbeiten an solchen Herausforderungen natürlich mit Hilfe von Machine-learning und Big Data. Aber irgendwann erreicht man einen Punkt, wo man bei einem User anlangt, der vielleicht nur einer von zwei Millionen Sprechern ist. Große Firmen überlegen sich dann vielleicht, ob sie für so eine Sprache überhaupt noch investieren. Das ist die große Herausforderung: Es individueller zu gestalten und auch wirklich so anzupassen wie den Leuten der Schnabel gewachsen ist.
Besteht da nicht das Risiko, dass wenn diese Entwicklung von großen, kommerziellen Unternehmen getrieben ist, dass viele Dienste in Sprachen mit kleinen Sprachgruppen einfach nicht mehr angeboten werden, weil es kommerziell keinen Sinn macht?
Kubin: Das Risiko besteht. Das hat man bereits bei der geschriebenen Sprache gesehen. Als neue Software veröffentlicht wurde und diese für kleinere Sprachgruppen nicht mehr aufbereitet wurde. Umgekehrt wollen große Unternehmen aber in jedem Land punkten.
Wie steht Forschung aus Österreich in diesem Bereich international da?
Kubin: So eine Tagung ist in etwa wie die olympischen Spiele im Wintersport. So gut wie Marcel Hirscher sind wir zwar nicht unterwegs, aber wir sind mit unseren Beiträgen schon in der Spitzengruppe. Das ist vorzeigbar, sonst würden wir auch diese Tagung nicht nach Graz bekommen. Für ein kleines Land wie Österreich ist das eine ganz besondere Auszeichnung.