Herr Norda, Sie entwickeln am Fraunhofer IDMT in Oldenburg im Projekt "Voice Controlled Production" eine intuitive Sprachsteuerung für Maschinen, die im Produktionsprozess die Arbeit vereinfachen sollen. Wie funktioniert das?
Marvin Norda: Unsere Spracherkennung mit all ihren Features kann in verschiedenen Umgebungen Sprache erkennen und daraus Informationen ableiten. Deshalb fokussieren wir uns auch nicht auf einen speziellen Bereich der industriellen Produktion, denn wo die Spracherkennung später eingesetzt wird, ist zweitranging.
Das System erstellt auf Basis von Phonemen eine Textdatei, die anschließend von jedem Steuerungssystem, völlig egal ob es ein Roboter, eine Drehmaschine, ein Produktionsautomat oder ein fahrerloses Transportsystem ist, eingelesen werden kann.
Welche Größe hat die Spracherkennung?
Norda: Prinzipiell richten wir uns nach den Bedarfen unserer Kunden. Zum einen besteht die Möglichkeit, abgesichert online auf unsere Spracherkennungstechnologie zuzugreifen. Der Kunde kann also die Technologie auf seinem Server verarbeiten, oder auf unseren Fraunhofer-Server zugreifen. Zum anderen kann die Sprachsteuerung oder Sprachdokumentation offline auf einem Minicomputer, zum Beispiel direkt an der Maschine prozessiert werden. Wir sind also sehr flexibel. Wir haben unsere Spracherkennung bewusst so angelegt, dass sie auch auf kleiner Hardware läuft. Es ist nicht nötig ein großes Bauteil anzuschließen. Es ist tatsächlich aber oft so, gerade im Produktionsbereich, dass die wenigsten ihre Maschinen über einen kleinen Computer steuern möchten. Auch wenn das gut und zuverlässig funktioniert. Denn beispielsweise ein Raspberry PI ist keine zertifizierte Steuerungseinheit für den Produktionsbereich.
Deswegen nutzen viele Firmen eine Speicherprogrammierbare Steuerung (SPS), die im Produktionsumfeld etabliert und bei Prüforganisationen bekannt ist. Es findet jedoch gerade ein Umdenken statt. Kleine Micro-PCs finden nach und nach Zugang in den industriellen Bereich und werden deshalb früher oder später auch für solche Anwendungen zertifiziert werden.
Viele Anwendende von Sprachsteuerungen, zum Beispiel bei Google oder Alexa, erleben immer wieder Situationen, in denen nicht das erkannt wurde, was gesprochen wurde. Manchmal liegt es an undeutlicher Aussprache, manchmal daran, dass ein Begriff nicht bekannt ist. Wie deutlich muss der Anwendende bei Ihrer Sprachsteuerung sprechen?
Norda: Wir haben einen Standard-Wortschatz, den wir nutzen und den wir mit Trainingsmaterial trainieren. Das ist ausreichend. Anders als noch vor ein paar Jahren, muss ich auch keinen Sprecher mehr anlernen. Es genügt, dass ich die Trainingsdaten habe, um verschiedene Sprecherinnen und Sprecher zu erkennen.
Auch wenn zum Beispiel ein Dialekt gesprochen wird?
Norda: Es ist eine Frage der gewünschten Genauigkeit. Natürlich kann man der Software auch Dialekte beibringen. Aber das ist in der Regel nicht nötig. Ein Beispiel: Jemand der in Bayern aufgewachsen ist, versteht eine Person aus Bayern besser als er einen Ostfriesen versteht. Und ein Ostfriese wird einen Ostfriesen besser verstehen als einen Bayern. Das heißt aber nicht, dass ein Bayer und ein Ostfriese sich nicht auch verstehen könnten. Ähnlich ist dies bei der Spracherkennung. Wenn ich mehr Trainingsmaterial in dieser Richtung zur Verfügung stelle, funktioniert es besser. Dass man was Falsches versteht, kann einem Ostfriesen in Bayern auch passieren. Man versteht etwas falsch oder nicht richtig, weil man nicht darauf trainiert wurde.