Zum Hauptinhalt springen
Blogbeitrag

Gefühle im Patent: Emotionserkennung beim Musikstreaming

Musikstreaming-Dienste, die automatisch Stimmungen erfassen und dazu passende Musik spielen – was für den einen wie eine Traumvorstellung wirkt und andere als Dystopie des gläsernen Menschen bezeichnen würden, könnte bald Wirklichkeit werden.

Ein entsprechendes Patent hatte der Streamingdienst Spotify im Jahr 2018 eingereicht (patents.google.com) und im Januar 2021 genehmigt bekommen. Anhand eines entsprechenden Mechanismus soll der Streamingdienst unter anderem Musikinhalte anhand von Spracheingaben empfehlen.

Die Besonderheit hierbei ist, dass anhand der Spracheingabe sowie der erkennbaren Hintergrundgeräusche Erkenntnisse über die Gefühlslage, das Geschlecht oder auch das Alter der Nutzerinnen und Nutzer gewonnen werden, die in eine Empfehlung münden können. Darüber hinaus sollen anhand der gesammelten Daten auch Informationen über die aktuelle soziale Umgebung wie zum Beispiel eine Party, öffentlicher Verkehr oder das Alleinsein bestimmt werden. Zur Auseinandersetzung mit Emotionen in Spracheingaben bekam Spotify bereits im Januar 2020 ein Patent genehmigt (patents.justia.com), worüber Forbes in einem Artikel berichtete (forbes.com).

Prinzipiell ist automatisierte Emotionserkennung nichts Neues. Bereits seit geraumer Zeit beschäftigen sich Forschende aus verschiedenen Richtungen mit dem Thema. Mögliche Anwendungsgebiete sind dabei die authentischere Interaktion zwischen KI und Mensch, aber auch die Unterstützung von Kindern mit einer Autismus-Spektrum-Störung, Fahrunterstützung zur Erhöhung der Sicherheit im Verkehr sowie verbesserte Emotionsforschung. Auch soziale Medien haben ein großes Interesse daran, die Emotionen ihrer Nutzerinnen und Nutzer zu (er-)kennen, um somit personalisierte Werbeprofile zu erstellen und auch weitere Marketing-Maßnahmen zu perfektionieren. So hat Snapchat bereits 2015 ein Patent eingereicht, das mit Hilfe algorithmischer Emotionserkennung von Geotagging-Selfies die allgemeine Stimmungslage von Menschenmengen auf z.B. größeren Veranstaltungen analysieren soll (scientificamerican.com).

Bei der Emotionserkennung ist zunächst zu unterscheiden, welche Form von Daten zugrunde liegt und welche Methoden zur automatisierten Erkennung dienen. Die gängigsten Formen umfassen dabei Text, Audio, Bild und Video (link.springer.com). Die verschiedenen Methoden zur Erkennung von Emotionen lassen sich grob in zwei Cluster einteilen: Statistische und wissensbasierte Techniken (sentic.net). Wissensbasierte Ansätze analysieren in der Regel semantische und syntaktische Charakteristika von Sprache, um verschiedene Typen von Emotionen zu erkennen. Statistische Methoden hingegen beruhen darauf, mit Hilfe von maschinellem Lernen Muster in Trainingsdaten zu erkennen, die sich anschließend auf reale Szenarien übertragen lassen. Dieser Ansatz funktioniert allerdings nur dann verlässlich, wenn ein ausreichend großes Set an validen Trainingsdaten zur Verfügung steht.

Wichtig ist es, die ethischen Fragestellungen im Zusammenhang mit algorithmischer Emotionserkennung nicht zu vernachlässigen.

Teile der Musikgemeinschaft sehen das verstärkte Patentieren von Emotionserkennungs-Technologien durch Spotify höchst problematisch, da eine Manipulation der Nutzerinnen und Nutzer durch die gesammelten Emotionsdaten befürchtet wird (accessnow.org). Hierzu haben im Mai diesen Jahres 180 Musikerinnen und Musikerinnen sowie Menschenrechtsaktivistinnen und -aktivisten einen offenen Brief an Spotify versendet, in dem sie die Plattform auffordern, sich öffentlich zu verpflichten, ihre patentierte Technologie weder zu nutzen, noch zu verkaufen (accessnow.org).

Es ist fraglich, inwieweit die angestrebte Emotionserkennung überhaupt zuverlässig funktionieren kann. Die gilt insbesondere vor dem Hintergrund, dass lediglich Audiodaten ohne die Hinzunahme von Text und Bild ausgewertet werden. Ebenfalls nicht auszuschließen ist eine Diskriminierung aufgrund unvollständiger Trainingsdaten, wie es zum Beispiel in der Vergangenheit bei der Gesichtserkennung der Fall war (netzpolitik.org).

Unabhängig davon fallen Emotionen in den hochprivaten Bereich der Nutzerinnen und Nutzer. Aus Speicherung und Aggregation entstandene Emotionsprofile lassen sich unter Umständen für Missbrauch und Manipulation nutzen. So ist es denkbar, dass im Kontext einer bestehenden Emotion geschickt platzierte Werbung zu einer höheren Kaufrate führt als dies ohne Emotionserkennung der Fall wäre. Das bewusste Vor-Augen-Führen einer Emotion kann jedoch auch Nutzerinnen und Nutzern die Möglichkeit geben, die eigenen Emotionen zu reflektieren und auf Dauer bewusst(er) steuern zu lernen. Neben den offensichtlichen Vorzügen während der Nutzung der Software gibt es also auch darüber hinaus positive Anwendungsszenarien. Wie immer ist dabei entscheidend, in welchem Umfang Nutzerinnen und Nutzer die eigene Entscheidungshoheit über die Erfassung, Speicherung und Auswertung der Daten haben, und zu welchen Zwecken ein Einsatz vorgesehen ist oder zumindest billigend in Kauf genommen wird.

Da sowohl gesellschaftlich als auch politisch insbesondere im Rahmen der Verwendung neuer Technologien immer wieder Diskussionsbedarf entsteht, freuen wir uns, gemeinsam einen Diskurs zu genau solchen Fragen zu gestalten. Verlinken (und folgen) Sie uns gerne auf Twitter unter @society_read.

Diesen Beitrag haben Johannes Korz, Lasse Cezanne, Abdulkadir Noyan und Elrike van den Heuvel aus der SocIeTy (ehem. Redaktion Sozioinformatik) beigesteuert.