[OPR] Habscheid & Hector & Hrncal & Waldecker: Intelligente Persönliche Assistenten mit Voice User Interfaces als ,Beteiligte‘ in häuslicher Alltagsinteraktion

Auf dieser Seite können Sie das Diskussionspapier zu der Einreichung für das Journal für Medienlinguistik im PDF-Format herunterladen. Das Blogstract fasst die Einreichung allgemein verständlich zusammen. Sie können das Diskussionspapier und das Blogstract unter diesem Beitrag kommentieren. Bitte benutzen Sie hierfür Ihren Klarnamen. Bei Detailanmerkungen zum Diskussionspapier beziehen Sie sich bitte auf die Zeilennummerierung des PDFs.


Zum Diskussionspapier (PDF)

Blogstract zu

Intelligente Persönliche Assistenten (IPA) mit Voice User Interfaces (VUI) als ,Beteiligte‘ in häuslicher Alltagsinteraktion. Welchen Aufschluss geben die Protokolldaten der Assistenzsysteme?

von Stephan Habscheid, Tim Moritz Hector, Christine Hrncal und David Waldecker

Stationäre Sprachassistenzsysteme, die als „Intelligente Persönliche Assistenten“ (IPA) fungieren sollen, sind in einer zunehmenden Zahl von Haushalten im Einsatz. Sie werden durch die Nutzer_innen mündlich über sog. „Voice User Interfaces“ bedient und sollen verschiedene Funktionen erfüllen: Dazu zählen – dem Zukunftsversprechen der Anbieter nach – u.a. Aufgaben, wie sie traditionell von Hauspersonal, Sekretariaten, Konversationspartner_innen und Überbringer_innen von Nachrichten übernommen wurden. Zudem sollen sich die Dialoge mit den Systemen perspektivisch mehr und mehr der „natürlichen“ sprachlichen Interaktion unter menschlichen Haushaltsmitgliedern annähern.

Um solche Aufgaben und Leistungen auf mündlichen Zuruf erbringen zu können, müssen IPA die Räume, in denen sie eingesetzt werden sollen, dauerhaft nach zu hörenden Geräuschen und Gesprächsbeiträgen „absuchen“. Wenn das Aktivierungswort (z.B. „Alexa“ oder „Siri“) fällt, verarbeitet der IPA die nachfolgenden Signale. Das dauerhafte „Scannen“ der Wohnung ist insofern einerseits erwünscht, um den Komfort einer Reaktion des IPA auf Zuruf nutzen zu können. Es ist andererseits aber auch umstritten, denn zur Erbringung von Leistungen werden die Daten durch die Hersteller verarbeitet und in die Logik ihrer Systemarchitekturen eingebettet. Dabei ist für die Endnutzer_innen nicht klar erkennbar, wie und zu welchen Zwecken die Daten verarbeitet werden und wie sich dadurch ihr Alltag unmerklich verändert. Welche Daten von den IPA aufgezeichnet werden und wie der IPA „reagiert“ hat, ist allerdings in einer zugehörigen Smartphone-App hinterlegt. Die Nutzer_innen können die Daten dort noch einmal anhören, Feedback an den Hersteller senden und die Daten auch, jedenfalls aus der Oberfläche der App, löschen.

In unserem Beitrag gehen wir der Frage nach, welchen Aufschluss diese „Protokolldaten“ über die Rolle von IPA im kommunikativen Alltag geben können: Wie sind die Mensch-Technik-Dialoge heute gestaltet? Wie sind sie mit laufenden Gesprächen unter den Nutzenden einerseits, mit der Plattform der Anbieter (z.B. Amazon) und der für IPA aufgebauten technischen Infrastruktur andererseits verwoben? Welchen Aufschluss geben die Aufzeichnungen darüber, wie im Dialog mit Sprachassistenten neue alltägliche Situationen entstehen?

Anhand der bisher durchgeführten Untersuchungen auf Basis von realen Protokolldaten, die uns Nutzer_innen von „Amazon Echo Dot“ mit Hilfe von Bildschirmvideos zur Verfügung gestellt haben, können wir zeigen, wie die Protokolldaten u.a. als Möglichkeit präsentiert werden, als Nutzer_in Einfluss auf die von Amazon gespeicherten Daten zu nehmen. Dabei ist in der App die Löschung der Daten, nicht aber ihr Export möglich. Die Daten können hier also lediglich der Kontrolle durch Amazon entzogen werden, sollen jedoch entsprechend dem Interface-Design nicht ohne weitere Umstände für andere Zwecke verwendet werden.

In medienlinguistischer Perspektive geben die Protokolldaten einen Einblick in die sprachlichen Nutzungsstrategien, den Umgang mit Störungen und die versuchte Bedienung der Geräte durch mehrere Personen gleichzeitig. Auch wenn hier bereits erste Schlussfolgerungen gezogen werden können, zeigt sich, dass für ein umfängliches Bild der Alltagspraxis auch einbezogen werden muss, was der IPA (vor und nach den an ihn gerichteten Kommandos) nicht aufgezeichnet hat. Ebenso sind längere Einheiten nur über die Protokolldaten nicht greifbar. Verschiedene Nutzungssituationen im Alltag können hingegen erfasst und klassifiziert werden. Auch zeigt sich, wie die Nutzer_innen das Gerät testen und „herausfordern“, um den Funktionsumfang und dessen Grenzen kennenzulernen.

2 Replies to “[OPR] Habscheid & Hector & Hrncal & Waldecker: Intelligente Persönliche Assistenten mit Voice User Interfaces als ,Beteiligte‘ in häuslicher Alltagsinteraktion”

  1. Katharina CyraApril 21, 2021 at 09:26Reply

     
    Vorbemerkung
    Das folgende Review – insbesondere die paraphrasierende Übersicht des Textes – sind sehr detailliert und lang geworden. Dies ist zum einen meinem großen Interesse am Thema geschuldet, zum anderen aber auch dem Versuch, die Argumentation des Beitrags genau nachzuzeichnen und daran meine Beurteilung anzuschließen.
     
    Zusammenfassung des Beitrags
    Die Autor*innen des Diskussionspapiers zielen darauf ab, zu untersuchen, welche Erkenntnisse aus der Analyse sogenannter Protokolldaten kommerzieller Sprachassistenten zu den folgenden Fragestellungen abgeleitet werden können:
    1) Welche Einsichten liefern die Protokolldaten darüber, wie die Sprachdialogsysteme durch ihre Verbindung zu Plattformen und Infrastrukturen arbeiten?
    2) Welche Erkenntnisse liefern die Protokolldaten darüber, a) wie Dialogsysteme aktuell gestaltet sind und b) wie Nutzer*innen diese Dialogsysteme in ihre Alltagsinteraktionen in unterschiedlichen Teilnehmerkonstellationen einbinden?
    3) Welche Informationen liefern die Protokolldaten über a) die alltagspraktischen und diskursiven Kontexte, in denen die Intelligenten Persönlichen Assistenten (IPAs) vom System, d.h. von den Anbietenden und Entwickler*innen der Dialogsysteme, und in der sozialen Interaktion durch die Nutzer*innen platziert werden, und b) wie insbesondere Datenschutzfragen auf beiden Ebenen verhandelt werden?

    Als Protokolldaten werden Logdaten definiert, die in den zugehörigen Anwendungen (Apps) zur Einrichtung und Steuerung von Sprachassistenten den Nutzer*innen zugänglich sind (es ist anzunehmen, dass es sich hierbei lediglich um einen Teil der Logdaten des Systems handelt). Diese Daten stellen die Grundlage des Datenkorpus dar, mit dessen Hilfe die o.g. Fragestellungen bearbeitet werden sollen. Protokolldaten wurden den Forscher*innen durch Datenspenden zugänglich gemacht.
    In Kapitel 1 führen die Autor*innen den Phänomenbereich bzw. Gegenstand und einige grundlegende Begriffe ein, stellen den Projektkontext, die Datenerhebung und das Datenkorpus vor, und umreißen ausgehend von einer konzeptuellen Verortung der Forschung die Forschungsfragen des Artikels. Am Beispiel von Amazon Alexa werden also zunächst Sprachassistenten (u.a. die von den Herstellern intendierte Nutzung, die Funktionsweise, notwendige Hard- bzw. Software und ein Kurzüberblick der Bedienung) und eine Problemstellung (Datenschutzfragen) vorgestellt, die aus der Nutzung dieser Technologie resultiert. Daran anschließend wird eine Möglichkeit, Sprachassistenzsysteme zu untersuchen, skizziert: die Analyse so genannter Protokolldaten, die den Nutzer*innen dieser Systeme zur Verfügung gestellt werden. Die Autor*innen beschreiben die Verortung der Protokolldaten (also die Menüführung in der App), Bearbeitungsmöglichkeiten durch Nutzer*innen und eine erste Unterscheidung typischer ‚Interaktionen‘ bzw. „IPA-Dialoge“ (Z.95), zu denen die Selbstaktivierung des Systems gehört. Ausgehend von dieser ersten Typisierung wird der Projektkontext bzw. das Teilprojektziel vorgestellt, wie auch das Datenkorpus, die Datenerhebung und -aufbereitung. Mit der Einführung des Begriffs der Daten bzw. Datenpraktiken wird die Relevanz der Protokolldaten über ihre Verwendung durch individuelle Nutzer*innen hinaus deutlich gemacht: Protokolldaten verweisen auf komplexere Infrastrukturen, in die sie eingebettet sind. Weiter werden Sprachassistenten als technische Artefakte kurz im Kontext der Akteur-Netzwerk-Theorie Latours als Aktanten und aus einer praxistheoretischen Perspektive als Beteiligte in Interaktion (Hirschauer 2004) diskutiert. Schließlich werden die Forschungsfragen bzw. die zu untersuchenden Teilaspekte vorgestellt.
    In Kapitel 2 diskutieren die Autor*innen den (medien-)linguistischen Medienbegriff und führen eine praxeologische Perspektive als Erweiterung bestehender Definitionen, die sich auch auf Daten bzw. Datenpraktiken anwenden lässt, und als konzeptuelle Verortung des Beitrags ein. Zunächst werden Medien im engeren Sinne (u.a. technische Artefakte) und im weiteren Sinne (u.a. Techniken und Verfahren) eingeführt und deren Potenzial zur Beschreibung kommunikativer Praktiken in der Interaktion mit Sprachassistenzsystemen angerissen. Diese Ansätze werden durch eine praxeologische Perspektive herausgefordert, die Medien „als kooperativ erarbeitete Kooperationsbedingungen“ (Z.228-229, Schüttpelz 2016) versteht und damit Praxis ins Zentrum der Theoriebildung stellt. Die Autor*innen erläutern die eingangs vorgestellten Positionen (Brock & Schildhauer 2017 einerseits und Goodwin 2018 sowie Schüttpelz & Meyer 2017, 2018 andererseits) im Kontext kontingenter Interaktionssituationen und der Möglichkeit der Teilnehmenden, neue Handlungen und Praktiken unter Einbezug unterschiedlicher (materialer) Ressourcen ko-operativ hervorzubringen. Weiter werden grundlegende Prinzipien und Begriffe der Praxistheorie vorgestellt und diskutiert (u.a. wechselseitige Verfertigung und wechselseitige Improvisation nach Schüttpelz & Meyer 2017; Relevanz von Materialität; die Unterscheidung von Wechselseitigkeit und Gemeinsamkeit) sowie deren ethnomethodologische Fundierung erläutert.
    Kapitel 3 ist zweigeteilt: zuerst werden Daten aus einer praxeologischen Perspektive behandelt (Kap. 3.1) und dann unter Rückgriff auf Beiträge aus den Science and Technology Studies sowie den Platform Studies die erste Forschungsfrage bearbeitet, in der Protokolldaten als mit Infrastrukturen und Plattformen verflochten dargestellt werden (Kap. 3.2). Der praxeologischen Verortung in Kapitel 2 folgend, werden Daten im Kapitel 3.1. mit Bezug auf Laborstudien und die Erzeugung wissenschaftlicher Fakten als hergestellt, als wechselseitig verfertigt beschrieben. Dies beziehen die Autor*innen sowohl auf die Herstellung wie auch auf die Aufbereitung und Darstellung der Protokolldaten der Dialogsysteme in den zugehörigen Apps.
    Kapitel 3.2 zielt darauf ab, Datenpraktiken im Kontext von Infrastrukturen und Plattformen zu beschreiben. Zunächst erläutern die Autor*innen die Zugänglichkeit und beschränkte (Weiter-)Nutzung der Protokolldaten für individuelle Nutzer*innen und Forscher*innen außerhalb der App. Die Verflechtung der Sprachassistenten bzw. Dialogsysteme mit anderen Diensten innerhalb einer Gesamtinfrastruktur wird anhand eines Screenshots der Protokolldaten aus dem Datenkorpus exemplarisch illustriert. Die Autor*innen führen dann die Begriffe Infrastruktur und Plattform ein, diskutieren diese im Kontext von Sprachassistenten und Smart Home-Geräten und zeigen auf, dass IPAs Teil großtechnischer Systeme bzw. Netzwerke sein können: Denn die Inbetriebnahme und grundlegende Nutzung der smart speaker (Hardware der Sprachassistenten) an sich ist bereits voraussetzungsreich (Strom, Telefon- bzw. Internetverbindung, Smartphone) und wird durch mögliche weitere Geräte (z.B. smarte Glühbirnen) und Erweiterung der Basisanwendungen (Skills) noch mal potenziert. Diese infrastrukturellen Erfordernisse und möglichen Erweiterungen der Sprachassistenten verweisen auf ein komplexes Netzwerk bzw. eine komplexe Infrastruktur verschiedener Dienste und Dienstleister. Die Autor*innen vertiefen anschließend den Begriff der Plattform, diskutieren Mechanismen bzw. Logiken der Plattform-Ökonomie, deren Akteure und Märkte. Auch für den Markt der IPAs werden diese Plattformlogiken nachgezeichnet. Schließlich geht es um den reziproken Zusammenhang von Infrastrukturen und Plattformen und die Flexibilität von Infrastrukturen (Star & Bowker 2006 folgend), die sich aus der steten „Pflege und Reparatur, Integration und Adaption“ (Z.567 f.) ergibt. Diese Arbeit an Infrastrukturen wird u.a. durch individuelle Nutzer*innen vollbracht, was wiederum auf das in Kap. 2 eingeführte Konzept von Medien bzw. „kooperativ erarbeitete[n] Kooperationsbedingungen“ (Z.581 f.) verweist. Die kooperative Arbeit an Infrastrukturen umfasst schließlich die vernetzten Plattformen und Akteure der Infrastrukturen, wie auch auf einer mikrosoziologischen Ebene technische Artefakte, Nutzer*innen und Interaktionen.
    Kapitel 4 präsentiert insgesamt fünf Datenbeispiele aus dem Datenkorpus der IPA-Dialoge: drei nutzerseitig initiierte und zwei systemseitig initiierte Dialoge, welche ‚gelingende Dialoge, Reparaturen, Tests bzw. Frotzelaktivitäten der Nutzer*innen wie auch systemseitige Vorschläge umfassen. Die Datenbeispiele illustrieren Aspekte des zugrundeliegenden Dialogdesigns, die Integration der Sprachassistenten in Interaktionen von Mehrpersonenkonstellationen wie auch die gemeinsame Problembehandlung bzw. gemeinsame Reparaturen. Das Kapitel ist zweigeteilt: Kapitel 4.1 behandelt einige Merkmale des Dialogdesigns der IPA-Dialoge und ihre Einbettung in Interaktionen (Forschungsfrage 2), Kapitel 4.2 zielt darauf ab, die Nutzungskontexte im Alltag anhand von Protokolldaten nachzuzeichnen und damit die dritte Forschungsfrage zu bearbeiten.
    In Kapitel 4.1 führen die Autor*innen zu Beginn das Konzept von hybridem Austausch (Krummheuer 2010) ein, mit dem sich sprachliche Interaktion mit technischen Artefakten wie Sprachassistenten fassen lässt, und betonen die Unterschiede zu sozialer Interaktion nach Goffman. Das erste Beispiel einer Wissensabfrage zeigt den von Krummheuer beschriebenen hybriden Austausch, der durch die Beschränkung auf zwei Redezüge (Sprachbefehl des Nutzers und Antwort des Systems) und den damit fehlenden Aushandlungsprozess (next-turn proof procedure) charakterisiert wird. Diese Form des Austauschs stellt das Gros der IPA-Dialoge in dem Datenkorpus dar. Das zweite Beispiel zeigt einen IPA-Dialog, an dem zwei Teilnehmer*innen beteiligt sind: Die Teilnehmer*innen W1 und W2 aktivieren den Sprachassistenten und einen skill aus dem Bereich Unterhaltung; nach einer Reparatur führt das System den gewünschten Befehl aus und formuliert dann einen Vorschlag zur Exploration eines weiteren skills, den die beiden Teilnehmer*innen ablehnen (s. hierzu auch Beispiel 4). Dabei werden zwei Reparaturverfahren (selbst- und fremdinitiierte Reparatur mit Verweis auf unterschiedliche Interpretation der trouble source) deutlich, die sich in Mehrparteienkonstellationen finden lassen. Der Vorschlag des Dialogsystems als Expansion eines Beitrags zeigt kontrastiv zum ersten Beispiel, wie eine Fortsetzung des hybriden Austauschs mit dem Sprachassistenten in Richtung einer multi-turn Interaktion gestaltet werden könnte. Die mehrzügige (z.T. frotzelnde) Ablehnung der Teilnehmer*innen wird einmal in ihrer sprachlichen Form und in ihrer provokativen, nur für die menschlichen Beteiligten – als Spott – verständlichen Form beschrieben. Ausgehend von dem forschungspraktischen Problem, dass Sprachassistenten mit den eingebauten Sensoren / Mikrofonen ‚nur‘ die sprachlichen Beiträge der Teilnehmer*innen aufzeichnen und (als Teil der) Protokolldaten Nutzer*innen und Forscher*innen zugänglich machen, diskutieren die Autor*innen kurz Grenzen und Möglichkeiten der Analyse von Protokolldaten für u.a. multimodale Interaktionsanalysen und kommen zu dem Schluss, dass diese Daten für eine grundlegende Beschreibung von IPA-Dialogen geeignet seien.
    In Kapitel 4.2 zeigen die Autor*innen mit Verweis auf eigene Beispiele und eine Studie (Ammari et al. 2019) einige typische Nutzungspraktiken auf, die im Umgang mit Sprachassistenten zu finden sind: Wissensabfragen (wie in Beispiel 1), Exploration von skills (s. Beispiel 2), eine Reihe an Gebrauchsroutinen mit und ohne vernetzte smarte devices (bspw. Abruf von Musik oder Wetterabfragen, Steuerung von TV-Geräten) usw. Wie auch zuvor beschrieben, finden sich systemseitig initiierte IPA-Dialoge seltener, werden hier aber anhand von Beispiel (3) und Beispiel (4) angeführt, u.a., um auf spielerische Nutzungskontexte hinzuführen, wie in Beispiel (5) – hier in einer das System testenden Form – genannt. Abschließend wird auf Möglichkeiten hingewiesen, nutzerseitig datenschutzrelevante Einstellungen vorzunehmen: Mikrofon ausschalten und, wie zuvor schon beschrieben, über die App einzelne oder alle Aufzeichnungen in den Protokolldaten zu löschen.
    In Kapitel 5, Fazit und Ausblick, geben die Autor*innen einen Überblick über einige der zuvor behandelten Themen und Erkenntnisse: Die Verortung der Protokolldaten in der App und die eingeschränkten Bearbeitungsmöglichkeiten (Löschen möglich, Export nicht möglich); die Einordnung der Protokolldaten als natürliche Daten in dem Sinne, dass sie ohne ‚Intervention der Forschenden‘ (Z.891) erhoben wurden; die Einschätzung, dass „die Infrastruktur“ (Z.897) durch die Protokolldaten detaillierte Einblicke in die Nutzung erlangen kann, die auch Missverständnisse und ein Scheitern der IPA-Dialoge enthalten können; die Einschätzung, dass (erwartungsgemäß) anhand der Protokolldaten die Verflechtung mit Plattformen und Infrastrukturen von Sprachassistenten und ihr Operieren innerhalb dieser nachgezeichnet werden kann wie auch, dass die Protokolldaten Aufschluss über die Gestaltung der Dialogsysteme und die intendierte Nutzung geben können. Ebenso werden Limitationen der Sprachaufzeichnungen durch das System (als Teil der Protokolldaten) für eine rekonstruktive Analyse aufgezeigt. Zuletzt weisen die Autor*innen darauf hin, dass die Protokolldaten aus Nutzer*innensicht keine hohe Relevanz haben und die Möglichkeit des Löschens bzw. Kontrollierens der eigenen Daten selten realisiert wird (Malkin et al. 2019).
     
    Relevanz des Beitrags
    Der Artikel behandelt ein aktuelles Thema (kommerzielle Sprachassistenten bzw. Intelligente Persönliche Assistenten), das aus linguistischer bzw. praxeologischer Sicht bislang kaum erforscht ist. Der spezifische Fokus auf Protokolldaten, also Logdaten des Systems, die von den Anbietern der Sprachassistenten gesammelt und den Nutzer*innen in aufbereiteter Form bereitgestellt werden, bietet einen interessanten Einblick in die automatisierte Erfassung detaillierter Informationen zur Nutzung neuer Technologien, die auf sprachlicher Interaktion basiert. Die übergreifende Frage danach, wie diese Daten genutzt werden können, d.h. für die (linguistische) Forschung fruchtbar genutzt werden können (ein methodischer Aspekt, der sicherlich auch in anderen Kontexten, die auf automatisiert erfassten Daten (Big Data) basieren), wie auch danach, welche Einsichten und Erkenntnisse sich überhaupt durch deren Analyse ergeben können, erscheint mir produktiv. Insbesondere eine systematische Betrachtung der verschiedenen Akteur*innen, die auf die Protokolldaten einzelner Nutzer*innen Zugriff haben können, und die empirische Untersuchung der Datenpraktiken haben das Potenzial, über allgemeine Vorstellungen und öffentliche Diskurse (v.a. bezüglich Datenschutzfragen) hinauszugehen. Eine solche systematische und empirische Aufarbeitung der unterschiedlichen Datenpraktiken wäre für weitere Forschungen und ggf. auch für praktische Kontexte anschlussfähig. Dieses Potenzial einer mehrdimensionalen Beschäftigung mit Protokolldaten, das im Rahmen der Forschungsfragen aufgespannt wird, kann der Beitrag leider nicht einlösen.
     
    Zentrale Überarbeitungshinweise
    Grundlegend sollte der Aufbau und die Struktur des Beitrags überarbeitet werden, wie auch die Fragestellungen weniger breit gefasst sein, um die Kernanliegen des Beitrags in der Tiefe bearbeiten zu können. Folgende Punkte könnten eine Überarbeitung leiten und den Beitrag vor allem auf die Kernfrage der Aussagekraft von Protokolldaten und Datenpraktiken noch stärker fokussieren.
     
    A. Begründung, Argumentation und Ableitung der Fragestellungen
    Die Ausführungen zum theoretischen bzw. konzeptuellen Hintergrund sind leider nicht durchgehend verständlich, nicht immer sinnvoll miteinander verknüpft und übersichtlich verfasst: es finden sich neben der Einleitung (Kap. 1) in den Kapiteln 2 bis 4 theoretische Beiträge, die zentrale Begrifflichkeiten bzw. Theorielinien einführen (bspw. Akteur-Netzwerk-Theorie & Aktanten (Z.158-161), Praxistheorie & ‚Beteiligte‘ (Z.161-167), Daten, Datenpraktiken, Infrastruktur, Plattform, hybrider Austausch) – die allerdings in der Einleitung fehlen.
    Eine systematische Aufarbeitung des Forschungsstands zu Assistenzsystemen bzw. den synonym verwendeten Intelligenten Persönlichen Assistenten (IPAs) oder Voice User Interfaces (VUIs) und ggf. verwandten Phänomenen (z.B. (Embodied) Conversational Agents oder anderen Dialogsystemen) fehlt. Auch wenn es aktuell noch wenige Studien mit explizit linguistischem, gesprächsanalytischem oder praxistheoretischem Hintergrund zu Sprachassistenten gibt, und dies klar eine Forschungslücke darstellt, finden sich zahlreiche Studien (auch aus anderen Disziplinen), die vor allem mit Protokolldaten der Sprachassistenten arbeiten und quantitative Auswertungen zu u.a. Nutzungspraktiken beschreiben. Zugleich gibt es bspw. mit Crawford & Joler (2018) einen Beitrag, der die Verflechtung der unterschiedlichen Akteur*innen in Netzwerken und Infrastrukturen auf unterschiedlichen Ebenen nachzeichnet und dem vorliegenden Artikel eine gute Rahmung geben könnte. Ebenso wäre im Kontext der gewählten Fragestellungen eine kurze Aufarbeitung von Studien zu automatisiert erstellten und erhobenen Logdaten und Datenpraktiken wünschenswert, um den spezifischen Beitrag und die Einordnung der Studie besser nachzuvollziehen (bspw. zur Analyse von Logdaten: Candello & Pinhanez (2018) oder zu Datenpraktiken im Kontext von Self-Tracking: Wiedemann (2019)). Die genannten Quellen sind größtenteils gut ausgewählt und, soweit ich das beurteilen kann, qualitativ hochwertig. Einzig die im Beitrag mehrfach zitierte – und demnach als zentral für die Argumentation einzuordnende – Studie von Strüver (2020) erscheint mir problematisch: Diese Studie ist eine unveröffentlichte Masterarbeit (bitte diesen Hinweis im Literaturverzeichnis ergänzen), die mir als Leserin nicht zugänglich ist und die ich weder auf ihre Qualität noch auf die referenzierten Argumente überprüfen kann. Zusätzlich sind die mehrfachen Verweise auf den SFB 1187, der den Projektrahmen darstellt, inhaltlich nachvollziehbar, aber im Kontext eines Journal-Artikels als Teil einer theoretischen Herleitung nicht wirklich relevant.
    Zum Schluss des ersten Kapitels wird in den Zeilen 168 bis 183 das Erkenntnisinteresse formuliert und es erfolgt die Ableitung von 3 bzw. insgesamt 5 Teilfragestellungen. Die Argumentation zur Begründung dieser Fragestellungen bzw. zur Art und Weise, wie die Fragestellungen im Folgenden bearbeitet werden, fällt meines Erachtens zu knapp aus bzw. fehlt vollständig. Hinweise zur Ausrichtung der Arbeit (bspw. theoretisch, explorativ, qualitativ) bzw. zur Methode (z.B. Konversationsanalyse) fehlen. Es wird leider nicht deutlich, woran die Studie anknüpft und welchen spezifischen Beitrag sie leisten kann.
    In einer Überarbeitung sollten die Fragestellungen noch einmal geprüft werden und der Zuschnitt des Artikels bestenfalls eingeengt bzw. fokussiert werden wie auch eine stringentere Argumentation erarbeitet werden. Momentan erscheinen die einzelnen Teile des Beitrags nicht durchgängig zusammengehörig bzw. es werden Aspekte vertieft, die sich in anschließenden Textteilen nicht immer wiederfinden oder erschließen.
    In Abgrenzung zu bisherigen Studien zu Sprachassistenten erscheinen mir die folgenden Aspekte für eine Überarbeitung des Beitrags relevant: Welchen Aufschluss geben die Protokolldaten für die unterschiedlichen Akteur*innen, denen die Protokolldaten zugänglich sind (systematische Aufführung dieser Akteur*innen und ihrer Zugangsmöglichkeiten)? Hier auch vorab die Frage, mit welchen unterschiedlichen Interessen und Herangehensweisen mögliche Akteur*innen auf die Daten zugreifen und daran anschließend: Wie lassen sich die Datenpraktiken dieser Akteur*innen empirisch beschreiben (wenn dies auf Basis von Protokolldaten überhaupt möglich ist) – hier wäre auch die Frage danach zentral, welche Datenpraktiken der Nutzer*innen sich beschreiben lassen (in den Z. 928-940 wird deutlich, dass es hier bereits Studien gibt bzw. die Autor*innen dies selbst auch kritisch reflektieren, dass Nutzer*innen sich mit Protokolldaten kaum auseinandersetzen). Methodisch gewendet und für die (medien-)linguistische bzw. gesprächsanalytisch arbeitende Community relevant ist daran anschließend die Frage danach, wie aus einer Forschungsperspektive mit diesen Daten gearbeitet werden kann (Datenerhebung, Datenaufbereitung, Übertragung der unterschiedlichen Informationen der Protokolldaten in ein GAT2-Transkript usw.). Zusätzlich sollten Argumente integriert werden, die die dann gewählte Vorgehensweise und Bearbeitung der präsentierten Fragestellungen begründen.
     
    B. Methodische Transparenz, Daten und Nachvollziehbarkeit des analytischen Vorgehens
    Im vorliegenden Diskussionspapier fehlt ein expliziter ‚Methodenteil‘, der wichtige Aspekte zur Methodendarstellung (quellengestützt) adressiert und auch die Inhalte zur Datengrundlage enthält (aktuell Teil der Einleitung). Diese Aspekte umfassen die Datenerfassung (‚natürliche‘ Daten (im Fazit als solche benannt) bzw. die Videoaufzeichnung der Protokolldaten durch die Datenspender*innen), die Auswertungsstrategie (Konversationsanalyse im vierten Kapitel; Vorgehen zur Analyse des Bildmaterials?), den Feldzugang und zumindest eine kurze Beschreibung der Nutzer*innen. Insgesamt lässt die konzeptuelle bzw. methodologische Verortung des Beitrags im Rahmen der Praxistheorie (Kapitel 2) einigen Spielraum hinsichtlich möglicher Methode(n), die nicht expliziert werden. Der Beitrag enthält neben der – überwiegend leider eher deskriptiven Bearbeitung der Transkripte in Kapitel 4 – auch die Bearbeitung der Protokolldaten im ‚unbearbeiteten Zustand‘, d.h. als Screenshot. Die Datenaufbereitung nach GAT2 wird zwar genannt, es erscheint mir aber sinnvoll, die vorliegenden Daten und ihre Überführung in ein Transkript nach GAT2-Konvention zu reflektieren und Vorschläge zu möglichen erweiterten Darstellungsweisen zu erarbeiten (die auch für daran anschließende Forschung fruchtbar wäre). Die in den Beispielen (1) bis (5) enthaltenen Transkripte enthalten zwar ein ‚Mehr‘ an Informationen gegenüber den Screenshots (1) und (2), weil die Spracheingaben transkribiert wurden; zugleich gehen in den vorliegenden Transkripten Informationen bspw. zur Zeitlichkeit (Uhrzeit), zu ‚Aktivitäten‘ des Systems (Verweis auf bspw. Apple Music in Screenshot 2) und zur Sprachaufnahme selbst verloren, die in den ‚Original-Daten‘ enthalten sind (z.B. Sind die Beiträge von W1 und W2 (Z.001 bis 002) im Beispiel (2) eine einzelne durchgehende Sprachaufnahme oder vom System als drei verschiedene Spracheingaben ‚interpretiert‘?). Es wäre zu überlegen, ob es forschungspraktisch interessant wäre, ebenso die vom System automatisch erstellten Transkripte der Nutzer*innenbeiträge im Transkript zu integrieren (ähnlich wie Krummheuer 2010, die Tastatureingaben mitannotiert) und die Beiträge des Systems nicht wie aktuell im Beitrag zu finden, durch ausführliche Kommentare abzusetzen, sondern mit einer geeigneten Annotation in das Transkript zu integrieren. Übergreifend fehlt die Information, dass das System in der Regel das wake word nicht aufzeichnet – dieses aber zugleich zentral für die Bedienung bzw. Aktivierung des Sprachassistenten ist (zugleich finden sich in den Screenshots (1) und (2) Aufzeichnungen, die das wake word beinhalten, was von den Autor*innen zumindest kommentiert werden könnte).
    Bezüglich der gewählten Daten und Datenausschnitte, d.h. der als IPA-Dialoge operationalisierten Ausschnitte aus den Protokolldaten wäre es sinnvoll, zu beschreiben, wie nach welchen Kriterien die Autor*innen die Protokolldaten als IPA-Dialoge sequenzieren (als Analyseeinheiten behandeln): Wann wird ein IPA-Dialog als beendet verstanden? Welche Beiträge werden als zusammengehörig annotiert? Ist jedes Adjazenzpaar bereits ein abgeschlossener IPA-Dialog? Daran anschließend lässt sich ggf. die Diskussion um das Dialogdesign, mögliche Reparatursequenzen und auch die Nutzer*innenpraktiken erweitern (konkret beziehe ich mich hier z.B. auf den Screenshot (1) und dort auf die zwei unteren Beiträge: 1. Beitrag: 12:31 AM, Alexa: „Übrigens, du hast eine neue Benachrichtigung. Soll ich deine Benachrichtigung vorlesen?“ – Nutzer*in (System-Transkript): „ja“, 2. Beitrag: 12:31 AM: Nutzer*in (System-Transkript): „spiele meine nachrichten ab“. Diese Protokolldaten weisen auf eine Reparatursequenz hin, die interessanterweise auf eine systemseitige Aktivierung und Vorschlagssequenz folgt. Anders als im Beispiel (2) wird hier deutlich, dass es auch einen nicht-frotzelnden Umgang mit Vorschlägen des Systems gibt und der Beitrag somit relevant und gewünscht sein kann, aber ‚nicht gelingt‘; zu Vorschlägen des Systems vgl. auch Opfermann et al. 2017).
     
    C. Ergebnisdarstellung und -diskussion
    Im empirischen Teil bzw. in den den Forschungsfragen zugeordneten Unterkapiteln (Kap. 3 und 4) finden sich, wie oben bereits beschrieben, theoretische Darstellungen zu relevanten Begriffen und Konzepten neben der Nennung empirischer Daten, die aber teilweise lediglich illustrierenden Charakter haben (z.B. in Kap. 3.2 der Screenshot (2) und dort eine Detailinformation zur Vernetzung mit Diensten von Drittanbietern, die als Ausgangspunkt einer umfangreichen, im überwiegenden Teil theoretisch fundierten Darstellung von Verflechtungen von Sprachassistenten, Protokolldaten, Plattformen und Infrastrukturen genutzt wird). Die Darstellung der Transkripte in Kapitel 4 bleibt größtenteils deskriptiv (Beispiel (1)) bzw. werden die Transkripte auch hier nur illustrierend zur Unterstützung von Beschreibungen eingesetzt (Beispiele (3) bis (5)). Beispiel (2) wird als einziges Transkript systematisch ‚durchanalysiert‘, so dass hier die Schlussfolgerungen plausibel und empirisch begründet erscheinen.
    Die in diesem Teil angeführten Kommentare meinerseits sollen nicht so verstanden werden, dass die dargestellten Ergebnisse nicht plausibel erscheinen – es ist aber so, dass die empirische Anlage, das umfangreiche zur Verfügung stehende Datenkorpus und die exemplarischen Beispiele zunächst eine empirische Fundierung der Bearbeitung der Fragestellungen erwartbar machen. Die gezeigten Beispiele eignen sich (so wie ich sie verstehe) auch gut, um die gemachten Punkte zu unterstützen – zugleich sind sie durch die Form der Transkripte (s. Hinweise unter B) auch nur eingeschränkt als Protokolldaten zu verstehen. Die Analyse und Bearbeitung der Fragestellungen, wie auch die zu erwarteten Ergebnisse würden von einer genaueren und systematischen Analyse der Daten profitieren. Grundsätzlich ist eine detaillierte Fallbearbeitung und Ergebnisdarstellung nach z.B. konversationsanalytischer Vorgehensweise aufgrund von Zeichenlimitierung hoch anspruchsvoll. Zugleich sehe ich gerade in der konzeptuellen Verortung (Kap. 2) und detaillierten theoretischen Darstellungen in Kap. 3 die Möglichkeit, hier stärker die empirische Arbeit an und mit den Protokolldaten hervorzuheben.
    Die Limitierung, die die automatisiert durch das System und die Sensoren der smart speaker erstellten Protokolldaten, im Kontext multimodaler Interaktionsanalysen mit sich bringen, liegt auf der Hand. Anders jedoch als Zugangsweisen, die sich bspw. ethnografisch oder videografisch dem Phänomen der Sprachassistenten im Alltag nähern, könnten in diesem Beitrag die Potenziale einer Analyse von Protokolldaten mit stärkerem Bezug auf die Datenpraktiken hervorgehoben werden.
     
    Weitere Bearbeitungshinweise

    Bildmaterial / Screenshots und Bildunterschriften: Ein beschreibender Untertitel, ggf. eine Legende mit Hinweisen zu relevanten Bereichen im Bildmaterial sollte eingefügt werden. Ebenso sollte jeweils auf relevante Bildausschnitte fokussiert werden – entweder in Form einer Beschreibung oder Zurechtschneiden des Bildmaterials (hier beziehe ich mich v.a. auf den Screenshot 2 und dort die für das Kapitel 3 relevante Zeile zu Apple Music, die im zugehörigen Text dann lediglich als Dienst von Dritten genannt wird, was der Leser*in das Auffinden der relevanten Stelle im Material erschwert).
    Beschreibung der App und Funktionalitäten (Kapitel 1): Dieser Teil sollte in einem Abschnitt außerhalb der Einleitung untergebracht werden, die die konkrete Anwendung beschreibt. Zugleich vermischen sich hier sehr detaillierte Beschreibungen und analytische Teile.
    Quellen / Referenzen: Bei Studien, die sich mit technischen Artefakten befassen, macht es stellenweise Sinn zu ergänzen, auf welchen Phänomenbereich bzw. Interaktionskontext sich diese beziehen, so dass die Leser*in den Beitrag entsprechend einordnen kann (konkret geht es zum einen um Krummheuer (2010), deren Analysen sich zwar auf ein Dialogsystem beziehen, dieses aber über eine andere Schnittstelle (Eingabe über Tastatur und nicht über Sprachsteuerung) verfügt, was sich ggf. auf die Interaktionsordnung auswirken kann; zum anderen geht es um Pitsch et al. (2017), die die Interaktion mit einem Museumsroboter untersuchen, der im Kontext einer spezifischen interaktionalen Aufgabe eingesetzt wurde: die Selbstaktivierung dieses Roboters im Museum und eine Fortsetzung der Interaktion erscheint mir interaktional etwas anderes zu sein als ein Sprachassistent, der die Aufzeichnung abbricht Z. 731-740).

     Abschließende Beurteilung
    Abgesehen von meinen oben ausgeführten Kritikpunkten, möchte ich die Autor*innen ausdrücklich dazu ermutigen, das Manuskript zu überarbeiten und mit Blick auf eine stringentere Argumentation das Erkenntnisinteresse zuzuspitzen. Die Studie ist aus meiner Sicht relevant, interessant und eröffnet wichtige und gewinnbringende Einblicke in die Arbeit und Erkenntnismöglichkeiten von Protokolldaten. Das Diskussionspapier enthält in der vorliegenden Version aber Mängel, die vor der Veröffentlichung behoben werden müssen. Ich empfehle die Annahme mit major revisions.
     
    Literaturhinweise
    Candello, H., & Pinhanez, C. (2018). Recovering from dialogue failures using multiple agents in wealth management advice. In Studies in conversational UX design (pp. 139-157). Springer.
    Crawford, C. & Joler, V. (2018): ‘Anatomy of an AI System: The Amazon Echo As An Anatomical Map of Human Labor, Data and Planetary Resources’, AI Now Institute and Share Lab, September 7, 2018. https://anatomyof.ai
    Opfermann, C., Pitsch, K., Yaghoubzadeh, R., & Kopp, S. (2017). The Communicative Activity of” Making Suggestions” as an Interactional Process: Towards a Dialog Model for HAI. In Proceedings of the 5th International Conference on Human Agent Interaction (pp. 161-170).
    Wiedemann, L. (2019). SELF-TRACKING: Vermessungspraktiken im Kontext von Quantified Self und Diabetes. Springer.

  2. RedaktionApril 29, 2021 at 09:34Reply

    Gutachten von: Netaya Lotze
    Empfehlung: Überarbeitung erforderlich

    Die Autor_innen beschäftigen sich im Übergangsbereich von Medienwisssenschaften und interaktionaler Linguistik mit dem innovativen Forschungsbereich der sog. “Intelligenten persönlichen Asstistenzsystemen” (IPAs) am Beispiel von Amazon Alexa, also mit Human-Computer Interaction (HCI). Das Forschungsinteresse verstehe ich in erster Linie als explorativ, da in einer Erstanalyse Logfiles, die das Dialogsystem von User_innen-Interaktionen aufzeichnet, hinsichtlich ihrer Verwendbarkeit für weiterführende linguistische Analysen geprüft werden (z.B. von Mehrparteien-Dialogen mit den System).

    Die Forschungsgrppe kommt (nicht überraschend) zu dem Schluss, dass die Analyse der automatisch erstellten Protokolle (in orthografischer Transkription) durchaus erste Anhaltspunkte für interessante Analyseaspekte liefern kann, nicht aber die (Video-)Aufzeichnung nach Kiterien der Gesprächsforschung und die detaillierte Transkiption nach GAT2 ersetzt. Der Untersuchungsbereich der User_innen-Kommunikation mit IPAs ist aber aus linguistischer Perspektive selbstverständlich noch kaum erschlossen, sodass der explorative Zugang durchaus gerechtfertigt und interessant ist.

    Der Artikel lässt sich thematisch grob in zwei Teile gliedern, nämlich a) einen medientheoretischen Abriss zur definitorischen Einordnung von Interaktionen mit IPAs in ein Konzept der wechselseitigen “Praxis” nach Schüttpelz und Meyer (2017) bzw. der “Co-operative Action” nach Goodwin (Theorieteil) sowie b) die Ergebnisse der explorativen Analyse (Empirieteil). Dabei ist der Theorieteil sehr reflektiert geschrieben und versucht das Phänomen “Künstiche Intelligenz” aus linguistischer, soziologischer und technologischer Perspektive zu fassen. Das an sich ist lobenswert, weil viele Ansätze der KI-Forschung entweder einem technologischen Determinismus verfallen oder allein die User_innen in den Fokus nehmen und Prinzipien aus der Mensch-Mensch-Kommunikation übertragen, die für die Mensch-Maschine-Interaktion nur bedingt gelten. Meiner Erfahrung nach haben aber auch diese Ansätze noch einen blinden Fleck – nämlich die User_innen-Kogintion. Die virtuelle Assistentin stellt die Illusion einer menschlichen Interaktionspartnerin (mit zahlreichen Einschränkungen) dar. Welche Rolle spielt diese Illusion, die ja nur innerhalb der User_innen-Kognition bestand hat, für die Interpretation von HCI? (Vgl. z. B. die Ergebnisse der Studien zur Rezeption von anthropomorphen KIs seitens ihrer User_innen von z.B. Kämer sowie Lotze 2018, Lotze 2016, Kap. 1.2.6 (zur User_innen-Perzeption), 1.3.2 (zu Restriktionen von KI) und 5.1.3 (zum Interaktionsmodell der HCI)).

    Der Empirieteil ist innovativ und gibt erste Hinweise auf relevante Forschungparameter der HCI für weiterführende Studien. Besonders interessant erscheint mir hier die neue Praktik des “Austestens von System-Funktionen” seitens der User_innen. Zu prüfen bleibt, wie diese interpretierbar sind (z.B. als neue Form von “Computer-Talk” im Sinne von Zoeppritz (1985), vgl. Lotze 2016, Kap.4.4).

    Eine technologische Frage habe ich noch bzgl. der Datensicherheit: Auch wenn die System-Logfiles von User_innen gelöscht werden können, sodass sie für Dritte nicht einsehbar sind, wie sicher ist es, dass sie auch für Amazon selbst nicht rekonstruierbar sind? Da die Technologie auf Basis von “Big Data Analysis” und “Machine Learnig” funktioniert, die beide auf großen Mengen von Dialog-Logfiles basieren, halte ich das wirklich für fraglich. Durch die automatische Analyse von Logfiles wird die Technologie doch permanent verbessert. Außerdem verfolgt Amazon ein Datenhandelgeschäftsmodell, in dessen Rahmen jegliche Nutzer_innen-Daten extrem wertvoll sind.

    Zur Gewichtung der Unterkapitel: Der Theorieteil ist im Vergleich zum Empirieteil etwas zu lang. Ich würde empfehlen, ersteren etwas zu straffen und letzteren um zusätzliche Sprachbeispiele und deren Analyse zu ergänzen.
    Stil und Orthografie: Manche Sätze sind syntaktisch extrem komplex und sollten zugunsten der besseren Lesbarkeit aufgeteilt werden. Es finden sich noch einzelne Tippfehler.

    Angenommen mit kleineren Überarbeitungen!

Leave a Comment