Update (22.03.2023): Das Open Peer Review zu dieser Einreichung ist abgeschlossen. Auf Grundlage des Open Peer Reviews wurde der Artikel zur Veröffentlichung im Journal für Medienlinguistik angenommen und ist abrufbar unter: https://doi.org/10.21248/jfml.2019.16.
Auf dieser Seite können Sie das Diskussionspapier zu der Einreichung für das Journal für Medienlinguistik im PDF-Format herunterladen. Das Blogstract fasst die Einreichung allgemein verständlich zusammen. Sie können das Diskussionspapier und das Blogstract unter diesem Beitrag kommentieren. Bitte benutzen Sie hierfür Ihren Klarnamen. Bei Detailanmerkungen zum Diskussionspapier beziehen Sie sich bitte auf die Zeilennummerierung des PDFs.
Diese Einreichung ist ein Beitrag zum Themenheft „Mobile Medienpraktiken im Spannungsfeld von Öffentlichkeit, Privatheit und Anonymität“.
Blogstract zu
Face to Face: Sozio-interaktive Potentiale der Videotelefonie
von Tobias Held
Der vorliegende Beitrag verfolgt das Ziel, mit Hilfe eines design- und kommunikationswissenschaftlichen Ansatzes, sozio-interaktive Potentiale der Videotelefonie in Hinblick auf das Erleben von Verbundenheit und Intimität im Kontext privater interpersoneller Kommunikation zu umreißen. Der Fokus liegt dabei auf der quali- und quantitativen Erforschung des visuellen Elements anhand durchgeführter Probandenexperimente. Von besonderem Interesse sind dabei Fragen nach möglichen Zusammenhängen zwischen Bildausschnitt, Aufnahmewinkel beziehungsweise Perspektive sowie Bildformat auf das Empfinden von Nähe und Verbundenheit oder die Fremd- und Eigenwahrnehmung der Kommunikatoren. Zentral steht zudem die Frage, ob sich aus den Vorgehensweisen und Interaktionen der Nutzer im Umgang mit der Kommunikationstechnologie mögliche Rückschlüsse auf Aushandlungsmaßnahmen oder gar Anpassungsleistungen ableiten lassen.
Dazu wird eingangs ein kurzer Überblick über die Technik- und Kulturhistorie sowie eine terminologische Verortung geboten. Dabei wird die nahezu 100-jährige Geschichte der Technologie konturiert. Der anschließende Abschnitt gibt eine Einbindung in den bisherigen Stand akademischer Forschung sowie einen Vergleich mit der Face-to-Face-Kommunikation. Darauf aufbauend erfolgen theoretische Überlegungen und Reflexionen zu den Themenkomplexen Bildausschnitt, Bildformat, Perspektive und Aufnahmewinkel beziehungsweise deren Auswirkungen auf das Entstehen zwischenmenschlicher Verbundenheitserlebnisse. Zudem folgt ein inhaltlicher Exkurs zur Bedeutung des Blickes sowie des Vorhandenseins eines Eigen- und Kontrollbildes.
Daran schließt sich der empirische Teil der Arbeit an. In diesem werden die Ergebnisse praktischer Forschung, die sich primär dem Feld der Design- und Kommunikationsforschung zuordnen lassen, vorgestellt. Zudem soll die Überführung dieser in die praktischen Probandenexperimente dargelegt und deren Ergebnisse aufgezeigt werden. Deren Ziel war es, (Nutzer-)Informationen bezüglich der Einflussfaktoren und Variablen zu validieren und hinsichtlich ihrer Auswirkungen auf kommunikative Effekte zu analysieren. Dafür wurde eine quali- und quantitative Probandenbefragung mit 176 Teilnehmern sowie ein darauf aufbauendes Interaktionsexperiment mit 18 Probanden durchgeführt, das sich wie folgt gliedert: Der erste Fragekomplex widmete sich dem Bildausschnitt und damit verbunden der Frage nach dem subjektiven Distanzempfinden der Probanden. Der zweite Fragekomplex untersuchte die Kameraperspektive beziehungsweise den Aufnahmewinkel. Fragekomplex III fragte nach der Bedeutung und Wirkung unterschiedlicher Blickrichtungen inklusive des direkten Blicks in die Kamera. Fragekomplex IV untersuchte das Bildformat wohingegen Fragekomplex V die Nutzungsdistanz sowie den Blickwinkel zum Inhalt hatte.
Abschließend werden die gewonnenen Ergebnisse und Erkenntnisse zusammengeführt und analysiert. Dabei konnte herausgefunden werden, dass der übertragene Bildausschnitt sowie weitere mit dem visuellen Element der Videotelefonie verbundene Bestandteile, eine für die nonverbale Kommunikation nicht unerhebliche Rolle spielen.
Das weitere Ziel wird es sein, die gewonnenen Erkenntnisse in einen Theorie-Praxis-Bezug zu setzen, um so die Grundlage für die weitere, praxisbasierte Auseinandersetzung im Sinne des klassischen Produktdesigns zu legen. Dabei soll der Fokus auf praktischen Erlebnissen der Verbundenheit, also jenem nach Nähe und Intimität, sowie sozialer Eingebundenheit liegen. Die Herausforderung wird darin bestehen, Praktiken zu erkunden, die Verbundenheitserlebnisse auch auf Distanz erlauben und diese zu verstehen, neu zu interpretieren und anschließend, mit dem Ziel neue Erfahrungen und Erlebnisse zu kreieren, in Technik zu übersetzen.
Diskussionsbeitrag [= erstes Gutachten; Anmerkung der Reaktion] zu: „Face to Face. Sozio-interaktive Potentiale der Videotelefonie“ von Tobias Held
Der Artikel widmet sich der empirischen Untersuchung des „Erleben[s] von Verbundenheit, die durch das visuelle Element der Videotelefonie [im privaten Bereich] beeinflusst wird.“ (Z.25ff.). Besonders fokussiert werden dabei Bildausschnitt, Kameraperspektive, Bildformat und Blickrichtung. Methodisch werden dafür eine (vornehmlich quantitativ ausgewertete) ProbandInnenbefragung und ein kleines Interaktionsexperiment herangezogen.
Der Beitrag ist insgesamt gut strukturiert und anschaulich aufbereitet. In den „theoretischen Vorüberlegungen“ (Kap. 1) und in Kap. 2 zur „Analyse der kommunikativen Variablen der Videotelefonie“ werden die technikhistorischen, (sozio-)technischen und i.w.S. kulturtheoretischen Grundlagen dieser Kommunikationsform sehr basal, nachvollziehbar und tlws. ausführlich dargelegt, so dass der Text sich auch als Einführung in die Beschreibung der (kommunikativen) Techniknutzung eignet.
Folgende kritische Fragen haben die beiden Kapitel 1 und 2 bei mir allerdings aufgeworfen, auf die man im Text m.E. noch – wenigstens kurz – eingehen sollte:
· Wenn davon die Rede ist, dass aufgrund der gleichzeitigen Wahrnehmbarkeit des auditiven und visuellen Sinneskanals (Z.137f.) als Ergebnis „Synästhesien [entstehen], die zur Komplexitätsreduktion der Informationsübertragung beitragen“ (Z.138ff.), bedarf das m.E. einer Erklärung, da es m.E. nicht an den psychologischen oder alltagssprachlichen Synästhesie-Begriff anknüpft.
· Wenn es heißt, dass „[s]owohl Mimik als auch Gestik und deren Bestandteile […] wahrnehmbar [sind], ohne dass zwei Personen zur selben Zeit am selben Ort sein müssen“, sollte m.E. bereits an der Stelle auf die Einschränkung via Delay der Datenübertragung hingewiesen werden, denn bereits minimale Zeitverzögerungen der Bildübertragungen im Vergleich zur Tonübertragung wirken sich auf die Interaktion aus und unterscheiden sie z.B. von face-to-face-Kommunikation.
· In Fußnote 5 steht: „2005 erweiterte Skype sein Repertoire auf die VoIP-Videotelefonie und trug so maßgeblich zur Demokratisierung der Videotelefonie bei.“ „Demokratisierung“ erscheint mir hier entweder als zu starke Bewertung oder als wenigstens erklärungsbedürftig.
· In Z.328 ist von „positiven Effekten“ die Rede, die – je nach Brennweite der Kamera – durch sichtbare „ablenkende Elemente“ im Bildbereich entstehen könnten (Z.326). Darauf wird aber nicht weiter eingegangen. Allerdings wäre interessant, um welche möglichen Effekte es sich handeln könnte und auf welcher Bewertungsbasis diese als positiv charakterisiert werden könnten (intuitiv würde ich dies eher als eine empirische Aufgabe sehen).
· Ab Z.348ff. wird behauptet, dass sich die „ständige[] Präsenz der Kameras im Alltag computervermittelter Kommunikation“ (Z.349f.) schließlich in einem „nativeren Umgang äußert“ (Z.352). Diese an sich plausible These wäre m.E. noch zu belegen (empirisch oder via Quellenangabe).
· In Z.583ff. leuchtet mir nicht ein, warum ein Wegblicken bei der Videotelefonie nicht möglich sei.
Im empirischen Kapitel 3 liegt der Fokus der Fragebogenuntersuchung und der Positionsbestimmung von einem genutzten Endgerät in einem experimentellen Setting auf den o.a. Aspekten der soziotechnischen Konstellation, auf die ich im Folgenden kapitelbezogen eingehe:
Kap. 3.1 zu Bildausschnitten:
Die zu Grunde gelegte Behauptung: „Je näher sich Menschen physisch sind, desto intimer ist ihr Verhalten“ (Z.709f.) ist in dieser Generalität m.E. nicht haltbar und sollte differenziert oder belegt werden. Und auch die Behauptungen, dass „sich beim Betrachten eines Brust- oder gar eines reinen Kopfbildnisses, also eines kleinen Wirklichkeitsausschnittes, das Gefühl von Nähe und Intimität“ entwickelt (Z.715ff.) sowie dass „Porträts, bei denen mit der Abbildung die gewohnte Entfernung von mindestens einer Armlänge eingehalten wird, […] dagegen normal und damit – rein formal betrachtet – langweiliger“ wirken (Z.720ff.) und sich „[d]ieser Wirkung […] kein Betrachter entziehen“ kann (Z.725f.), sollten m.E. belegt werden.
Auch zu Beginn des Kapitels (ab Z.713) könnte zur Erläuterung der Bildausschnitte bereits auf die bewährte filmanalytische Terminologie (Halbtotale, Totale,…) zurückgegriffen werden.
Die Bildfolge in Abb.7 würde sich m.E. für eine logische Reihenfolge zum Bildausschnitt anbieten, zudem könnte man dort die Bildausschnittbezeichnungen mit in die Bildunterschrift aufnehmen.
Bzgl. der Distanzzonen wird auf Hall (1976) Bezug genommen, denkbar wäre hier ergänzend auch noch eine Bezugnahme auf Sven F. Sager (2000): „Kommunikatives Areal, Distanzzonen und Displayzirkel“.
Zur Untersuchung:
176 ProbandInnen wurden 6 Bilder mit unterschiedlichen Bildausschnitten eines denkbaren Videotelefonie-Partners präsentiert und sie sollten sich vorstellen, dass es sich um eine ihnen vertraute Person handelt und zu jedem Bild das „empfundene Verhältnis von Nähe und Distanz zu ihrem virtuellen Gesprächspartner“ mittels eines Schiebereglers, der Werte zwischen 0 und 100 ausgab, bewerten, anschließend ein Bild als das beste auswählen und schließlich begründen (oder nicht), warum sie sich dafür entschieden haben.
Prinzipiell halte ich das künstliche Szenario und die Selbstauskunft, die keine Begründung erzwingt, für etwas problematisch bzgl. der Validität und hätte mir eine Auswertung von ohnehin zu führenden privaten Videogesprächen von ProbandInnen gewünscht. Nichtsdestotrotz erscheint mir das Ergebnis, dass sich die meisten Befragten für einen „Bildausschnitt zwischen Nahaufnahme und Close-up“ (Z.769) entscheiden, plausibel. Dass sie dabei aber „am ehesten das Gefühl [haben], dem jeweiligen Gesprächspartner nahe zu sein“ (Z.769ff.) erscheint mir als zu weitreichende Interpretation der Ergebnisse. Der Abschlusssatz des Kapitels: „Eine verringerte Distanz bedeutet nicht automatisch mehr emotionale Nähe oder Verbundenheit“ ist richtig, aber m.E. so selbstverständlich, dass ein Anführen dessen überflüssig ist (zumal er nicht argumentationslogisch angeschlossen ist). Interessant sind in der Auswertung m.E. v.a. die nur beispielhaft angeführten freien Begründungen, die eine systematische Auswertung verdient hätten; vielleicht ist dies aber auch erfolgt und die Ergebnisaussagen ab Z.787 zum Vergleich mit face-to-face-Gesprächen stützen sich insbesondere darauf (die quantitativen Auswertungen würden diese nämlich nicht stützen). M.E. könnten man diesen Teil noch ausbauen.
Kap. 3.2 zu Aufnahmewinkeln:
Auch bei der Untersuchung zu unterschiedlichen Aufnahmewinkeln sollten die zu Befragenden sich wieder gedanklich in eine Videotelefonie-Situation versetzen und drei sich minimal unterscheidende Close-Up-Bilder einer männlichen Person (aus drei leicht höhendifferenzierten Kamerapositionen) bzgl. 12 mehr oder minder dichotomen Adjektivpaaren (z.B. selbstbewusst – schüchtern; devot – arrogant (?)) graduell beurteilen.
Die Auswertung in Abb.10 soll die „Mittelwerte der empfundenen Wahrnehmung der Probanden hinsichtlich der Bilder 1-3“ ausgeben. Daran finde ich zum Einen problematisch, dass es sich um direkt abgefragte Selbstauskünfte der Befragten handelt, was nicht mit der „empfundenen Wahrnehmung“ gleichgesetzt werden sollte (das könnte man sprachlich einfach etwas abfedern), zum Anderen werden „[s]tarke Abweichungen […] bei der Aufnahme von unten“ (Z.836) konstatiert, aber keine Signifikanzwerte und weitere statistische Maße angegeben. Diese müssten bei einer quantitativen Auswertung m.E. unbedingt angegeben werden (entweder in einer Fußnote oder idealiter differenzierte Angaben im Anhang), auch wenn es plausibel erscheint, dass Befragte eine Person, die von unten aufgenommen wurde, als selbstbewusster und arroganter beschreiben.
Da mir die Ergebnisse dieses Kapitels überschaubar erscheinen, könnte m.E. überlegt werden, dieses Kapitel herauszunehmen.
Kap. 3.3 zu Blickrichtungen und Kap. 3.4 zu Bildformaten:
M.E. werfen die beiden Kapitel mehr Fragen auf als sie beantworten, weshalb würde ich eher empfehlen, sie herauszunehmen.
Kap. 3.5 zu Nutzungsdistanzen und Blickwinkeln:
In Kap. 3.5 werden die Fragen aufgeworfen: „In welcher Distanz (zum Gesicht) [und in welchem Blickwinkel] wird das Smartphone gehalten?“ (Z.939). Dafür wurde ein Laborexperiment mit 18 ProbandInnen durchgeführt, bei dem diese je „ein Zweiergespräch mit einer ihr bekannten und vertrauten Kontrollperson mittels Videotelefonie“ (Z.979ff.) einmal frei (stehend und sitzend) und einmal mit einem Stativ für ihr Handy (ebenfalls stehend und sitzend) führen sollten. Ausgewertet wurden dann je die Abstände des Handys zum Gesicht, die durchschnittliche Gesamthöhe des Handys und der Winkel des Handys.
Leider erfährt man nicht, wie die Maße erhoben/bestimmt wurden. Mussten die Personen an genau festgelegten Positionen stehen und durften sich dann nicht mehr bewegen? (Das wäre ein sehr unnatürliches Setting.) Oder durften sich die Personen (zumindest in den Settings ohne Stativ) frei bewegen und wurden dann je die Mittelwerte der gesamten Aufnahme genommen? (Das wäre methodisch eine enorme Herausforderung und sollte detailliert ausgeführt werden.)
M.E. bringen die ermittelten Minimal-, Maximal- und Mittelwerte (abstrahiert von den physiologisch jeweils unterschiedlich beschaffenen ProbandInnen) keinen Erkenntnismehrwert und ebenso die zusammengefassten Ergebnisse ab Z.1061. Vieles erklärt sich bereits aus physiologischen Grundlagen (z.B. dass das Handy frei unterhalb des Gesichts gehalten wird). Deshalb plädiere ich dafür, auch Kap. 3.5 aus dem Beitrag zu nehmen.
Zum Fazit (Kap. 4):
Kleinere Teile im Fazit könnten m.E. ebenfalls gestrichen werden (z.B. Z.1108-1115 und Z.1129-1135). Die Formulierung in Z.1116-1119 sollte m.E. präzisiert werden.
Hinweise auf kleinere v.a. sprachliche Modifikationsvorschläge sind in der hochgeladenen pdf-Datei gelb markiert.
Insgesamt könnte ich mir eine Annahme nach einer umfassenden Überarbeitung vorstellen. Dafür sollte m.E. der Fokus auf die Aufnahmewinkel verengt/beschränkt werden (inkl. systematischer Auswertung der Begründungen), auch wenn mir klar ist, dass viel Arbeit in die Untersuchungen gesteckt wurde, die in den Kapiteln 3.2-3.5 ausgewertet werden. Ob eine solche Überarbeitung dann allerdings eine Neueinreichung erforderlich macht, müssten die RedakteurInnen entscheiden.
Gutachten von Jens Lanwer:
Das Paper dokumentiert die Ergebnisse einer Studie zur Nutzung mobiler Endgeräte zwecks Durchführung von Videotelefonaten. Der verfolgte Ansatz verbindet interaktions- und kommunikationstheoretische Fragen mit Aspekten der Nutzung und Gestaltung mobiler Kommunikationstechnologien aus einer designtheoretischen Perspektive. Die Herangehensweise eröffnet in jedem Fall eine neue, für die Medienlinguistik bereichernde Sichtweise auf Formen medial vermittelter Kommunikation. Die Studie sowie die Aufbereitung der Ergebnisse weisen jedoch deutliche inhaltliche und handwerkliche Mängel auf, die vor allem die folgenden vier Punkte betreffen:
a) Unklare Konturierung des Gegenstandes
Es gelingt leider nicht durchgängig, den Gegenstand der Videotelefonie theoretisch sauber zu konturieren. Problematisch ist u.a. der Umgang mit sozialtheoretischen Konzepten von Schütz/Luckmann. So wird bspw. das Konzept der wir-Beziehung schief ausgelegt, wenn es heißt: „Durch das Eigenbild bietet sich den Gesprächspartnern ständig die Gelegenheit und Versuchung, aus der ‚Wirbeziehung‘ […] herauszutreten und die Gesamtsituation reflektierend zu betrachten“ (670-673). Die gemeinsame Situation konstituiert sich – nach Schütz/Luckmann – IN der wir-Beziehung. Verlasse ich diese, kann ich diese Situation auch nicht mehr betrachten. Weiterführend heißt es dann, dass man sich selbst aufgrund des verfügbaren Eigenbildes im Monitoring-Fenster „in einer ähnlichen technisch vermittelten Symptomfülle, wie auch sein Gegenüber“ (674-675) sie erfahre, wahrnehme. Das Reden von (anzeichenhaften) Symptomen, die auf ein Innenleben bloß verweisen, wie es bei Schütz/Luckmann heißt, macht in Bezug auf das Selbst aber keinen Sinn, da ich Zugriff auf mein Innenleben habe. Der Symptombegriff ist hier fehl am Platz. Außerdem ist immer wieder von Bildkommunikation die Rede, obwohl es sich bei Videotelefonaten um audiovisuelle Kommunikationsereignisse handelt. Auch wird davon gesprochen, dass im Rahmen der Videotelefonie „[d]er ganze Bereich nonverbaler Kommunikation […] ausgeschöpft werden“ (140-142) könne. Der Bereich der körperlichen Berührung ist jedoch nach wie vor der Face-to-Face-Situation vorbehalten. Die Relevanz von touch für die Herstellung von Intimität, die hier durchaus im Fokus steht (s. c), ist zudem empirisch untersucht worden (vgl. u.a. Goodwin 2017). Dieser Aspekt wird gänzlich ausgeblendet.
b) Unvollständige Skizze des Forschungskontextes
Der Forschungskontext ist aufgrund der begrüßenswerten interdisziplinären Ausrichtung der Studie zwangsläufig weit gefächert. Dass dies zur Folge haben kann, dass nicht sämtliche Studien aus allen relevanten Forschungsfeldern berücksichtigt werden können, steht daher außer Zweifel. Arbeiten aus dem interaktionalen / konversationsanalytischen Bereich bleiben allerdings mehr oder weniger gänzlich unberücksichtigt. Hier findet sich aber eine ganze Reihe von Studien, die sich mit Aspekten der Videotelefonie befassen und die zitierten Befunde in Teilen konterkarieren. Die mangelnde Berücksichtigung entsprechender Arbeiten hat daher zur Folge, dass sich Lücken im Kenntnisstand auftun, die sich mit Blick auf das verfolgte Forschungsinteresse als tendenziell problematisch erweisen. Dies betrifft u.a. den Aspekt des Blickkontakts. In der Theoriediskussion wird zurecht auf die technisch-bedingte Unmöglichkeit von Blickkontakt verwiesen. In kleinschrittigen Analysen des Handlungsgeschehens in Videotelefonaten zwischen vertrauten Interaktionspartnern lässt sich aber durchaus aufzeigen, dass diese sich dennoch so verhalten, als könnten sie Blickkontakt herstellen (vgl. Lanwer 2019). Es wäre daher auch zu erwägen, statt von einem mutual gaze-dilemma von einem mutual gaze-paradox zu sprechen. Mit Blick auf eine Diskussion von „sozio-interaktiven Potentiale“ (30-31) der Videotelefonie scheint die Einbeziehung entsprechender Ergebnis als potenziell gewinnbringend.
c) Inkongruenz von Fragestellung, Daten/Methode und Schlussfolgerungen
Im Mittelpunkt der Studie steht die Frage „welche sozio-interaktiven Potentiale der Videotelefone [sic] zugeschrieben werden können“. Dabei werden fünf Fragekomplexe adressiert, die das Erkenntnisinteresse des Artikels umreißen, das um den Aspekt der Erzeugung von Intimität und sozialer Nähe kreist. Dies sind (1) der Zusammenhang von Bildausschnitt und empfundener Nähe, (2) der Zusammenhang von Kameraperspektive und Fremd- und Selbstwahrnehmung, (3) der Zusammenhang von Blickrichtung und „Verbundenheitserlebnis“, (4) Präferenzen bzgl. des Bildformats und (5) Vorgehensweise […] im Umgang mit der Technologie (Handlungsmuster, Anpassungsleistungen usw.). Dazu im Einzelnen:
(1) Der erste Fragekomplex wird auf Basis einer Probandenbefragung bearbeitet. Gegenstand der Befragung sind Aufnahmen eines Mannes in sechs verschiedenen Einstellungen (Totale bis Detailaufnahme). Die Probanden wurden gebeten, die Aufnahmen in Bezug auf die „empfundene Nähe“ (734) zu beurteilen. Das Ergebnis ist, dass die „Nähe“ mit zunehmendem Einzoomen ins Bild als zunehmend größer empfunden wird. Was genau dies aussagt, ist unklar. Der Befund deutet vermutlich ‚lediglich‘ darauf hin, dass die Probanden den Eindruck haben, dass die Variation des Bildausschnitts Einfluss auf ihr räumliches Näheempfinden hat. Hierfür sprechen auch Probandenaussagen wie „wirkt als würde mir die Person an einem Tisch gegenübersitzen“ (776-777). Der Schluss, dass „[e]ine verringerte Distanz nicht automatisch mehr emotionale Nähe oder Verbundenheit“ (792-793) bedeutet, kann auf der Grundlage der verfügbaren Daten allerdings nicht gezogen werden, da diese Aspekte (zumindest nicht explizit) Gegenstand der Befragung sind. Zugleich irritiert etwas, dass der Autor davon ausgeht, dass räumliche Nähe allgemein „als Ausdruck von Intimität verstanden wird“ (708-709). Diese Aussage ist mit der vorherigen nur dann kompatibel, wenn man davon ausgeht, dass sich das Näheempfinden der Probanden eben nicht auf die räumliche Nähe bezieht, was aber zum einen die Frage aufwirft, welche Form von Nähe dann gemeint ist, und zum anderen im tendenziellen Widerspruch zu Probandenaussagen, wie der oben zitierten steht.
(2) Der zweite Fragekomplex wird ebenfalls auf Basis einer Probandenbefragung bearbeitet. Gegenstand der Befragung sind hier drei Close ups desselben Mannes aus Aufsicht, Normalsicht und Untersicht. Geprüft werden soll, wie sich die Kameraperspektive auf die Bewertung des Gegenübers auswirkt. In Bezug auf alle drei Einstellungen sollen die Probanden zu diesem Zweck ein semantischen Differential ausfüllen. Die Ergebnisse zeigen zum einen für alle drei Perspektiven nur geringe Ausschläge zu jeweils einem der beiden Pole. Zudem unterscheidet sich die Profillinie der Untersicht von den beiden anderen in Bezug auf einzelne Oppositionen. Hieraus wird gefolgert, „dass der Aufnahmewinkel auch in der Videotelefonie ein nicht zu vernachlässigender Faktor ist […], [der] die Qualität des Gespräches bzw. die Wahrnehmung der vermittelten Informationen maßgeblich beeinflusst“ (840-844). Es wird aber überhaupt gar kein Gespräch untersucht, sondern lediglich die Bewertung von Standbildern. Wie auf dieser Basis auf eine maßgebliche Beeinflussung „der vermittelten Informationen“ geschlossen werden kann, ist absolut unklar.
(3) Der dritte Fragekomplex wird ebenfalls auf Basis einer Probandenbefragung bearbeitet. Gegenstand der Befragung ist hier die Blickausrichtung des Gegenübers. Die Probanden werden aufgefordert, Aufnahmen mit verschiedenen Fixationspunkten in Bezug auf die empfundene Nähe zu bewerten. Welche Art von Nähe gemeint ist, bleibt auch hier in der Anlage der Frage unklar. Ergebnis dieser Befragung ist, dass sich keine nennenswerten Unterschiede in der Bewertung abzeichnen. An diese Beobachtungen werden verschiedene Vermutungen angeschlossen. U.a. wird gemutmaßt, dass die ermittelte Indifferenz darauf hindeuten könnte, dass „[d]em vermeintlichen Blickkontakt […] innerhalb der Videotelefonie keine so bedeutsame Rolle“ (885-886) zukomme. Der Zusammenhang ist auch hier unklar: Was hat Blickkontakt mit der erfragten Nähe zu tun und inwiefern kann man mit einem Konterfei auf einem Foto Blickkontakt haben?
(4) Der vierte Fragekomplex wird ebenfalls auf Basis einer Probandenbefragung bearbeitet. Gegenstand der Befragung sind in diesem Fall verschiedene Bildformate. Die Befragung ergibt eine klare Präferenz für das Hochformat. Dies wird seitens der Probanden u.a. mit einer besseren Sichtbarkeit des Gegenübers begründet. Weitere Schlussfolgerungen werden hier nicht angeboten, daher bleibt hier der Bezug zum übergeordneten Erkenntnisinteresse fraglich.
(5) Der letzte Fragekomplex wird mittels eines Experiments bearbeitet. Gegenstand des Experiments ist die Handhabung des Endgerätes in der konkreten Anwendung. Dabei geht es im Speziellen darum, auf welcher Höhe, in welchem Abstand und mit welchem Winkel das Gerät gehalten wird. Dabei werden zwei Parameter variiert: i) Position des sozialen Agenten (stehend vs. sitzend) und ii) Beweglichkeit des Geräts (frei vs. teilfixiert). Eine Beobachtung ist hier, dass in allen Konstellationen in der Regel leicht nach unten geschaut wird. Weiterführende Schlussfolgerungen werden kaum angeschlossen. Auf Handlungsmuster o.ä. wird nicht eingegangen. Entsprechend fehlt auch hier tendenziell der Bezug zum übergeordneten Erkenntnisinteresse
d) Mängel in Auswertung und Darstellung der quantitativen Befunde
Ein entscheidendes Problem vor allem bei der Auswertung der Experimentsituation ist, dass ausschließlich mit Durchschnittswerten gearbeitet wird. Als Ergebnis werden zahlreichen Durchschnittswerte präsentiert, deren Zustandekommen unklar ist: Wurde für die verschiedenen Dimensionen pro Proband nur ein Wert ermittelt? Haben die Probanden bspw. den Abstand zwischen Display und Augen nicht im Verlauf des Telefonats variiert? Wenn ja, wie wurde damit umgegangen? usw. Unklar ist auch, welche Aussagekraft in diesem Fall eigentlich Durchschnittswerte haben. Es ist völlig unklar, was diese aussagen. In Bezug auf den Abstand zwischen Auge und Display kann sich bspw. eine durchschnittliche Distanz von 40cm auch ergeben, wenn 9 Probanden das Gerät auf 20cm Abstand positionieren und 9 auf 60cm. Der Wert 40cm würde somit keinem einzigen Fall der tatsächlichen Nutzung entsprechen. Noch problematischer wird es bei der Bemessung der vertikalen Relation von Display und Augenlinie: Der Höhenabstand zwischen Displaymitte und Augenhöhe kann nicht in Bezug auf Durchschnittswerte hinsichtlich der Höhe des Endgerätes und der Höhe der Augen berechnet, sondern muss für jedes Individuum separat ermittelt werden. Ansonsten sagen die Zahlen überhaupt nichts aus. (Wenn dies bereits so gemacht wurde, sollte dringend die Beschreibung sowie die Art der visuellen Darstellung angepasst werden.)
Für eine Veröffentlichung sollte der Beitrag in allen oben genannten Punkten grundlegend überarbeitet und die Überarbeitung geprüft werden.
Lieber Herr Gerwinski, lieber Herr Lanwer,
an dieser Stelle möchte ich mich recht herzlich für Ihre Bemühungen und ihre detaillierten Hinweise und Anmerkungen bedanken. Einen überwiegenden Teil jener Vorschläge oder Kritiken habe ich entsprechend umgesetzt bzw. eingearbeitet und hoffe nun, in einem weiteren Schritt, auf Ihr Wohlwollen zu stoßen.
mit freundlichem Gruß
Tobias Held
Zweites Gutachten von Jens Lanwer:
Der Beitrag wurde in vielen Punkten gründlich überarbeitet und ist inhaltlich deutlich besser sortiert als in der ersten Fassung. Außerdem ist Argumentation konsistenter geworden. Es bleiben jedoch einige Kritikpunkte/Fragen bestehen (s.u.), die aber m.E. nicht gegen eine Veröffentlichung des Beitrags sprechen, sondern Anlass zu weiterführenden Diskussionen geben; was ja erfreulich ist.
Kritikpunkte/Fragen:
• Z130-133: Hier heißt es, dass der ganze Bereich non-verbaler Kommunikation ausgeschöpft werden kann, sofern es der Bildausschnitt zulässt. Das ist so nicht korrekt. So kann z.B. keine Körperberührung stattfinden, die sicher zur Herstellung sozialer Nähe beiträgt (Stichwort: haptic sociality). Es ist aber bspw. auch nicht klar, wie genau Distanzregulierung über eine Projektion des Körpers auf einen zweidimensionalen Screen abläuft. Hier müsste man differenzierter sein.
• Z178-179: Hier heißt es, der lebensweltliche Kontext müsse in Zeichen übersetzt werden, um vom Gegenüber wahrgenommen werden zu können. In Bezug auf die Videotelefonie scheint das aber ja teilweise gerade nicht zuzutreffen; es sei denn man interpretiert die visuelle Projektion auf dem Bildschirm als ikonisches Zeichen. Das müsste dann aber entsprechend erläutert werden.
• ABSCHN2.2.: In diesem Abschnitt finden sich Ausführungen zum Bildformat. Untersucht wird aber in Abschnitt 3.1 der Bildausschnitt. Es fehlen entsprechend theoretische Hintergründe und die Einführung der notwendigen Terminologie.
• Z525-540: Hier heißt es, dass aufgrund des Eye-contact-Dilemmas „[e]ine aus der Face-to-Face-Kommunikation vertraute wechselseitige Steuerung der Gesprächspartner […] weitestgehend ausgeschlossen“ ist. Außerdem heißt es: „Weiterhin können sich die Kommunikatoren, da eine gemeinsame räumliche Struktur fehlt, nicht (angezeigt durch Blickrichtung, Körperhaltung) bewusst zu- oder abwenden“. Später heißt es dann, „dass weder Anblicken oder Wegblicken möglich sind. Der vermeintliche Blickkontakt und das vermeintliche Wegblicken können folglich weder ihre sonstigen gesprächsregulierenden, noch ihre üblichen kommunikativen Funktionen erfüllen.“ Ein Hinweis aus meinem ersten Gutachten auf Untersuchungen, die gegenteilige Hinweise liefern, wurde leider ignoriert.
• FN25: Hier wird kurz auf die Repräsentativität der Stichprobe eingegangen. Für die Generalisierbarkeit der getroffenen Aussagen ist aber vor allem entscheidend, ob es sich um eine Zufallsstichprobe handelt. Die Art der Auswahl der Probanden wird leider immer noch nicht dokumentiert.
• Z693-695: Hier heißt es: „Eine verringerte Distanz bedeutet nicht automatisch mehr emotionale Nähe oder Verbundenheit.“ Dieser Schluss kann m.E. aus den Befunden der Untersuchung nicht ohne Weiteres abgeleitet werden, da emotionale Nähe und Vertrautheit in keiner Weise Gegenstand der Untersuchung sind.
• Z790-797: Warum wird hier ein möglicher Entwicklungsprozess diagnostiziert? Es ist (a) völlig unklar, was die Studie über die Relevanz von Blickkontakt aussagt. Zudem müsste (b) spezifiziert werden, was genau eigentlich
Blickkontakt heißt. (Reicht es bspw. vllt. aus, sich gegenseitig ins Gesicht zu schauen?)
• FN31: Hier wird die Zusammensetzung der kleineren Probandengruppe dargestellt. Erneut fehlen Angaben dazu, wie die Probanden ausgewählt wurden.
• ABSCH3.4: Zunächst möchte ich hier einräumen, dass die Kritik aus meinem ersten Gutachten, die die Berechnung der vertikalen Distanz zwischen Augenlinie und Display auf der Basis von Durchschnittswerten betrifft, unberechtigt ist. Die Berechnung probandenbezogener Werte und die anschließende Berechnung eines Durchschnittswertes – wie von mir vorgeschlagen – führt zum selben Ergebnis. Der Kritik liegt ein Denkfehler zugrunde. Dennoch bleibt zu bemängeln, dass die Ergebnisse der Messungen nach wie vor ausschließlich als Durchschnittswerte angegeben werden. Es wäre sicher sinnvoll gewesen, die Streuung der Werte zu dokumentieren; bspw. in Form eines Boxplots.
• Z54: Hier wird auf „kommunikative Praktiken“ Bezug genommen, ohne Quellen anzugeben. Der Begriff ist allerdings terminologisiert; dies zudem nicht einheitlich. Es sollte daher eine grobe Verortung vorgenommen werden.
• Z57: Hier ist von einer „quali- und quantitativen Probandenbefragung“ die Rede. Qualitativ bzw. quantitativ ist jedoch nicht die Befragung, sondern die Auswertung. Das ist in der Darstellung etwas unglücklich.
• ABB1: Der Chat gilt in der Forschung in der Regel als quasi-synchrone Kommunikationsform, was nicht ganz unwesentlich ist. Das sollte man hier nicht außer Acht lassen.
• FN6: Es gibt einen entscheidenden Unterschied zwischen Mitempfinden und zugleich Wahrnehmen. Was hier mit „Synästhesie“ gemeint ist, kann eigentlich nur Letzteres sein. Das sollte man entsprechend herausstellen. Wenn dies jedoch so ist, sorgt der Terminus für mehr Verwirrung als Klarheit.
• Z212-213: Wieso werden die Komponenten für Aufzeichnung und Wiedergabe des Bildes getrennt, in Bezug auf den Ton aber zusammen aufgeführt?
• Z234: aufgenommen —> aufgenommenen
• Z313-314: Hier ist von einer „Deformation der Realität“ sowie von einer Verfälschung der „Wahrnehmung des Gesprächspartners“ die Rede. Dabei bleibt unberücksichtigt, dass jede Form der Wahrnehmung allein durch die physiologischen Voraussetzungen des wahrnehmenden Organismus eine spezifische ‚Wahrnehmungsrealität‘ formt. Man sollte die Formulierung hier daher entweder streichen oder differenzierter sein. Dies habe ich bereits in meinem ersten Gutachten angemerkt.
• Z418: dazulegen —> darzulegen
• Z462-464: Hier werden unter Perspektive und Aufnahmewinkel Aspekte behandelt, die auch etwas mit dem Bildausschnitt zu tun haben. Sollte man vllt anmerken.
• Z489-490: Wie lässt sich das auf Blickkontakt übertragen?
• Z632: der jeweils dazugehörige Schieberegler —> ein jeweils dazugehöriger Schieberegler
• Z772: In Bezug auf eine quantitative Analyse sollte man evtl. nicht von Signifikanz sprechen, wenn diese – und das scheint hier der Fall zu sein – nicht im engeren Sinne statistisch gemeint ist.
• Z818-824: Hier ist von einem kommunikativen Wert der Positionierung zur Aufnahmeeinheit die Rede, der weiter oben grundlegend in Frage gestellt wurde. Wie passen diese Positionen zusammen?
• Z918: Siehe Kommentar zu Z772.
• Z935: „Verifizierung“ scheint mir hier ein zu starker Begriff zu sein.
• Z945: Was genau ist hier mit „wirklichkeitsnah“ gemeint?
• Allgemein: Es wird mal das Generikum und mal werden Doppelformen wie NutzerInnen verwendet. Das sollte man vereinheitlichen.
—
Anmerkung der Redaktion: Der Autor wurde um Überarbeitung gebeten.
Lieber Herr Dang-Anh, liebe Redaktion, liebe Gutachter, hiermit möchte ich Stellung zu Ihrem Schreiben vom 16. Juni 2020 nehmen, in dem Sie um erneute Überarbeitung meines Artikels und/oder um Stellungnahme als Kommentar für die Ablehnung der Überarbeitungsvorschläge bitten. Dem möchte ich nachfolgend nachkommen. Zunächst einmal möchte ich darauf hinweisen, dass von den insgesamt 26, im Gutachten vom 27. April 2020 aufgeführten Punkten, 23 Punkte direkt eingearbeitet und/oder abgeändert wurden. Für diese Hinweise bin ich sehr dankbar. Selbiges gilt auch für die drei Hinweise, die bis zur letzten Version des Artikels (15. Mai 2020) (noch) nicht eingeflossen sind. Dazu möchte ich nachfolgend Stellung beziehen bzw. ggf. eine Begründung für die Nichtberücksichtigung liefern. Darüber hinaus möchte ich darauf hinweisen, dass bereits vor den beiden offiziellen Gutachten-Runden eine Korrekturphase durch die Veranstalterinnen des Panels im September 2018 (in dessen Rahmen der Vortrag gehalten wurde, aus dem sich dieser Artikel ergab), stattgefunden hat und der Artikel in Zuge dessen über- bzw. bearbeitet wurde. – Kommentar zu FN25 und FN31: Hierbei wurde bemängelt, dass die Auswahl der Probanden noch immer nicht dokumentiert wurde. Dies wurde inszwischen korrigiert bzw. nach bestem Wissen nachgeholt – Kommentar zu Z54: Hierbei wird eine grobe Verortung des Begriffs „kommunikative Praktiken“ erwartet. Diese ergibt sich m.E. deutlich aus dem weiteren Kontext der Arbeit sowie dem Forschungsfeld, in dem sie sich bewegt. In keinem der vorherigen Gutachten (oder der Korrekturphasen) wurde dieser Punkt bemängelt, weswegen ich es durchaus hinterfrage, ob eine Verortung eines Begriffes an dieser Stelle wirklich notwendig ist – vor allem auch in Anbetracht dessen, dass sich die Arbeit allgemeinhin schon an der Grenze zur Überschreitung der maximalen Zeichenzahl befindet. – ABSCH3.4: Hierbei wird kritisiert, dass die Werte „ausschließlich als Durchschnittswerte angegeben werden“. Die Darlegung und Präsenation der Durchschnittswerte ist ein durchaus gängiges Verfahren, auch in Anbetracht dessen, die Arbeit auf des wesentliche zu reduzieren und nicht an Fülle und Zahlen zu überfrachten (insbesondere innerhalb der grafischen Darstellung). Zudem wurden herausragende Werte (extreme Abweichung in beide Richtungen) ebenfalls benannt, weswegen von einer „ausschließlichen Darstellung der Druchschnittswerte“ keinesfalls die Rede sein kann. Unabhängig der o.g. drei, im Gutachten vom April 2020 formulierten und in der Bearbeitung vom Mai 2020 (noch) nicht berücksichtigten Punkte, wurde alle Verbesserungs- oder Änderungsvorschläge nach bestem Wissen ein- und/oder umgearbeitet. Deswegen hoffe ich, dass alle noch bestehenden Fragen hinreichend geklärt bzw. beantwortet sind.
viele Grüße
Tobias Held