Clubhouse und Co.: Social Network goes Audio

Die Intimität des gesprochenen Wortes wird zum neuen Treiber frischer Social-Media-Apps. Nur wie moderiert man diese?

2

(Bild: Ms Tech / Pexels)

09.02.2021, 08:00 Uhr

Lesezeit: 11 Min.

MIT Technology Review

Von

Tanya Basu

Nandita Mohan geht jeden Morgen ihre E-Mails durch und hat dabei ihre früheren Kommilitonen im Ohr. Sie erzählen sich ihren Tag, erinnern an schöne Zeiten und sinnieren darüber, was es bedeutet, den Abschluss in Zeiten einer Pandemie zu machen. Mohan ist eine 23-jährige Software-Entwicklerin in der San Francisco Bay Area.

Geschlossene Gruppe kommuniziert per Ton

Während sie ihren Freunden zuhört, ist sie weder am Telefon, noch lauscht sie einem persönlichen Podcast. Stattdessen nutzt sie Cappuccino: eine App, in der die Audios einer geschlossenen Gruppe mit Freunden und Familie aufgenommen und zum Download bereitstellt werden. "Dass wir einander hören können, lässt mich unsere Freundschaft noch mehr schätzen. Das verändert alles", meint Mohan.

Videos by heise

Audio-Nachrichtensysteme gibt es seit Jahren; Sprachnachrichten auf WhatsApp sind insbesondere in Indien ein Hit und WeChat-Audiodienste erfreuen sich in China großer Beliebtheit. Während der Pandemie wurden diese Anwendungen zu einem einfachen Weg, in Kontakt zu bleiben – auch dann, wenn die Zoom-Müdigkeit einschlägt. Doch jetzt macht eine neue Welle angesagter Apps die Unmittelbarkeit und Ungeschliffenheit von Audio zum Mittelpunkt der sozialen Begegnung. Hier wird die Stimme zum verbindenden Element. Vom Telefonat zu Chatnachrichten und zurück zu Audiosystemen – in der Handy-Anwendung mag sich der Kreis nun schließen.

Die Newcomer unter den Social-Media-Apps

Das bekannteste, audio-zentrierte Netzwerk ist Clubhouse. Die lebhafte, derzeit nur über Einladung zugängliche App wurde im letzten Frühling sehr positiv aufgenommen und hat mit Chatrooms im Talkshow-Format früh für Interesse gesorgt. Wer es nutzt, wird sozusagen Teil einer (online stattfindenden) Party-Unterhaltung. Doch die Verheißung von Clubhouse nahm durch ungenügende Moderation Schaden, nicht zuletzt durch ungefilterte bis misogyne Chats. In Deutschland wurde die "Affäre" um den Thüringer Ministerpräsidenten Bodo Ramelow bekannt, der Merkwürdigkeiten vor Tausenden äußerte.

Manche haben jetzt schon genug. Die "New York Times"-Reporterin Taylor Lorenz, zuvor Fan der App, wurde in einer Clubhouse-Session belästigt, als sie auf ein inakzeptables Verhalten hinwies. "Ich habe nicht vor, diese App wieder zu öffnen", äußerte sich Lorenz gegenüber dem Magazin "Wired". "Ich will kein Netzwerk unterstützen, das die Sicherheit seiner Nutzer nicht ernst nimmt." Ihre Erfahrung war kein Einzelfall in der App: Seitdem wurden noch problematischere und auch rassistische Vorkommnisse gemeldet. Scheinbar lauert jenes Verhalten, das auch andere soziale Plattformen toxisch macht, genauso hinter der coolen und exklusiv daherkommenden Eingangspforte von Clubhouse.

Discord mischt mit

Auch die beleibte Chat-App aus der Gaming-Szene Discord hat zwischenzeitlich explosionsartig an Zuspruch gewonnen – dank Audio. Der Anbieter nutzt Voice-Over-IP-Software und transformiert ein gesprochenes Gespräch zu Text (die Idee stammt ursprünglich von Gamern, die unmöglich gleichzeitig tippen und zocken konnten).

Im Juni gab Discord seinen neuen Slogan bekannt und ging damit auf das Bedürfnis vieler Menschen ein, während der Pandemie Räume für soziale Bindung zu finden: "Dein Ort zum Reden" ("Your place to talk") – und fortan richtete die Gestaltung der Plattform sich nicht mehr spezifisch an Gamer.

Diese Marketinginitiative scheint aufgegangen zu sein: Im Oktober hatte Discord geschätzte 6,7 Millionen Nutzer, im Februar kurz vor Pandemiebeginn waren es noch 1,4 Millionen. Doch während die Communities (dort auch "Server" genannt) von Discord sehr klein und unschuldig sein können (etwa Kindergruppen), sammelten sich darunter auch Rechtsextremisten, um die Kundgebung von White Surpremacists in Charlottesville oder zuletzt auch den Sturm auf das US-Kapitol mitzuorganisieren.

Eine spezielle Gruppenkultur

Sowohl in Discord als auch Clubhouse hat die jeweilige Gruppenkultur – seien es nerdy Spieler bei Discord oder übermütige Risikokapitalgeber bei Clubhouse – Gruppendynamiken offenbart, die im besten Fall abstoßend und im schlimmsten fanatisch sind. Trotz allem versprühen die Plattformen einen Charme: Es bleibt reizvoll, zu sprechen und scheinbar wirklich gehört zu werden. Schließlich symbolisiert genau dies das Grundversprechen der sozialen Medien: die Demokratisierung der Rede.

Die Intimität der Stimme macht soziale Medien, die auf Audio basieren, besonders ansprechend in Zeiten von Social Distancing und Isolation. Jimi Tele, der CEO von Chekmate, einer "textfreien" Dating-App, die Nutzer durch Stimme und Video verbindet, sagt, dass er eine App bieten wolle, die "catfish-proof" sei – was so viel heißt wie "Lockvogel-sicher" und einen Schutz vor der Praxis meint, andere mit einem Fake-Profil in die Irre zu führen.

"Wir wollten uns abgrenzen von der Anonymität und dem spielerischen Typus, den Textnachrichten ermöglichen. Stattdessen wollten wir eine Community kreieren, in der Nutzer dazu ermutigt werden, urteilsfrei sie selbst sein zu können", sagt Tele. Die App-User beginnen mit Sprachnotizen, die durchschnittlich fünf Sekunden dauern und dann zunehmend länger werden. Obwohl Chekmate eine Video-Option bereithält, erklärt Tele, dass die einigen tausend Nutzer der App es sehr eindeutig bevorzugen, ihre Stimme zu verwenden. "Das wird als weniger einschüchternd wahrgenommen [als Videobotschaften]", sagt er.

Gemeinsam einsam

Dieser Anspruch an Intimität und Authentizität war auch der Grund für Gilles Poupardin, Cappuccino zu gründen. Er fragte sich, warum es noch keinen Dienstleister gab, der Sprachnachrichten in eine einzelne, herunterladbare Datei zusammenführte. "Jeder hat Gruppenchats mit Freunden", sagt er. "Aber wie wäre es, wenn man seine Freunde hören könnte? Das wäre sehr mächtig."

Natalie Mohan kann das aus privater Erfahrung bestätigen: Sie und ihre Freunde gruppierten sich erst beim Facebook Messenger, versuchten es anfangs der Pandemie dann bei Zoom und wechselten schließlich zu Cappuccino. Denn in Gesprächen innerhalb einer ausgewachsenen Videokonferenz ging es stets um die Höhepunkte vergangener Erlebnisse. "Da gibt es keine Zeit für Details", bemängelt sie.

Die täglichen Cappucino-"Bohnen", wie sich die zusammengefügten Einzelaufnahmen nennen, erlauben es dem Freundeskreis hingegen auf sehr intime Weise immer auf dem neuesten Stand zu bleiben. Da erzähle man auch schon mal, wie es sich anfühlt, nach einem Umzug den Kaffee in der neuen Küche zu kochen. "Sowas würde ich in einem Zoom Call nie erfahren, weil's so nebensächlich ist."

Auch Twitter setzt auf Audio

Auch die bestehenden Big Player sozialer Medien bewegen sich auf das neue Terrain. Im Sommer 2020 erweiterte Twitter den Dienst um Sprach-Tweets, mittels derer Nutzer ihre Stimme gleich in die Timeline einbringen konnten. Und im Dezember veröffentlichte es die Beta-Version eines Features namens "Space", das Gastgeber-moderierte Audio-Unterhaltungen zwischen zwei oder mehreren Nutzern live ermöglicht. "Uns hat interessiert, ob es Audio gelingt, der öffentlichen Konversation eine weitere Ebene des Austausches hinzuzufügen", sagt Rémy Bourgoin, Senior Software Entwickler in Twitters Voice-Tweets- und Spaces-Team. Die Vision für Space sei laut Bourgoin ein Raum, der "so intim und angenehm ist wie eine gastfreundliche Dinnerparty." Man müsse nicht jeden kennen, um Spaß zu haben – aber es sollte sich gut anfühlen, am Tisch zu sitzen.

Manch einer mag bei der Vorstellung, dass ausgerechnet Twitter nun auf "angenehm" und "intim" setzt, ungläubig aufschnauben. Schließlich schaut das Unternehmen nicht gerade auf eine glänzende Erfolgsgeschichte zurück, wenn es darum geht, ein einladendes Online-Forum zu schaffen, das sensible Nutzer vor Beschimpfungen schützt. Bourgoin zufolge lässt das Entwickler-Team sich bewusst Zeit: Nur langsam wolle man Spaces über eine Beta-Version und eine kleine Nutzergruppe hinaus veröffentlichen, am Ende wolle man sogar Untertitel einbeziehen – das wäre eine barrierefreie Funktion von Audionetzwerken, die noch selten ist. "Jeder, der Spaces nutzt, kann aktuell die Dinge melden, die dort passieren", sagt Bourgoin. "Diese Meldungen werden von unserem Team durchgesehen, die dann entscheiden, ob Twitters Nutzungsbedingungen verletzt wurden."

Damit ist der kritische Punkt adressiert: Moderation. Inhalte in Audio-Formaten zu moderieren ist sehr viel schwieriger als in Textform. Automatisierte Moderatoren und Textdurchsuchungsfunktionen kamen mit einigem Erfolg zum Einsatz, doch menschliche Moderatoren können Nutzer, die sich nicht an die Regeln der Community halten, immer noch am effizientesten entfernen – und das ist notwendig, schließlich stellen die meistens eine Gefahr für andere dar. Auf Plattformen, bei denen Menschen jederzeit einfach sprechen können, führt genau jene Demokratisierung, die Audio so attraktiv macht, zu einer albtraumhaften Erschwerung der Moderation. "An dieser Stelle handelt es sich bei jeder user-generierten Plattform um eine große Herausforderung", so Austin Petersmith, der die Beta-Version von Capiche.fm im letzten Jahr veröffentlicht hat. Die Seite entstand aus einer Software Community, die ein bisschen einer Call-In-Radiosendung gleicht: Gastgeber rufen einander an, um die Show zu starten und laden Zuhörer ein, während sie "auf Sendung" sind.

Im Clubhouse wird's hässlich

Wie Clubhouse-Nutzer erfahren haben, können Räume, die ausschließlich über Audio funktionieren, schnell hässlich werden – ganz dem Wesen des Internets entsprechend. Menschen, die bereits darunter leiden, online diskriminiert zu werden – Angehörige von Minderheiten, Frauen oder Non-Binäre, Nicht-Weiße oder Jüngere – werden wohl eher nicht zu einem Ort übersiedeln, in dem sich Übergriffe schwerer kontrollieren lassen. Es gibt genug Anlass zu befürchten, dass die neueren, weniger regulierten Plattformen insbesondere entfremdete, rechtsextremistische Verschwörungsheoretiker und QAnon-Anhänger anziehen, die derweil ihre eigenen Podcast-Netzwerke gründen.

Und doch: Audio-basierte soziale Netzwerke scheinen etwas bieten zu können, was traditionellen, sozialen Medien fehlt. Einer der Vorteile ist die direkte Kontaktaufnahme in Form eines Sprach- oder Videoanrufs, allerdings zu den eigenen Bedingungen. Telefonate – und auch Zoom Calls – erfordern Planung. Doch Content für audio-basierte soziale Medien können überall kreiert und in einem eigenen Tempo verarbeitet werden, ganz anders als bei Benachrichtigungen, Mitteilungen und endlosem Feed-Scrollen.

"[Cappucino] involviert mich und zwingt mich dazu, genauer hinzuhören, wenn jemand etwas sagt. Ich mache sogar Notizen zu den Dingen, auf die ich reagieren möchte." Für Mohan ist das Abspielen der Aufnahmen ihres engen, fünfköpfigen Freundeskreises zu einem geschätzten Ritual geworden, das ihr erlaubt im selbstgewählten Tempo auf dem neuesten Stand zu bleiben. "Jeden Tag, inmitten meines Arbeitstages, nehme ich mein Cappucino auf", sagt sie und meint damit die Aufnahme innerhalb der App. "Das fühlt sich sehr persönlich an. Ich höre alle ihre Stimmen und habe den Eindruck, dass ich weiß, was bei ihnen [meinen Freunden] tagtäglich so los ist." (bsc)