Claude Cowork — Live-Demo — 18. Maerz 2026

Bumblebee kann
jetzt sprechen.

Ein eingesprochener Satz auf dem Handy. Kein Link. Kein Videotitel. Nur die Erinnerung an eine Filmszene — und eine KI, die versteht, was gemeint ist.

PC-Fernsteuerung durch natuerliche Sprache
Die ganze Geschichte

18. Maerz 2026, kurz vor sechs am Abend. Auf dem Bildschirm die Claude Desktop App, daneben Chrome mit zu vielen Tabs. Auf dem Handy die Claude Mobile App, Cowork-Tab geoeffnet. Zwei Geraete, eine Verbindung. Was als kurzer Test beginnt, wird innerhalb von zwanzig Minuten zur unfreiwilligen Demonstration dessen, was passiert, wenn man einer KI die Kontrolle ueber den eigenen Desktop gibt — und ihr per Diktierfunktion sagt, was sie tun soll.

Das Ergebnis: Bumblebee spricht. Lofi Girl laeuft. Ein Blog Post deployed sich selbst. Und diese Seite hier? Wurde von derselben KI gebaut, die sie dokumentiert.

Das Setup

Schritt 01

Zwei Geraete. Eine Verbindung.

Die Kopplung dauert unter dreissig Sekunden. Claude Desktop App oeffnen, den Cowork-Tab waehlen, Smartphone verbinden. Kein QR-Code-Gefummel, kein Port-Forwarding, keine VPN-Konfiguration. Die App zeigt eine schlichte Bestaetigung: "Dein Telefon und dein Desktop sind jetzt gekoppelt."

Ab diesem Moment ist das Smartphone eine Fernbedienung. Nicht fuer Mausbewegungen oder Tastatureingaben — sondern fuer Intentionen. Man sagt, was passieren soll. Claude entscheidet, wie.

Cowork Setup am Desktop — Chat, Cowork, Code Tabs Telefon und Desktop erfolgreich gekoppelt

Links: Desktop Cowork-Tab | Rechts: Kopplung bestaetigt auf dem Smartphone

Erster Test

Schritt 02

Der Satz, den kein Parser ueberleben wuerde.

Prompt vom Handy (Diktierfunktion)"Hey, kannst du meinen PC bitte sagen, dass der Chrome oeffnen soll und dann WhatsApp oeffnen soll beziehungsweise auf Google gehen soll und WhatsApp Web oeffnen soll und davon die Webversion installieren soll und dass per Claude Cowork"

Lest den Satz nochmal. Verschachtelt, redundant, drei Absichten ineinander gefaltet, eingereicht per Diktierfunktion ohne Satzzeichen. Jeder regelbasierte Chatbot wuerde hier aufgeben. Claude nicht.

Die KI extrahiert die Kernintention — Chrome oeffnen, WhatsApp Web ansteuern — und beginnt sofort mit der Ausfuehrung. Dass es dabei nicht reibungslos laeuft, macht die Demo erst richtig interessant.

WhatsApp Prompt — erster Cowork-Befehl Chrome Extension erfordert manuellen Connect
Der entscheidende Moment: Die Chrome-Extension blockiert die Navigation mit einer Sicherheitsabfrage. Ein klassischer Abbruch-Punkt. Aber Claude reagiert nicht mit einer Fehlermeldung — sondern mit zwei konkreten Loesungswegen. Entweder die Bestaetigung klicken, oder die URL manuell eingeben. Eigenstaendige Problemloesung, nicht Fehlermeldung.
WhatsApp Navigation blockiert — Claude bietet Alternativen Desktop: Chrome mit WhatsApp Web Tab geoeffnet

Links: Eigenstaendige Problemloesung | Rechts: Ergebnis auf dem Desktop

Der Moment

Schritt 03 — Bumblebee

Bumblebee kann jetzt sprechen.

Prompt vom Handy (Diktierfunktion)"Geh auf youtube.com und spiel ueber Chrome Web von Claude das Video von Transformers ab, wo der Charakter Bumblebee sprechen kann und sagt 'ich bin Bumblebee'"

Keine URL. Kein Videotitel. Nicht mal der richtige Filmname. Nur eine Erinnerungsfetzen an eine Szene — eingesprochen in ein Handy, waehrend man auf der Couch sitzt.

Was hier passiert, ist mehr als Sprachverstaendnis. Es ist semantische Rekonstruktion. Claude muss aus der Beschreibung "Bumblebee kann sprechen und sagt ich bin Bumblebee" ableiten, dass es sich um eine spezifische Szene aus Transformers 5: The Last Knight handelt, in der der Charakter zum ersten Mal mit eigener Stimme spricht. Dann muss die KI dieses Video auf YouTube finden — unter Millionen von Transformers-Clips, Fan-Edits, Reaction-Videos und Trailern.

Claude findet es"Laeuft! Das Video 'Bumblebee's Stimme German/Deutsch — Transformers 5 The Last Knight' wird gerade in Chrome abgespielt. Das ist die Szene wo Bumblebee seine Stimme zurueckbekommt und auf Deutsch spricht. Schau in deinen Chrome-Browser."

Die exakte Szene. Deutsche Synchronisation. Abgespielt im Chrome-Browser auf dem Desktop — ausgeloest durch einen eingesprochenen Satz auf dem Smartphone. Kein Mensch hat eine Tastatur beruehrt.

YouTube Bumblebee Prompt per Diktierfunktion Bumblebee Video gefunden und abgespielt

Per Diktierfunktion eingesprochen — Claude findet die exakte Szene

Was hier technisch passiert: Natural Language Understanding trifft auf kontextuelles Video-Retrieval. Die KI muss Filmwissen, Szenenbeschreibung und YouTube-Suchalgorithmen gleichzeitig navigieren. Das ist kein Keyword-Matching — das ist semantische Suche auf einem Niveau, das vor zwei Jahren Science Fiction war.
Schritt 04

Zwei Woerter. Ein Livestream.

Prompt vom Handy"Jetzt mach lofi musik an" — "Ueber youtube"

Fuenf Woerter, aufgeteilt auf zwei Nachrichten. Claude versteht den Kontext aus dem vorherigen YouTube-Task, sucht eigenstaendig nach Lofi-Musik und startet den Lofi Girl Livestream — den mit aktuell 28.000 Zuschauern.

Der Moment, in dem das Lofi Girl im Chrome-Tab auftaucht, fuehlt sich seltsam normal an. Wie einem Mitbewohner sagen: Mach mal Musik an. Nur dass der Mitbewohner eine KI ist, die auf einem anderen Geraet laeuft.

Claude antwortet"Lofi Girl Livestream laeuft in deinem Chrome! Das klassische Lofi Hip Hop Radio mit aktuell knapp 28.000 Zuschauern. Viel Spass beim Chillen."
Lofi angefragt nach Bumblebee Lofi Girl Livestream laeuft

Es wird meta

Schritt 05

Die KI, die sich selbst dokumentiert.

Prompt vom Handy"Bitte erstell einem Blog Post darueber was ich gerade gemacht habe und pack den Artikel xy online, gib mir einfach Bescheid wenn er pushed ist" — "Github und Vercel deployment"

An diesem Punkt wird es rekursiv. Claude Cowork bekommt den Auftrag, einen Blog Post ueber genau das zu schreiben, was gerade passiert ist. Die KI soll ihre eigene Demo dokumentieren, den Artikel bauen, auf GitHub pushen und ueber Vercel deployen. Bescheid geben, wenn fertig.

Claude uebernimmt"Artikel wird gerade geschrieben und gebaut. Ich geb dir Bescheid sobald er auf GitHub gepusht und ueber Vercel deployed ist."

Gleichzeitig — in einem parallelen Chat auf demselben Handy — laeuft Claude Opus 4.6 mit Extended Thinking. Dort werden die Screenshots sortiert, der Entwurf geschrieben, die Subpage gebaut und gepusht. Zwei Claude-Instanzen, zwei Aufgaben, ein Handy.

Blog Post per Cowork beauftragt Claude baut den Artikel und deployed

Claude dokumentiert Claude.

Waehrend Cowork den Desktop fernsteuert, baut Opus 4.6 in einem parallelen Chat diese Seite — sortiert Screenshots, schreibt Copy, pusht auf GitHub, deployed auf Vercel. Zwei Instanzen. Ein Handy. Null Tastatur.

Opus erstellt den Entwurf Gepusht und deployed auf Vercel

Die Seite, die du gerade liest, wurde von der KI gebaut, die sie dokumentiert.

Was dahinter steckt

Was diese Demo zeigt, ist kein parlor trick. Es ist die Konvergenz von drei Faehigkeiten, die einzeln beeindruckend und zusammen transformativ sind.

Erstens: Robustes Natural Language Understanding. Die Prompts in dieser Demo sind absichtlich schlecht. Verschachtelt, redundant, ohne Satzzeichen, per Diktierfunktion eingesprochen. Claude arbeitet hier nicht mit bereinigtem Input — sondern mit dem, was Menschen tatsaechlich sagen, wenn sie nicht darueber nachdenken, wie sie es sagen. Das ist der Unterschied zwischen einem Sprachmodell, das Befehle ausfuehrt, und einem, das Intentionen versteht.

Zweitens: Autonome Problemloesung. Die Chrome-Extension blockiert die Navigation. In jedem klassischen Automatisierungs-Tool waere das ein Fehler-Exit. Claude erkennt die Blockade, analysiert die Ursache und schlaegt zwei Loesungswege vor — ohne jemals gefragt worden zu sein, was bei einem Fehler passieren soll. Das ist nicht Scripting. Das ist Reasoning unter Unsicherheit.

Drittens: Semantisches Retrieval. "Das Video wo Bumblebee sprechen kann" ist keine Suchanfrage. Es ist eine Erinnerung. Claude muss diese Erinnerung in Filmwissen uebersetzen, daraus eine YouTube-Suchanfrage konstruieren, die Ergebnisse filtern und das richtige Video identifizieren. Das funktioniert, weil das Modell nicht nach Keywords sucht — sondern nach Bedeutung.

Die eigentliche Innovation ist nicht die Fernsteuerung. Fernsteuerung gibt es seit TeamViewer. Die Innovation ist, dass die Steuerungssprache menschliche Umgangssprache ist — mit all ihren Unschaerfen, Redundanzen und impliziten Annahmen. Claude Cowork schliesst die Luecke zwischen dem, was Menschen sagen wollen, und dem, was Computer ausfuehren koennen.

Was das beweist

01

Diktierfunktion genuegt

Kein Tippen. Eingesprochene Umgangssprache reicht. Claude versteht Intentionen hinter verschachtelten, unstrukturierten Saetzen.

02

Kontextuelles Suchen

Aus einer vagen Filmerinnerung wird der exakte YouTube-Clip. Semantisches Verstaendnis statt Keyword-Matching.

03

Autonome Problemloesung

Blockiert? Claude bricht nicht ab. Die KI analysiert, schlaegt Alternativen vor, wartet auf Bestaetigung und faehrt fort.

04

Echte Desktop-Kontrolle

Chrome oeffnen, Tabs navigieren, Videos abspielen, Livestreams starten — live auf dem Rechner ausgefuehrt, nicht simuliert.

Claude Cowork Diktierfunktion Chrome Extension Opus 4.6 Vercel Deploy GitHub Push

Bumblebee kann jetzt sprechen. Und alles was es dafuer brauchte, war ein eingesprochener Satz auf dem Handy, eine KI die zuhort, und zwanzig Minuten auf der Couch. Keine URL. Kein Videotitel. Kein Tippen. Einfach sagen, was passieren soll.