Das Ende der Captchas – Agenten steuern Firefox per API wie ein Mensch

Ăśber eine neue API steuern KI-Agenten den Mozilla-Browser wie ein Mensch: Sie extrahieren Infos, fĂĽllen Formulare aus und erledigen komplexe Workflows.

vorlesen Druckansicht 33 Kommentare lesen
Ein Roboter sitzt am Computer und löst ein Captcha um seine "Menschlichkeit" zu beweisen

(Bild: c't/Ritsch+Renn)

Lesezeit: 1 Min.
close notice

This article is also available in English. It was translated with technical assistance and editorially reviewed before publication.

Mozilla hat die TABS-API fĂĽr Firefox angekĂĽndigt, ĂĽber die Agenten den Browser steuern: durch Seiten klicken, Inhalte extrahieren und in JSON oder Markdown wandeln, Fragen beantworten sowie Formulare ausfĂĽllen. Entwicklerinnen und Entwickler konzipieren darĂĽber agentische Workflows oder simulieren menschliche Seitenbesuche zu Testzwecken.

Die API erledigt Aufgaben, die die Developer in natürlicher Sprache stellen. Laut Webseite ist dafür kein eigenes LLM erforderlich, allerdings ist der Dienst bis auf ein kleines Freivolumen kostenpflichtig. Für Interessenten steht derzeit eine Warteliste offen, wobei Mozilla noch keine Preise veröffentlicht hat; das Handling von Captchas und Proxies gibt es jedenfalls nur im kostenpflichtigen Paket Pay-as-you-go.

Entwickler können in der TABS-API vier Endpunkte ansteuern:

  • /Extract (POST): Liefert den Inhalt von Webseiten in JSON, Markdown oder einem anderen gewĂĽnschten Format
  • /Generate (GET): Transformiert Inhalte, zum Beispiel von Blog-Eintrag in Social-Media-Post
  • /Automate (GET): Komplexe, interaktive und agentengesteuerte Aufgaben
  • /Research (POST): Kontextorientierte Websuche mit Antwort

Videos by heise

Mozilla betont, einen starken Fokus auf Datenminimierung und Sicherheit zu legen. Die API überträgt nur die nötigsten Daten per TLS Ende-zu-Ende verschlüsselt. Alle nicht mehr benötigten Daten löscht sie sofort.

Entwicklerinnen und Entwickler sprechen die TABS ĂĽber Curl an oder sie bedienen sich eines von Mozilla bereitgestellten SDKs fĂĽr TypeScript oder Python. Ein Beispiel fĂĽr TypeScript liefert die Dokumentation:

import { Tabstack } from '@tabstack/sdk';

const tabs = new Tabstack({
  apiKey: process.env.TABSTACK_API_KEY!
});

// Access generate methods
tabs.generate.json(url, schema, instructions, options);

(who)