Bytebot: Open-Source AI Desktop Agent
Eine KI, die ihren eigenen Computer hat, um Aufgaben für Sie zu erledigen
https://github.com/user-attachments/assets/f271282a-27a3-43f3-9b99-b34007fdd169
https://github.com/user-attachments/assets/72a43cf2-bd87-44c5-a582-e7cbe176f37f
Was ist ein Desktop-Agent?
Ein Desktop-Agent ist eine KI, die ihren eigenen Computer besitzt. Im Gegensatz zu reinen Browser-Agenten oder traditionellen RPA-Tools verfügt Bytebot über einen vollständigen virtuellen Desktop, auf dem es kann:
- Jede Anwendung verwenden (Browser, E-Mail-Clients, Office-Tools, IDEs)
- Dateien mit eigenem Dateisystem herunterladen und organisieren
- Sich mit Passwort-Managern auf Websites und in Anwendungen anmelden
- Dokumente, PDFs und Tabellenkalkulationen lesen und verarbeiten
- Komplexe mehrstufige Workflows über verschiedene Programme hinweg abschließen
Stellen Sie es sich als einen virtuellen Mitarbeiter mit eigenem Computer vor, der den Bildschirm sehen, die Maus bewegen, auf der Tastatur tippen und Aufgaben genau wie ein Mensch erledigen kann.
Warum sollte KI einen eigenen Computer erhalten?
Wenn KI Zugriff auf eine vollständige Desktop-Umgebung hat, erschließt sie Fähigkeiten, die mit reinen Browser-Agenten oder API-Integrationen nicht möglich sind:
Vollständige Aufgabenautonomie
Geben Sie Bytebot eine Aufgabe wie "Laden Sie alle Rechnungen von unseren Anbieterportalen herunter und organisieren Sie sie in einem Ordner", und es wird:
- Den Browser öffnen
- Zu jedem Portal navigieren
- Authentifizierung handhaben (einschließlich 2FA über Passwort-Manager)
- Die Dateien auf sein lokales Dateisystem herunterladen
- Sie in einem Ordner organisieren
Dokumente verarbeiten
Laden Sie Dateien direkt auf den Desktop von Bytebot hoch, und es kann:
- Ganze PDFs in seinen Kontext einlesen
- Daten aus komplexen Dokumenten extrahieren
- Informationen über mehrere Dateien hinweg abgleichen
- Basierend auf Analysen neue Dokumente erstellen
- Formate verarbeiten, auf die APIs nicht zugreifen können
Echte Anwendungen nutzen
Bytebot ist nicht auf Web-Oberflächen beschränkt. Es kann:
- Desktop-Anwendungen wie Texteditoren, VS Code oder E-Mail-Clients verwenden
- Skripte und Kommandozeilen-Tools ausführen
- Bei Bedarf neue Software installieren
- Anwendungen für bestimmte Workflows konfigurieren
Schnellstart
In 2 Minuten bereitstellen
Option 1: Railway (Einfachste)
Einfach klicken und Ihren KI-Anbieter-API-Schlüssel hinzufügen.
Option 2: Docker Compose
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# Add your AI provider key (choose one)
echo "ANTHROPIC_API_KEY=sk-ant-..." > docker/.env
# Or: echo "OPENAI_API_KEY=sk-..." > docker/.env
# Or: echo "GEMINI_API_KEY=..." > docker/.env
docker-compose -f docker/docker-compose.yml up -d
# Open http://localhost:9992
Vollständige Bereitstellungsanleitung →
So funktioniert es
Bytebot besteht aus vier integrierten Komponenten:
- Virtueller Desktop: Eine vollständige Ubuntu-Linux-Umgebung mit vorinstallierten Anwendungen
- KI-Agent: Versteht Ihre Aufgaben und steuert den Desktop, um sie zu erledigen
- Aufgabenoberfläche: Web-UI, in der Sie Aufgaben erstellen und Bytebot bei der Arbeit beobachten
- APIs: REST-Endpunkte für die programmatische Erstellung von Aufgaben und Desktop-Steuerung
Hauptmerkmale
- Aufgaben in natürlicher Sprache: Beschreiben Sie einfach, was erledigt werden muss
- Datei-Uploads: Laden Sie Dateien für die Verarbeitung durch Bytebot hoch
- Live-Desktop-Ansicht: Beobachten Sie Bytebot in Echtzeit bei der Arbeit
- Übernahmemodus: Übernehmen Sie die Kontrolle, wenn Sie helfen oder etwas konfigurieren müssen
- Passwort-Manager-Unterstützung: Installieren Sie 1Password, Bitwarden usw. für automatische Authentifizierung
- Persistente Umgebung: Installierte Programme bleiben für zukünftige Aufgaben verfügbar
Beispielaufgaben
Grundlegende Beispiele
"Go to Wikipedia and create a summary of quantum computing"
"Research flights from NYC to London and create a comparison document"
"Take screenshots of the top 5 news websites"
Dokumentenverarbeitung
"Read the uploaded contracts.pdf and extract all payment terms and deadlines"
"Process these 5 invoice PDFs and create a summary report"
"Download and analyze the latest financial report and answer: What were the key risks mentioned?"
Multi-Anwendungs-Workflows
"Download last month's bank statements from our three banks and consolidate them"
"Check all our vendor portals for new invoices and create a summary report"
"Log into our CRM, export the customer list, and update records in the ERP system"
Programmatische Steuerung
Aufgaben über API erstellen
import requests
# Simple task
response = requests.post('http://localhost:9991/tasks', json={
'description': 'Download the latest sales report and create a summary'
})
# Task with file upload
files = {'files': open('contracts.pdf', 'rb')}
response = requests.post('http://localhost:9991/tasks',
data={'description': 'Review these contracts for important dates'},
files=files
)
Direkte Desktop-Steuerung
# Take a screenshot
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "screenshot"}'
# Click at specific coordinates
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "click_mouse", "coordinate": [500, 300]}'
Vollständige API-Dokumentation →
Einrichten Ihres Desktop-Agenten
1. Bytebot bereitstellen
Verwenden Sie eine der oben genannten Bereitstellungsmethoden, um Bytebot zum Laufen zu bringen.
2. Desktop konfigurieren
Verwenden Sie den Desktop-Tab in der Benutzeroberfläche, um:
- Zusätzliche benötigte Programme zu installieren
- Passwort-Manager für die Authentifizierung einzurichten
- Anwendungen nach Ihren Präferenzen zu konfigurieren
- Sich auf Websites anzumelden, auf die Bytebot zugreifen soll
3. Aufgaben vergeben
Erstellen Sie Aufgaben in natürlicher Sprache und beobachten Sie, wie Bytebot sie mit dem konfigurierten Desktop erledigt.
Anwendungsfälle
Geschäftsprozessautomatisierung
- Rechnungsverarbeitung und Datenextraktion
- Datensynchronisierung über mehrere Systeme hinweg
- Berichterstellung aus mehreren Quellen
- Compliance-Prüfung plattformübergreifend
Entwicklung & Testen
- Automatisierte UI-Tests
- Cross-Browser-Kompatibilitätsprüfungen
- Dokumentenerstellung mit Screenshots
- Code-Bereitstellungsverifizierung
Forschung & Analyse
- Wettbewerbsanalyse über Websites hinweg
- Datenerfassung aus mehreren Quellen
- Dokumentenanalyse und -zusammenfassung
- Marktforschungszusammenstellung
Architektur
Bytebot ist aufgebaut mit:
- Desktop: Ubuntu 22.04 mit XFCE, Firefox, VS Code und anderen Tools
- Agent: NestJS-Dienst, der KI- und Desktop-Aktionen koordiniert
- UI: Next.js-Anwendung für die Aufgabenverwaltung
- KI-Unterstützung: Arbeitet mit Anthropic Claude, OpenAI GPT, Google Gemini
- Bereitstellung: Docker-Container für einfaches Self-Hosting
Warum Self-Hosting?
- Datenschutz: Alles läuft auf Ihrer Infrastruktur
- Volle Kontrolle: Passen Sie die Desktop-Umgebung nach Bedarf an
- Keine Grenzen: Verwenden Sie Ihre eigenen KI-API-Schlüssel ohne Plattformbeschränkungen
- Flexibilität: Installieren Sie jede Software, greifen Sie auf alle Systeme zu
Erweiterte Funktionen
Mehrere KI-Anbieter
Nutzen Sie jeden KI-Anbieter über unsere LiteLLM-Integration:
- Azure OpenAI
- AWS Bedrock
- Lokale Modelle via Ollama
- 100+ weitere Anbieter
Unternehmensbereitstellung
Bereitstellung auf Kubernetes mit Helm:
# Clone the repository
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# Install with Helm
helm install bytebot ./helm \
--set agent.env.ANTHROPIC_API_KEY=sk-ant-...
Leitfaden zur Unternehmensbereitstellung →
Community & Support
- Discord: Treten Sie unserer Community bei für Hilfe und Diskussionen
- Dokumentation: Umfassende Anleitungen unter docs.bytebot.ai
- GitHub Issues: Melden Sie Fehler und fordern Sie Funktionen an
Mitwirken
Wir freuen uns über Beiträge! Egal ob:
- 🐛 Fehlerbehebungen
- ✨ Neue Funktionen
- 📚 Verbesserungen der Dokumentation
- 🌐 Übersetzungen
Bitte:
- Prüfen Sie zuerst bestehende Issues
- Öffnen Sie ein Issue, um größere Änderungen zu besprechen
- Reichen Sie PRs mit klaren Beschreibungen ein
- Treten Sie unserem Discord bei, um Ideen zu diskutieren
Lizenz
Bytebot ist Open Source unter der Apache 2.0 Lizenz.
Geben Sie Ihrer KI ihren eigenen Computer. Sehen Sie, was sie kann.
Erstellt von Tantl Labs und der Open-Source-Community