Bytebot: Open-Source AI Desktop Agent
Искусственный интеллект с собственным компьютером для выполнения ваших задач
https://github.com/user-attachments/assets/f271282a-27a3-43f3-9b99-b34007fdd169
https://github.com/user-attachments/assets/72a43cf2-bd87-44c5-a582-e7cbe176f37f
Что такое Desktop Agent?
Desktop Agent — это ИИ, у которого есть собственный компьютер. В отличие от агентов, работающих только в браузере, или традиционных инструментов RPA, Bytebot поставляется с полноценным виртуальным рабочим столом, где он может:
- Использовать любые приложения (браузеры, почтовые клиенты, офисные инструменты, IDE)
- Скачивать и организовывать файлы с собственной файловой системой
- Входить на веб-сайты и в приложения с помощью менеджеров паролей
- Читать и обрабатывать документы, PDF-файлы и электронные таблицы
- Выполнять сложные многошаговые рабочие процессы в различных программах
Представьте себе виртуального сотрудника с собственным компьютером, который может видеть экран, двигать мышью, печатать на клавиатуре и выполнять задачи так же, как это сделал бы человек.
Зачем ИИ нужен собственный компьютер?
Когда ИИ получает доступ к полноценной рабочей среде, это открывает возможности, недоступные для агентов, работающих только в браузере, или API-интеграций:
Полная автономия задач
Дайте Bytebot задание, например: «Скачай все счета из порталов наших поставщиков и организуй их в папку», и он:
- Откроет браузер
- Перейдет на каждый портал
- Обработает аутентификацию (включая 2FA через менеджеры паролей)
- Скачает файлы в свою локальную файловую систему
- Организует их в папку
Обработка документов
Загружайте файлы прямо на рабочий стол Bytebot, и он сможет:
- Читать целые PDF-файлы в свой контекст
- Извлекать данные из сложных документов
- Сопоставлять информацию из нескольких файлов
- Создавать новые документы на основе анализа
- Работать с форматами, недоступными для API
Использование реальных приложений
Bytebot не ограничен веб-интерфейсами. Он может:
- Использовать настольные приложения, такие как текстовые редакторы, VS Code или почтовые клиенты
- Запускать скрипты и инструменты командной строки
- Устанавливать новое программное обеспечение по мере необходимости
- Настраивать приложения для конкретных рабочих процессов
Быстрый старт
Развертывание за 2 минуты
Вариант 1: Railway (Самый простой)
Просто нажмите и добавьте свой API-ключ провайдера ИИ.
Вариант 2: Docker Compose
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# Add your AI provider key (choose one)
echo "ANTHROPIC_API_KEY=sk-ant-..." > docker/.env
# Or: echo "OPENAI_API_KEY=sk-..." > docker/.env
# Or: echo "GEMINI_API_KEY=..." > docker/.env
docker-compose -f docker/docker-compose.yml up -d
# Open http://localhost:9992
Полное руководство по развертыванию →
Как это работает
Bytebot состоит из четырех интегрированных компонентов:
- Виртуальный рабочий стол: Полноценная среда Ubuntu Linux с предустановленными приложениями
- ИИ-агент: Понимает ваши задачи и управляет рабочим столом для их выполнения
- Интерфейс задач: Веб-интерфейс, где вы создаете задачи и наблюдаете за работой Bytebot
- API: REST-эндпоинты для программного создания задач и управления рабочим столом
Ключевые возможности
- Задачи на естественном языке: Просто опишите, что нужно сделать
- Загрузка файлов: Перетаскивайте файлы в задачи для обработки Bytebot
- Прямая трансляция рабочего стола: Наблюдайте за работой Bytebot в реальном времени
- Режим перехвата управления: Возьмите контроль, когда нужно помочь или что-то настроить
- Поддержка менеджеров паролей: Установите 1Password, Bitwarden и т.д. для автоматической аутентификации
- Постоянная среда: Устанавливайте программы, и они остаются доступными для будущих задач
Примеры задач
Базовые примеры
"Go to Wikipedia and create a summary of quantum computing"
"Research flights from NYC to London and create a comparison document"
"Take screenshots of the top 5 news websites"
Обработка документов
"Read the uploaded contracts.pdf and extract all payment terms and deadlines"
"Process these 5 invoice PDFs and create a summary report"
"Download and analyze the latest financial report and answer: What were the key risks mentioned?"
Многоприкладные рабочие процессы
"Download last month's bank statements from our three banks and consolidate them"
"Check all our vendor portals for new invoices and create a summary report"
"Log into our CRM, export the customer list, and update records in the ERP system"
Программное управление
Создание задач через API
import requests
# Simple task
response = requests.post('http://localhost:9991/tasks', json={
'description': 'Download the latest sales report and create a summary'
})
# Task with file upload
files = {'files': open('contracts.pdf', 'rb')}
response = requests.post('http://localhost:9991/tasks',
data={'description': 'Review these contracts for important dates'},
files=files
)
Прямое управление рабочим столом
# Take a screenshot
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "screenshot"}'
# Click at specific coordinates
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "click_mouse", "coordinate": [500, 300]}'
Настройка вашего агента рабочего стола
1. Разверните Bytebot
Используйте один из методов развертывания выше, чтобы запустить Bytebot.
2. Настройте рабочий стол
Используйте вкладку Desktop в интерфейсе для:
- Установки дополнительных необходимых программ
- Настройки менеджеров паролей для аутентификации
- Конфигурации приложений согласно вашим предпочтениям
- Входа на веб-сайты, к которым должен иметь доступ Bytebot
3. Начните ставить задачи
Создавайте задачи на естественном языке и наблюдайте, как Bytebot выполняет их с помощью настроенного рабочего стола.
Варианты использования
Автоматизация бизнес-процессов
- Обработка счетов-фактур и извлечение данных
- Синхронизация данных между несколькими системами
- Генерация отчетов из нескольких источников
- Проверка соответствия требованиям на различных платформах
Разработка и тестирование
- Автоматизированное тестирование пользовательского интерфейса
- Проверки кросс-браузерной совместимости
- Генерация документации со скриншотами
- Проверка развертывания кода
Исследования и анализ
- Сравнительный анализ на различных веб-сайтах
- Сбор данных из нескольких источников
- Анализ и суммаризация документов
- Компиляция маркетинговых исследований
Архитектура
Bytebot построен на:
- Рабочий стол: Ubuntu 22.04 с XFCE, Firefox, VS Code и другими инструментами
- Агент: Сервис NestJS, координирующий действия ИИ и рабочего стола
- Интерфейс: Приложение Next.js для управления задачами
- Поддержка ИИ: Работает с Anthropic Claude, OpenAI GPT, Google Gemini
- Развертывание: Docker-контейнеры для простого самостоятельного хостинга
Зачем самостоятельно размещать?
- Конфиденциальность данных: Всё работает на вашей инфраструктуре
- Полный контроль: Настраивайте рабочую среду по необходимости
- Без ограничений: Используйте собственные API-ключи ИИ без платформенных ограничений
- Гибкость: Устанавливайте любое ПО, получайте доступ к любым системам
Расширенные возможности
Множественные провайдеры ИИ
Используйте любого провайдера ИИ через нашу интеграцию LiteLLM:
- Azure OpenAI
- AWS Bedrock
- Локальные модели через Ollama
- 100+ других провайдеров
Корпоративное развертывание
Развертывание на Kubernetes с помощью Helm:
# Clone the repository
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# Install with Helm
helm install bytebot ./helm \
--set agent.env.ANTHROPIC_API_KEY=sk-ant-...
Руководство по корпоративному развертыванию →
Сообщество и поддержка
- Discord: Присоединяйтесь к нашему сообществу для помощи и обсуждений
- Документация: Полные руководства на docs.bytebot.ai
- GitHub Issues: Сообщайте об ошибках и предлагайте функции
Вклад в проект
Мы приветствуем вклад! Будь то:
- 🐛 Исправления ошибок
- ✨ Новые функции
- 📚 Улучшения документации
- 🌐 Переводы
Пожалуйста:
- Сначала проверьте существующие issues
- Создайте issue для обсуждения крупных изменений
- Отправляйте PR с четкими описаниями
- Присоединяйтесь к нашему Discord для обсуждения идей
Лицензия
Bytebot имеет открытый исходный код под лицензией Apache 2.0.
Дайте вашему ИИ собственный компьютер. Посмотрите, на что он способен.
Создано Tantl Labs и сообществом открытого исходного кода