Bytebot: Agente de Desktop de IA de Código Aberto
Uma IA que possui seu próprio computador para completar tarefas para você
https://github.com/user-attachments/assets/f271282a-27a3-43f3-9b99-b34007fdd169
https://github.com/user-attachments/assets/72a43cf2-bd87-44c5-a582-e7cbe176f37f
O que é um Agente de Desktop?
Um agente de desktop é uma IA que possui seu próprio computador. Diferente de agentes apenas para navegador ou ferramentas tradicionais de RPA, o Bytebot vem com uma área de trabalho virtual completa onde pode:
- Usar qualquer aplicativo (navegadores, clientes de email, ferramentas de escritório, IDEs)
- Baixar e organizar arquivos com seu próprio sistema de arquivos
- Fazer login em sites e aplicativos usando gerenciadores de senhas
- Ler e processar documentos, PDFs e planilhas
- Completar fluxos de trabalho complexos de múltiplas etapas entre diferentes programas
Imagine-o como um funcionário virtual com seu próprio computador, que pode ver a tela, mover o mouse, digitar no teclado e completar tarefas exatamente como um humano faria.
Por Que Dar à IA Seu Próprio Computador?
Quando a IA tem acesso a um ambiente de desktop completo, ela desbloqueia capacidades que não são possíveis com agentes apenas de navegador ou integrações de API:
Autonomia Total de Tarefas
Dê ao Bytebot uma tarefa como "Baixe todas as faturas dos nossos portais de fornecedores e organize-as em uma pasta" e ele irá:
- Abrir o navegador
- Navegar até cada portal
- Lidar com autenticação (incluindo 2FA via gerenciadores de senha)
- Baixar os arquivos para seu sistema de arquivos local
- Organizá-los em uma pasta
Processar Documentos
Faça upload de arquivos diretamente para o desktop do Bytebot e ele poderá:
- Ler PDFs inteiros em seu contexto
- Extrair dados de documentos complexos
- Cruzar informações entre vários arquivos
- Criar novos documentos com base em análises
- Lidar com formatos que APIs não conseguem acessar
Usar Aplicações Reais
O Bytebot não está limitado a interfaces web. Ele pode:
- Usar aplicações de desktop como editores de texto, VS Code ou clientes de e-mail
- Executar scripts e ferramentas de linha de comando
- Instalar novos softwares conforme necessário
- Configurar aplicações para fluxos de trabalho específicos
Início Rápido
Implantar em 2 Minutos
Basta clicar e adicionar sua chave de API do provedor de IA.
Opção 2: Docker Compose
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# Add your AI provider key (choose one)
echo "ANTHROPIC_API_KEY=sk-ant-..." > docker/.env
# Or: echo "OPENAI_API_KEY=sk-..." > docker/.env
# Or: echo "GEMINI_API_KEY=..." > docker/.env
docker-compose -f docker/docker-compose.yml up -d
# Open http://localhost:9992
Guia completo de implantação →
Como Funciona
O Bytebot consiste em quatro componentes integrados:
- Área de Trabalho Virtual: Um ambiente completo do Ubuntu Linux com aplicativos pré-instalados
- Agente de IA: Compreende suas tarefas e controla a área de trabalho para concluí-las
- Interface de Tarefas: Interface web onde você cria tarefas e observa o Bytebot trabalhar
- APIs: Endpoints REST para criação programática de tarefas e controle da área de trabalho
Principais Recursos
- Tarefas em Linguagem Natural: Basta descrever o que precisa ser feito
- Uploads de Arquivos: Solte arquivos nas tarefas para o Bytebot processar
- Visualização ao Vivo da Área de Trabalho: Assista o Bytebot trabalhar em tempo real
- Modo de Assunção de Controle: Assuma o controle quando precisar ajudar ou configurar algo
- Suporte a Gerenciadores de Senha: Instale 1Password, Bitwarden, etc. para autenticação automática
- Ambiente Persistente: Instale programas e eles permanecerão disponíveis para tarefas futuras
Exemplos de Tarefas
Exemplos Básicos
"Go to Wikipedia and create a summary of quantum computing"
"Research flights from NYC to London and create a comparison document"
"Take screenshots of the top 5 news websites"
Processamento de Documentos
"Read the uploaded contracts.pdf and extract all payment terms and deadlines"
"Process these 5 invoice PDFs and create a summary report"
"Download and analyze the latest financial report and answer: What were the key risks mentioned?"
Fluxos de Trabalho com Múltiplos Aplicativos
"Download last month's bank statements from our three banks and consolidate them"
"Check all our vendor portals for new invoices and create a summary report"
"Log into our CRM, export the customer list, and update records in the ERP system"
Controle Programático
Criar Tarefas via API
import requests
# Simple task
response = requests.post('http://localhost:9991/tasks', json={
'description': 'Download the latest sales report and create a summary'
})
# Task with file upload
files = {'files': open('contracts.pdf', 'rb')}
response = requests.post('http://localhost:9991/tasks',
data={'description': 'Review these contracts for important dates'},
files=files
)
Controle Direto da Área de Trabalho
# Take a screenshot
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "screenshot"}'
# Click at specific coordinates
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "click_mouse", "coordinate": [500, 300]}'
Documentação completa da API →
Configurando Seu Agente de Área de Trabalho
1. Implante o Bytebot
Utilize um dos métodos de implantação acima para colocar o Bytebot em funcionamento.
2. Configure o Desktop
Use a aba Desktop na interface do usuário para:
- Instalar programas adicionais de que necessita
- Configurar gestores de palavras-passe para autenticação
- Configurar aplicações de acordo com as suas preferências
- Iniciar sessão em websites que pretende que o Bytebot aceda
3. Comece a Atribuir Tarefas
Crie tarefas em linguagem natural e observe o Bytebot a concluí-las utilizando o desktop configurado.
Casos de Uso
Automação de Processos de Negócio
- Processamento de faturas e extração de dados
- Sincronização de dados em múltiplos sistemas
- Geração de relatórios a partir de múltiplas fontes
- Verificação de conformidade entre plataformas
Desenvolvimento & Testes
- Testes de UI automatizados
- Verificações de compatibilidade entre navegadores
- Geração de documentação com capturas de ecrã
- Verificação de implementação de código
Investigação & Análise
- Análise competitiva em vários websites
- Recolha de dados de múltiplas fontes
- Análise e resumo de documentos
- Compilação de investigação de mercado
Arquitetura
O Bytebot é construído com:
- Desktop: Ubuntu 22.04 com XFCE, Firefox, VS Code e outras ferramentas
- Agente: Serviço NestJS que coordena ações de IA e do desktop
- UI: Aplicação Next.js para gestão de tarefas
- Suporte de IA: Funciona com Anthropic Claude, OpenAI GPT, Google Gemini
- Implantação: Contentores Docker para fácil auto-hospedagem
Porquê Auto-Hospedar?
- Privacidade de Dados: Tudo é executado na sua infraestrutura
- Controlo Total: Personalize o ambiente de trabalho conforme necessário
- Sem Limites: Use as suas próprias chaves de API de IA sem restrições da plataforma
- Flexibilidade: Instale qualquer software, aceda a qualquer sistema
Funcionalidades Avançadas
Múltiplos Provedores de IA
Use qualquer provedor de IA através da nossa integração LiteLLM:
- Azure OpenAI
- AWS Bedrock
- Modelos locais via Ollama
- Mais de 100 outros provedores
Implementação Empresarial
Implemente em Kubernetes com Helm:
# Clone the repository
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# Install with Helm
helm install bytebot ./helm \
--set agent.env.ANTHROPIC_API_KEY=sk-ant-...
Guia de implementação empresarial →
Comunidade e Suporte
- Discord: Junte-se à nossa comunidade para ajuda e discussões
- Documentação: Guias abrangentes em docs.bytebot.ai
- Problemas no GitHub: Reporte erros e solicite funcionalidades
Contribuindo
Aceitamos contribuições! Seja:
- 🐛 Correções de erros
- ✨ Novas funcionalidades
- 📚 Melhorias na documentação
- 🌐 Traduções
Por favor:
- Verifique primeiro os problemas existentes
- Abra um problema para discutir alterações maiores
- Submeta PRs com descrições claras
- Junte-se ao nosso Discord para discutir ideias
Licença
O Bytebot é de código aberto sob a licença Apache 2.0.
Dê ao seu IA o seu próprio computador. Veja o que ele pode fazer.
Construído por Tantl Labs e a comunidade de código aberto