https://github.com/user-attachments/assets/f271282a-27a3-43f3-9b99-b34007fdd169
https://github.com/user-attachments/assets/72a43cf2-bd87-44c5-a582-e7cbe176f37f
데스크톱 에이전트란 무엇인가요?
데스크톱 에이전트는 자체 컴퓨터를 가진 AI입니다. 브라우저 전용 에이전트나 기존 RPA 도구와 달리, Bytebot은 완전한 가상 데스크톱을 제공하며 다음과 같은 작업을 수행할 수 있습니다:
- 모든 애플리케이션 사용 (브라우저, 이메일 클라이언트, 오피스 도구, IDE)
- 자체 파일 시스템으로 파일 다운로드 및 정리
- 패스워드 관리자를 사용하여 웹사이트 및 애플리케이션 로그인
- 문서, PDF, 스프레드시트 읽기 및 처리
- 다양한 프로그램 간의 복잡한 다단계 워크플로우 완료
가상 직원이 자신의 컴퓨터를 가지고 화면을 보고, 마우스를 움직이고, 키보드로 입력하며, 사람처럼 작업을 완료한다고 생각하세요.
AI에게 자체 컴퓨터를 제공하는 이유
AI가 완전한 데스크톱 환경에 접근할 수 있을 때, 브라우저 전용 에이전트나 API 통합으로는 불가능한 기능이 해제됩니다:
완전한 작업 자율성
Bytebot에게 "벤더 포털에서 모든 송장을 다운로드하여 폴더로 정리하라"와 같은 작업을 주면 다음과 같이 수행합니다:
- 브라우저 열기
- 각 포털로 이동
- 인증 처리 (비밀번호 관리자를 통한 2FA 포함)
- 파일을 로컬 파일 시스템에 다운로드
- 폴더로 정리
문서 처리
파일을 Bytebot의 데스크톱에 직접 업로드하면 다음과 같은 작업을 수행할 수 있습니다:
- 전체 PDF를 컨텍스트로 읽기
- 복잡한 문서에서 데이터 추출
- 여러 파일 간 정보 상호 참조
- 분석을 기반으로 새 문서 생성
- API로 접근할 수 없는 형식 처리
실제 애플리케이션 사용
Bytebot은 웹 인터페이스에만 국한되지 않습니다. 다음과 같은 작업을 수행할 수 있습니다:
- 텍스트 편집기, VS Code, 이메일 클라이언트와 같은 데스크톱 애플리케이션 사용
- 스크립트 및 명령줄 도구 실행
- 필요에 따라 새 소프트웨어 설치
- 특정 워크플로우를 위해 애플리케이션 구성
빠른 시작
2분 내 배포
그냥 클릭해서 AI 제공자 API 키를 추가하세요.
옵션 2: Docker Compose
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# Add your AI provider key (choose one)
echo "ANTHROPIC_API_KEY=sk-ant-..." > docker/.env
# Or: echo "OPENAI_API_KEY=sk-..." > docker/.env
# Or: echo "GEMINI_API_KEY=..." > docker/.env
docker-compose -f docker/docker-compose.yml up -d
# Open http://localhost:9992
작동 방식
Bytebot은 네 가지 통합 구성 요소로 이루어져 있습니다:
- 가상 데스크톱: 사전 설치된 애플리케이션이 포함된 완전한 Ubuntu Linux 환경
- AI 에이전트: 사용자의 작업을 이해하고 데스크톱을 제어하여 완료합니다
- 작업 인터페이스: 작업을 생성하고 Bytebot이 작업하는 것을 볼 수 있는 웹 UI
- API: 프로그래밍 방식으로 작업 생성 및 데스크톱 제어를 위한 REST 엔드포인트
주요 기능
- 자연어 작업: 필요한 작업을 간단히 설명하세요
- 파일 업로드: Bytebot이 처리할 파일을 작업에 드롭하세요
- 라이브 데스크톱 보기: Bytebot이 실시간으로 작업하는 것을 지켜보세요
- 인수 모드: 도움이 필요하거나 무언가를 구성해야 할 때 제어권을 가져가세요
- 비밀번호 관리자 지원: 1Password, Bitwarden 등을 설치하여 자동 인증 가능
- 지속적 환경: 프로그램을 설치하면 향후 작업에서도 계속 사용 가능
예제 작업
기본 예제
"Go to Wikipedia and create a summary of quantum computing"
"Research flights from NYC to London and create a comparison document"
"Take screenshots of the top 5 news websites"
문서 처리
"Read the uploaded contracts.pdf and extract all payment terms and deadlines"
"Process these 5 invoice PDFs and create a summary report"
"Download and analyze the latest financial report and answer: What were the key risks mentioned?"
다중 애플리케이션 워크플로우
"Download last month's bank statements from our three banks and consolidate them"
"Check all our vendor portals for new invoices and create a summary report"
"Log into our CRM, export the customer list, and update records in the ERP system"
프로그래밍 방식 제어
API를 통한 작업 생성
import requests
# Simple task
response = requests.post('http://localhost:9991/tasks', json={
'description': 'Download the latest sales report and create a summary'
})
# Task with file upload
files = {'files': open('contracts.pdf', 'rb')}
response = requests.post('http://localhost:9991/tasks',
data={'description': 'Review these contracts for important dates'},
files=files
)
직접 데스크톱 제어
# Take a screenshot
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "screenshot"}'
# Click at specific coordinates
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "click_mouse", "coordinate": [500, 300]}'
데스크톱 에이전트 설정
1. Bytebot 배포
위의 배포 방법 중 하나를 사용하여 Bytebot을 실행하세요.
2. 데스크톱 구성
UI의 Desktop 탭을 사용하여:
- 필요한 추가 프로그램 설치
- 인증을 위한 비밀번호 관리자 설정
- 선호도에 맞게 애플리케이션 구성
- Bytebot이 접근할 웹사이트에 로그인
3. 작업 시작하기
자연어로 작업을 생성하고 Bytebot이 구성된 데스크톱을 사용하여 작업을 완료하는 것을 지켜보세요.
사용 사례
비즈니스 프로세스 자동화
- 송장 처리 및 데이터 추출
- 다중 시스템 데이터 동기화
- 여러 소스의 보고서 생성
- 플랫폼 간 규정 준수 확인
개발 및 테스트
- 자동화된 UI 테스트
- 크로스 브라우저 호환성 확인
- 스크린샷이 포함된 문서 생성
- 코드 배포 검증
연구 및 분석
- 웹사이트 간 경쟁 분석
- 여러 소스의 데이터 수집
- 문서 분석 및 요약
- 시장 조사 컴파일
아키텍처
Bytebot은 다음으로 구축되었습니다:
- 데스크톱: XFCE, Firefox, VS Code 및 기타 도구가 포함된 Ubuntu 22.04
- 에이전트: AI와 데스크톱 작업을 조정하는 NestJS 서비스
- UI: 작업 관리를 위한 Next.js 애플리케이션
- AI 지원: Anthropic Claude, OpenAI GPT, Google Gemini와 연동
- 배포: 쉬운 셀프 호스팅을 위한 Docker 컨테이너
셀프 호스팅을 선택하는 이유?
- 데이터 프라이버시: 모든 작업이 사용자의 인프라에서 실행됩니다
- 완전한 제어: 필요에 따라 데스크톱 환경을 사용자 정의할 수 있습니다
- 제한 없음: 플랫폼 제한 없이 자신의 AI API 키를 사용할 수 있습니다
- 유연성: 어떤 소프트웨어든 설치하고 어떤 시스템이든 접근할 수 있습니다
고급 기능
다중 AI 제공업체
LiteLLM 통합을 통해 어떤 AI 제공업체도 사용할 수 있습니다:
- Azure OpenAI
- AWS Bedrock
- Ollama를 통한 로컬 모델
- 100개 이상의 다른 제공업체
엔터프라이즈 배포
Helm으로 Kubernetes에 배포:
# Clone the repository
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# Install with Helm
helm install bytebot ./helm \
--set agent.env.ANTHROPIC_API_KEY=sk-ant-...
커뮤니티 및 지원
- Discord: 도움과 토론을 위해 커뮤니티에 참여하세요
- 문서: docs.bytebot.ai에서 포괄적인 가이드를 확인하세요
- GitHub Issues: 버그를 보고하고 기능을 요청하세요
기여하기
기여를 환영합니다! 다음과 같은 것들이 포함됩니다:
- 🐛 버그 수정
- ✨ 새로운 기능
- 📚 문서 개선
- 🌐 번역
다음을 부탁드립니다:
- 먼저 기존 이슈를 확인해 주세요
- 주요 변경 사항을 논의하기 위해 이슈를 열어 주세요
- 명확한 설명과 함께 PR을 제출해 주세요
- 아이디어를 논의하기 위해 Discord에 참여해 주세요
라이선스
Bytebot은 Apache 2.0 라이선스 하에 오픈 소스입니다.