AI 뉴스

VerbalCoding: Discord 음성으로 AI 코딩 에이전트와 대화하기

노동1호 2026. 5. 11. 00:06

VerbalCoding: Discord 음성으로 AI 코딩 에이전트와 대화하기

VerbalCoding: Discord 음성으로 AI 코딩 에이전트와 대화하기

도입: 코딩 에이전트를 음성으로조공하는 시대

소프트웨어 개발에서 AI 코딩 에이전트의 역할이 날로 확대되고 있습니다. Claude Code, Codex, Hermes Agent와 같은 도구들이 코드를 작성하고, 리뷰하고, 버그를 수정하는 작업을 자동화합니다. 그러나 이러한 에이전트들과의 소통은 언제나 텍스트 기반이었습니다.

VerbalCoding은 이러한 제약을전덮합니다. Discord 음성 채널을 통해 코딩 에이전트와 "전화 통화"처럼 대화할 수 있는 도구입니다.


VerbalCoding이란?

VerbalCoding은 Discord 음성 방을 코딩 에이전트의 무선 조종석(Hands-free cockpit)으로 변환하는 오픈소스 도구입니다. 음성으로 요청을 말하고, CLI 에이전트가 작업을 수행하며, 음성으로 간결한 답변을 들을 수 있습니다.

주요 특징

기능설명
전화 통화 워크플로하나의 Discord 음성 채널에서 말하고, 듣고, 끼어들고, 계속하기
로컬 음성 처리Discord 오디오는 로컬 whisper-cli로 전사됨
다중 에이전트 지원Hermes Agent, Claude Code, Codex, Gemini CLI, OpenCode, OpenClaw
음성 + 텍스트 병행음성 턴과 !ask 텍스트 명령이 동일한 에이전트 세션을 재사용
실시간 진행 가이드작업 진행 과정을 음성으로 안내 (기본 켜짐)


작동 원리

아키텍처

[사용자 음성]↓ Discord 음성 채널[VerbalCoding Discord Bot]↓ (로컬 UDP 전송)[whisper-cli] → STT (Speech-to-Text)↓ 텍스트[선택된 CLI 에이전트] (Hermes Agent 등)↓ 텍스트 응답[Edge TTS] → TTS (Text-to-Speech)↓ 음성[Discord 음성 채널]↓[사용자이기]

핵심 기술 스택

STT (음성 인식): 로컬 whisper-cli (whisper.cpp)

TTS (음성 합성): Edge TTS (기본값), OpenVoice/SpeechSwift/CosyVoice/Supertonic (선택)

에이전트 백엔드: Hermes Agent (기본값), Claude Code, Codex, Gemini CLI 등

플랫폼: Node.js 20+, macOS/Apple Silicon 우선


빠른 시작

사전 요구사항

# Node.js 20+ 필요node --version# npm으로 글로벌 설치npm install -g verbalcoding@latest# 음성 처리를 위한 ffmpeg# macOS: brew install ffmpeg# Linux: sudo apt install ffmpeg

Discord 봇 설정

1. Discord Developer Portal에서 애플리케이션 생성

2. Message Content privileged intent 활성화

3. Bot 생성 후 토큰 저장

4. 음성 채널 권한 설정

초기 설정

# 대화형 설정 마법사vc setup# 비대화형 부트스트랩vc setup --yesvc setup token  --client-id vc setup channels "General,Team Voice"

실행

# 상태 확인vc doctor# 음성 브릿지 시작vc start


Discord 안에서의 명령어

명령어설명
!join / !leave음성 채널 입장/퇴장
!ask <프롬프트>동일한 에이전트 백엔드로 텍스트 명령 전송
!verbose on\off짧은 진행 업데이트 토글
!latency / !metrics최근 STT/에이전트/TTS 지연 시간 요약
!sensitivity normal\conservative실내/소음 환경에 따른 끼어들기 감도 조절
!session new <이름> <작업디렉토리> [컨텍스트]프로젝트 세션을 음성 방에 바인딩


실용 활용 시나리오

시나리오 1: 누워서 개발하기

기존에는 에이전트에게 작업을 시키려면 자리에서 컴퓨터 앞에 앉아 텍스트를 입력해야 했습니다. VerbalCoding을 사용하면:

1.Discord 음성 채널에 입장

2. "Hermes한테 웹 서버 프로젝트 생성해줘"라고 말하기

3. 에이전트가 파일을 생성하는 동안 음성으로 진행 상황 듣기

4. 필요하면 "그거 말고 다른 방식으로 해봐"라고 끼어들기

5. 최종 결과를 다시 음성으로 확인

시나리오 2: 장시간 빌드 작업 모니터링

에이전트가 긴 빌드를 실행 중일 때:

[에이전트]: 빌드 중... 45% 완료[TTS 음성]: "빌드가 사십오 퍼센트 완료되었습니다"[사용자]: (끼어들기) "중단해!"[TTS 음성]: "알겠습니다, 작업을 중단했습니다"

시나리오 3: 프로젝트별 격리된 작업 공간

VerbalCoding: Discord 음성으로 AI 코딩 에이전트와 대화하기

여러 프로젝트를 동시에 진행할 때:

# 프로젝트별 음성 인스턴스 생성vc instance setup my-web-projectvc instance setup my-api-project# 각 프로젝트별 Discord 음성 방에서 독립적 에이전트 세션 운영


Hermes Agent와의 통합

VerbalCoding의 기본 에이전트로 Hermes Agent가 설정되어 있습니다. 이는 ICBM2의 오케스트레이터 에이전트로, 다음과 같은 작업에 최적화되어 있습니다:

• 복잡한 코딩 작업의 분해와 Delegation

• 다중 에이전트 스쿼드의 조율

• 파일 시스템 operations and Git operations

• 웹 검색과 데이터 수집

음성으로 Hermes Agent에게 작업지를오도면, 에이전트가 작업을 분해하고 적절한 하위 에이전트에게 작업을 할당합니다.


설치 및 운영 팁

macOS에서 최적의 경험

# Homebrew로 필요 도구 설치brew install node ffmpeg# whisper.cpp 모델 다운로드# 기본값: ggml-small-q5_1.bin

Docker 환경에서의 주의사항

Discord 텍스트 로그는 동작하지만 음성 참가가 실패할 수 있습니다. 이는 UDP 아웃바운드가 차단되었기 때문입니다:

# docker-compose.ymlservices:verbalcoding:network_mode: "host"  # UDP 음성 문제 해결# ports: 와 함께 사용 금지

Linux 호스트 네트워크

# UDP 음성 문제가 발생하는 경우services:verbalcoding:network_mode: "host"


기술적 세부사항

지원되는 에이전트 백엔드

에이전트상태비주
Hermes Agent✅ 기본값ICBM2 오케스트레이터
Claude Code✅ 지원OpenAI Codex CLI
Codex✅ 지원Anthropic Claude
Gemini CLI✅ 지원Google Gemini
OpenCode✅ 지원OpenCode CLI
OpenClaw✅ 지원OpenClaw
Custom command✅ 지원모든 비대화형 CLI 명령

TTS 백엔드 옵션

Edge TTS (기본값): Microsoft Edge의 TTS 엔진을 사용, 빠른 응답

OpenVoice: 미세 조정 가능한 음성 합성

SpeechSwift/CosyVoice: 추가 TTS 옵션

Supertonic: 또 다른 TTS 대안


향후 발전 방향

README에 따르면 현재 진행 중인 작업:

• 데모 비디오/GIF 제작

• Linux 환경 검증 확대

• CI/CD 파이프라인 구축

• 보안 심층 감사

VerbalCoding은 아직 early stage이지만, "음성으로 코딩하는"이라는개념이 소프트웨어 개발의 미래를예시하고 있습니다.


결론

VerbalCoding은 AI 코딩 에이전트와의 상호작용 방식을근본적으로 변화시키는 도구입니다. 텍스트가 아닌 음성으로 에이전트에게 명령을 내리고, 긴 작업의 진행 상황을 들으며, 필요할 때 끼어들어 방향을수정할 수 있습니다.

서버나 맥 미니에서 24시간 Hermes Agent를 구동 중인 분들이라면, VerbalCoding을일시해볼 가치가 있습니다. 손을 свобод롭게 만들고, 말로 코딩하는 미래를률선체험해 보세요.


📚 출처

VerbalCoding GitHub

GeekNews 원본

Tags: VerbalCoding, Discord, Hermes Agent, Claude Code, AI 코딩 에이전트, 음성 인터페이스, whisper.cpp, Edge TTS, 코딩 워크플로, CLI 에이전트, 개발자동화


📚 출처

https://news.hada.io/topic?id=29361