mcp-voicevox-go
VOICEVOX MCP Server - Model Context Protocol server for VOICEVOX text-to-speech synthesis
GitHub Stars
0
User Rating
Not Rated
Favorites
0
Views
5
Forks
0
Issues
0
README
MCP VOICEVOX Go
VOICEVOXを使用したModel Context Protocol (MCP) サーバーの実装です。このサーバーを使用することで、LLMからVOICEVOXの音声合成機能を利用できるようになります。
前提条件
- Go 1.21以上
- VOICEVOX がローカルで実行されていること(デフォルトでは
http://localhost:50021
でアクセス可能)
インストール
Go installを使用(推奨)
go install github.com/metapox/mcp-voicevox-go@latest
ソースからビルド
git clone https://github.com/metapox/mcp-voicevox-go.git
cd mcp-voicevox-go
go mod tidy
go build -o mcp-voicevox .
クイックスタート
1. VOICEVOXエンジンの起動
VOICEVOXアプリケーションを起動するか、VOICEVOXエンジンを直接起動してください。
2. Amazon Q CLIでの設定
~/.aws/amazonq/mcp.json
に以下の設定を追加:
{
"mcpServers": {
"voicevox": {
"command": "mcp-voicevox",
"args": ["stdio"],
"env": {
"MCP_VOICEVOX_ENABLE_PLAYBACK": "true"
}
}
}
}
3. Amazon Q CLIの再起動
# Amazon Q CLIを再起動して設定を反映
q chat
これで voicevox___text_to_speech
と voicevox___get_speakers
ツールが利用可能になります。
設定テンプレート
基本設定
{
"mcpServers": {
"voicevox": {
"command": "mcp-voicevox",
"args": ["stdio"],
"env": {
"MCP_VOICEVOX_ENABLE_PLAYBACK": "true"
},
"autoApprove": [
"get_speakers",
"text_to_speech"
]
}
}
}
1.5倍速設定
{
"mcpServers": {
"voicevox-fast": {
"command": "mcp-voicevox",
"args": ["stdio"],
"env": {
"MCP_VOICEVOX_ENABLE_PLAYBACK": "true",
"MCP_VOICEVOX_DEFAULT_SPEED_SCALE": "1.5"
},
"autoApprove": [
"get_speakers",
"text_to_speech"
]
}
}
}
2倍速設定
{
"mcpServers": {
"voicevox-2x": {
"command": "mcp-voicevox",
"args": ["stdio"],
"env": {
"MCP_VOICEVOX_ENABLE_PLAYBACK": "true",
"MCP_VOICEVOX_DEFAULT_SPEED_SCALE": "2.0"
},
"autoApprove": [
"get_speakers",
"text_to_speech"
]
}
}
}
カスタム音声設定
{
"mcpServers": {
"voicevox-custom": {
"command": "mcp-voicevox",
"args": ["stdio"],
"env": {
"MCP_VOICEVOX_ENABLE_PLAYBACK": "true",
"MCP_VOICEVOX_DEFAULT_SPEAKER": "1",
"MCP_VOICEVOX_DEFAULT_SPEED_SCALE": "1.3",
"MCP_VOICEVOX_DEFAULT_PITCH_SCALE": "0.05",
"MCP_VOICEVOX_DEFAULT_INTONATION_SCALE": "1.2"
},
"autoApprove": [
"get_speakers",
"text_to_speech"
]
}
}
}
複数設定の併用
{
"mcpServers": {
"voicevox-normal": {
"command": "mcp-voicevox",
"args": ["stdio"],
"env": {
"MCP_VOICEVOX_ENABLE_PLAYBACK": "true"
},
"autoApprove": ["get_speakers", "text_to_speech"]
},
"voicevox-fast": {
"command": "mcp-voicevox",
"args": ["stdio"],
"env": {
"MCP_VOICEVOX_ENABLE_PLAYBACK": "true",
"MCP_VOICEVOX_DEFAULT_SPEED_SCALE": "1.5"
},
"autoApprove": ["get_speakers", "text_to_speech"]
},
"voicevox-2x": {
"command": "mcp-voicevox",
"args": ["stdio"],
"env": {
"MCP_VOICEVOX_ENABLE_PLAYBACK": "true",
"MCP_VOICEVOX_DEFAULT_SPEED_SCALE": "2.0"
},
"autoApprove": ["get_speakers", "text_to_speech"]
}
}
}
使い方
HTTPサーバーとしての起動
mcp-voicevox server
Stdio経由での起動(MCP用)
mcp-voicevox stdio
オプション
共通オプション
オプション | 短縮形 | 説明 | デフォルト |
---|---|---|---|
--voicevox-url |
-u |
VOICEVOXのAPIエンドポイント | http://localhost:50021 |
--temp-dir |
-t |
一時ファイルディレクトリ | システムの一時ディレクトリ |
--default-speaker |
-s |
デフォルトの話者ID | 3 |
--default-speed-scale |
デフォルトの話速(0.5-2.0) | 1.0 |
|
--default-pitch-scale |
デフォルトの音高(-0.15-0.15) | 0.0 |
|
--default-intonation-scale |
デフォルトの抑揚(0.0-2.0) | 1.0 |
|
--default-volume-scale |
デフォルトの音量(0.0-2.0) | 1.0 |
serverサブコマンド専用
オプション | 短縮形 | 説明 | デフォルト |
---|---|---|---|
--port |
-p |
サーバーのポート番号 | 8080 |
stdioサブコマンド専用
オプション | 説明 | デフォルト |
---|---|---|
--enable-playback |
音声の自動再生を有効にする | false |
環境変数
変数名 | 説明 | デフォルト |
---|---|---|
MCP_VOICEVOX_PORT |
サーバーのポート番号(serverのみ) | 8080 |
MCP_VOICEVOX_URL |
VOICEVOXのAPIエンドポイント | http://localhost:50021 |
MCP_VOICEVOX_TEMP_DIR |
一時ファイルディレクトリ | システムの一時ディレクトリ |
MCP_VOICEVOX_DEFAULT_SPEAKER |
デフォルトの話者ID | 3 |
MCP_VOICEVOX_ENABLE_PLAYBACK |
音声の自動再生(true/false) | false |
MCP_VOICEVOX_DEFAULT_SPEED_SCALE |
デフォルトの話速(0.5-2.0) | 1.0 |
MCP_VOICEVOX_DEFAULT_PITCH_SCALE |
デフォルトの音高(-0.15-0.15) | 0.0 |
MCP_VOICEVOX_DEFAULT_INTONATION_SCALE |
デフォルトの抑揚(0.0-2.0) | 1.0 |
MCP_VOICEVOX_DEFAULT_VOLUME_SCALE |
デフォルトの音量(0.0-2.0) | 1.0 |
例:
export MCP_VOICEVOX_DEFAULT_SPEAKER=1
export MCP_VOICEVOX_PORT=8888
export MCP_VOICEVOX_ENABLE_PLAYBACK=true
export MCP_VOICEVOX_DEFAULT_SPEED_SCALE=1.5
mcp-voicevox server
Amazon Q CLIとの連携
Amazon Q CLIで使用するには、上記のmcp.json設定を使用してください。設定後、以下のツールが利用可能になります:
voicevox___text_to_speech
: テキストを音声に変換voicevox___get_speakers
: 利用可能な話者一覧を取得
機能
text_to_speech
テキストを音声に変換します。
パラメータ:
text
: 音声に変換するテキスト(必須)speaker_id
: 話者ID(省略時はデフォルト話者を使用)speed_scale
: 話速(0.5-2.0、省略時はデフォルト値を使用)pitch_scale
: 音高(-0.15-0.15、省略時はデフォルト値を使用)intonation_scale
: 抑揚(0.0-2.0、省略時はデフォルト値を使用)volume_scale
: 音量(0.0-2.0、省略時はデフォルト値を使用)
音声再生が有効な場合、合成後に自動で音声を再生します。
get_speakers
利用可能な話者一覧を取得します。
音声パラメータの詳細
話速(Speed Scale)
- 範囲: 0.5 - 2.0
- デフォルト: 1.0
- 効果:
- 0.5: 半分の速度(ゆっくり)
- 1.0: 通常速度
- 1.5: 1.5倍速(少し早口)
- 2.0: 2倍速(かなり早口)
音高(Pitch Scale)
- 範囲: -0.15 - 0.15
- デフォルト: 0.0
- 効果:
- 負の値: 低い声
- 0.0: 通常の音高
- 正の値: 高い声
抑揚(Intonation Scale)
- 範囲: 0.0 - 2.0
- デフォルト: 1.0
- 効果:
- 0.0: 平坦な話し方
- 1.0: 通常の抑揚
- 2.0: 抑揚を強調
音量(Volume Scale)
- 範囲: 0.0 - 2.0
- デフォルト: 1.0
- 効果:
- 0.0: 無音
- 1.0: 通常の音量
- 2.0: 大音量
コマンドライン使用例
基本的な使用方法
# 1.5倍速で起動
mcp-voicevox stdio --default-speed-scale 1.5 --enable-playback
# 環境変数で設定
export MCP_VOICEVOX_DEFAULT_SPEED_SCALE=1.5
mcp-voicevox stdio
複数パラメータの組み合わせ
# 少し早口で高めの声、抑揚強め
mcp-voicevox stdio \
--default-speed-scale 1.3 \
--default-pitch-scale 0.08 \
--default-intonation-scale 1.4 \
--enable-playback
音声再生対応プラットフォーム
- macOS:
afplay
コマンドを使用 - Linux:
paplay
、aplay
、mpv
のいずれかを使用(利用可能なものを自動検出) - Windows: PowerShell の
Media.SoundPlayer
を使用
ビルド
go build -o mcp-voicevox cmd/*.go
ライセンス
MIT