「音声合成ってVOICEVOXしか知らない」——そんな方に向けて書いた記事です。
2026年のTTS(Text-to-Speech)は進化が凄まじく、数秒の音声サンプルから完璧にクローンする技術や、感情まで含めてコントロールできるサービスが次々と登場しています。VOICEVOXは日本語特化の無料ツールとして今でも優秀ですが、世界では35以上のTTSサービスが競争しており、用途によってはまったく別の選択肢が最適解になります。
🔥 2026年4月リリースの超注目作:VoxCPM
VoxCPM(OpenBMB)

- 公式: https://github.com/OpenBMB/VoxCPM
- 運営: OpenBMB(MiniCPMシリーズの開発元)
- リリース: 2026年4月(GitHub Stars 13,000超え)
- 特徴:
- トークナイザーフリーのTTSという革新的な設計。従来の離散トークン化を排除し、連続的な音声表現を拡散自己回帰アーキテクチャで直接生成。
- 2Bパラメータ・200万時間以上の多言語音声データで学習
- 30言語対応(日本語含む)——言語タグ不要で入力するだけで自動判別
- Voice Design:「若い女性、落ち着いたトーン、ゆっくりしたペース」のようなテキスト説明だけで新しい声を創出(参考音声不要)
- Controllable Cloning:短いリファレンス音声からクローニング。感情・テンポ・表現をガイドしながら元の声色を保持
- Ultimate Cloning:リファレンス音声+テキストを与えると、音色・リズム・感情・スタイルまで忠実に再現
- 48kHz スタジオ品質の音声出力(16kHz入力から48kHzに超解像アップサンプリング)
- RTF約0.3(RTX 4090)、Nano-VLLMで約0.13まで高速化可能
- Apache 2.0ライセンス——完全オープンソース・商用利用可
- インストール:
pip install voxcpm - 日本語: ◎
- 音声クローン: ◎(音声なし・短音声・完全クローンの3段階)
ヒント
VoxCPMの「Voice Design」機能はテキスト説明だけで新しい声を作れるという点で他のTTSと一線を画しています。リファレンス音声すら不要でキャラクター音声を設計できる、2026年で最も革新的なTTS機能のひとつです。
🏆 商用クラウドTTS 主要サービス
1. ElevenLabs(業界標準)

- 公式: https://elevenlabs.io/
- 特徴: 1万種以上のAI音声、日本語対応(関西弁などの方言も)。最新モデル「Eleven v3」は自然言語タグで感情・トーンをインライン制御できる。音声クローンは「Instant」(数秒)から「Professional」(高精度)まで選択可能。2026年2月に評価額$110億でSeries Dを調達した業界最注目企業。
- 料金: 無料プランあり、Pro $99/月〜(約100万文字)
- 日本語: ◎(関西弁対応あり)
- 音声クローン: ◎
2. OpenAI TTS(GPT-4o mini TTS)
- 公式: https://platform.openai.com/docs/guides/text-to-speech
- 特徴: 最新モデル
gpt-4o-mini-tts-2025-12-15は単語誤り率(WER)を35%改善。11種類の組み込み音声から選択。ChatGPT APIと親和性が高く、LLMと組み合わせた用途に最適。 - 料金: $0.60/百万トークン(約$0.015/分)
- 日本語: ○
- 音声クローン: ❌
3. Google Cloud TTS(Chirp 3 HD)
- 公式: https://cloud.google.com/text-to-speech
- 特徴: Chirp 3 HDは超自然な音声品質で31言語8新スピーカーを追加。「Instant Custom Voice」機能で音声クローニングも対応(eu・us地域)。月100万文字まで無料(WaveNet音声)。
- 料金: WaveNet $16/百万文字、Chirp 3 HD $30/百万文字
- 日本語: ◎
- 音声クローン: ○(Chirp 3のみ)
4. Microsoft Azure Neural TTS
- 公式: https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/text-to-speech
- 特徴: 「Dragon HD Omni」が次世代統合モデルとして700以上の音声を搭載。150言語以上・600以上のニューラル音声を提供。2026年3月に価格を$30→$22/百万文字に値下げ。
- 料金: Neural HD $22/百万文字
- 日本語: ◎
- 音声クローン: ◎(Dragon HD Omni)
5. Amazon Polly
- 公式: https://aws.amazon.com/polly/
- 特徴: 2026年3月に10の新音声と8ロケール拡張を実施。「Bidirectional Streaming API」でLLMからの直接ストリーミング配信が可能に。AWSインフラと直結しているためバックエンド組み込みに強い。
- 料金: 従量課金(比較的安価)
- 日本語: ○
- 音声クローン: ❌
6. Murf AI(Falcon)
- 公式: https://murf.ai/
- 特徴: 最新エンジン「Falcon」はサブ55msの超低遅延TTSを実現。35言語以上・150以上の音声。Canva・PowerPoint・Google Slidesとの統合対応。SOC 2・HIPAA・ISO 42001など各種認証を取得しており、企業利用に安心。
- 料金: 無料プランあり
- 日本語: ○
- 音声クローン: ◎
7. Cartesia AI(Sonic 3)
- 公式: https://cartesia.ai/
- 特徴: Sonic 3 Turboは40msという業界最速レイテンシを実現。40言語以上対応。音声に笑いを加える機能や、数秒の音声からのクローニングも可能。リアルタイム会話AIとの組み合わせに最適。
- 料金: 従量課金+月額プラン
- 日本語: ○
- 音声クローン: ◎
8. LMNT
- 公式: https://www.lmnt.com/
- 特徴: 150〜200msの低遅延でリアルタイム会話向けに特化。24言語対応、5秒の音声サンプルからクローニング可能。Khan Academyが採用するなど教育分野での実績あり。
- 料金: 無料枠あり、Indie $10/月
- 日本語: ○
- 音声クローン: ◎
9. Speechify
- 公式: https://speechify.com/
- 特徴: 5,000万人以上が使う大手TTSアプリ。1,000以上のAI音声・60言語対応。読み上げ特化でEPUB・PDF・Webページを自然に読み上げる。音声クローニング・Voice Typing機能も搭載。
- 料金: 無料あり、Premium $29/月 or $139/年
- 日本語: ○
- 音声クローン: ◎
10. Resemble AI(Chatterbox)
- 公式: https://www.resemble.ai/
- 特徴: 「Chatterbox Turbo」(350Mパラメータ)は23言語対応。咳・笑い・つぶやきなどのParalinguistic tagsで人間らしさを演出。音声透かし技術「Perth Watermarker」を搭載し、フェイク検出にも対応。
- 料金: オープンソース版あり
- 日本語: ○
- 音声クローン: ◎
11. Hume AI(Octave 2)
- 公式: https://www.hume.ai/
- 特徴: LLMベースの感情理解TTSが最大の強み。自然言語でトーン・感情・スタイルを指示できる。200ms以下の低遅延。オープンソース版「TADA」はリアルタイム速度の5倍速(RTF 0.09)を達成。
- 料金: APIベース従量課金
- 日本語: ◎(11言語)
- 音声クローン: ○
12. Gemini API TTS(Google)
- 公式: https://ai.google.dev/gemini-api/docs/speech-generation
- 特徴: Gemini 2.5 Flash/Proに統合されたTTS機能。複数話者対応・自然言語プロンプトでスタイル制御が可能。LLMと音声生成がシームレスに連携するのが強み。
- 料金: Gemini API料金に準拠
- 日本語: ◎
- 音声クローン: ❌
🇯🇵 日本語特化型TTS
13. VOICEVOX

- 公式: https://voicevox.hiroshiba.jp/
- 特徴: 日本語特化の完全無料オープンソースTTS。ディープラーニングによる自然なイントネーション。2026年2月26日にさくらインターネットの「さくらのAI Engine」でクラウド版APIが公開され、OpenAI互換API形式でも使えるようになった。
- 料金: 無料(オープンソース)
- 日本語: ◎(日本語専用)
- 音声クローン: ❌
VOICEVOXは「日本語の自然な読み上げを無料で」という用途では今でもベストの選択肢のひとつ。
14. CoeFont
- 公式: https://coefont.cloud/
- 特徴: 10,000以上のAI音声。従来50時間かかっていた日本語音声クローニングをわずか5分で実現。日本語から英語・スペイン語・中国語・フランス語へのクロスリンガルTTSも対応。「CoeFont通訳」は2026年の日経トレンディ1位を獲得。
- 料金: 階層制(無料枠あり)
- 日本語: ◎(日本語特化)
- 音声クローン: ◎(5分クローン)
15. VOICEPEAK(AHS / Dreamtonics)
- 公式: https://www.ah-soft.com/voice/
- 特徴: 「Syllaflow」音声合成エンジン採用で人間と区別しにくい品質を実現。ナレーター系・キャラクター系両方の音声を用意。商用利用可能なライセンス設計。
- 料金: ソフトウェア買い切り(6ナレーターセット等)
- 日本語: ◎(日本語専用)
- 音声クローン: ❌
16. AITalk(エーアイ)
- 公式: https://www.ai-j.jp/
- 特徴: 法人向け日本語TTS老舗。独自の日本語言語分析エンジンで高い発音精度を誇る。AITalk WebAPI(2025年9月更新)でクラウド利用も可能。100以上のスピーカー・60言語対応。
- 料金: ライセンス制(法人向け)
- 日本語: ◎
- 音声クローン: ○
17. AivisSpeech
- 公式: https://aivis-project.com/
- 特徴: 0.3秒のリアルタイム音声生成と感情豊かな合成が特徴。「Aivis Cloud API」としてクラウド提供も開始。日本語向け最新鋭エンジンのひとつ。
- 料金: API従量課金
- 日本語: ◎(日本語専用)
- 音声クローン: ○
🔓 オープンソースTTS
18. Fish Speech S2-Pro
- 公式: https://fish.audio/
- 特徴: 2026年3月にオープンソース化。80言語・1,000万時間の学習データ。
[whisper],[excited],[angry]などのタグで感情制御が可能。ElevenLabsと同等〜それ以上の品質との評価も。Dual-Autoregressive + RL Alignmentという独自設計。 - 料金: オープンソース(商用利用可)
- 日本語: ◎(日本語データ100,000時間)
- 音声クローン: ◎
19. Kokoro TTS
- 公式: https://kokorottsai.com/
- 特徴: わずか82Mパラメータながら2026年1月にTTS Arenaで1位を獲得した超軽量高品質モデル。英・仏・韓・日・中に対応。リアルタイムの210倍速で動作しCPU負荷も低い。Apache 2.0ライセンスで商用利用可。
- 料金: オープンソース(Apache 2.0)
- 日本語: ◎
- 音声クローン: ○
20. Qwen3-TTS(Alibaba)
- 公式: Hugging Face / GitHub
- 特徴: 2026年1月公開のAlibabaのオープンソースTTS。3秒の音声サンプルから超高精度なボイスクローニングを実現。10言語以上(日本語含む)対応。ストリーミング時97msの超低遅延。500万時間以上の学習データ。
- 料金: オープンソース(商用利用可)
- 日本語: ◎
- 音声クローン: ◎(3秒クローン)
21. CosyVoice 3(Alibaba)
- 公式: https://cosyvoice.org/
- 特徴: LLMベース。9言語・18の中国方言対応。ゼロショットのマルチ言語クローニング。ストリーミング対応(150msレイテンシ)。Pinyin/CMU音素制御でプロ向け調整も可能。
- 料金: オープンソース
- 日本語: ◎
- 音声クローン: ◎
22. Voxtral TTS(Mistral)
- 公式: https://mistral.ai/news/voxtral-tts
- 特徴: 2026年3月発表。4Bパラメータで9言語対応。2〜3秒のゼロショットクローニング。感情・アクセント・話し方を保持しながらの音声生成。ElevenLabs Flash v2.5と同等品質との評価。オープンウェイト(CC BY-NC 4.0)でAPI提供も。
- 料金: $0.016/1,000文字(API)
- 日本語: ○
- 音声クローン: ◎
23. IndexTTS-2(Bilibili)
- 公式: GitHub
- 特徴: 感情と話者特性を独立して制御できる設計が特徴。動画吹き替え向けに精密な継続時間制御を搭載しており、元の口パクにピッタリ合わせた音声生成が可能。ゼロショット音声クローニング対応。
- 料金: オープンソース
- 日本語: ○
- 音声クローン: ◎
24. F5-TTS
- 公式: https://github.com/SWivid/F5-TTS
- 特徴: Flow matching + DiT技術を採用した336Mパラメータのモデル。WER 2.42という非常に低い誤り率。RTF 0.15の高速生成。英・仏・独・日などマルチ言語対応。
- 料金: オープンソース
- 日本語: ○
- 音声クローン: ◎
25. Bark(Suno AI)
- 公式: https://github.com/suno-ai/bark
- 特徴: 100以上のスピーカー対応。笑い・音楽・音響効果まで生成できるユニークな設計。感情的・創作的な音声(オーディオブック・ポッドキャスト)に向いている。完全生成型のモデル。
- 料金: オープンソース(MIT)
- 日本語: ○
- 音声クローン: △
26. StyleTTS 2
- 公式: https://github.com/yl4579/StyleTTS2
- 特徴: 拡散モデル+敵対的学習を組み合わせた研究系モデル。LJSpeechベンチマークで人間スコアを超えた品質を記録。
- 料金: オープンソース
- 日本語: △
- 音声クローン: ○
27. Coqui TTS / XTTS v2
- 公式: https://github.com/coqui-ai/TTS
- 特徴: 17言語対応の音声クローニング対応TTSフレームワーク。本家Coquiは解散したが、2025年12月にIdiap Research Instituteがフォークを継続メンテナンス中。
- 料金: オープンソース
- 日本語: ○
- 音声クローン: ◎
28. Sesame CSM-1B
- 公式: https://csm1b.com/
- 特徴: 1Bパラメータの会話音声生成モデル。ターンテイキング・バックチャネルなど自然な会話のリズムを生成できる。Llama backboneとMimiオーディオコーデックを使用。API提供あり。
- 料金: オープンソース+APIアクセス
- 日本語: △
- 音声クローン: ○
便利ツール・統合型サービス
29. Podcastle AI
- 公式: https://podcastle.ai/
- 特徴: 自社開発エンジン「Asyncflow v1.0」採用。500以上のAI音声・無制限カスタム音声クローニング。同等スペックのElevenLabsと比べて約40%安い料金設定が魅力。
- 日本語: ○
30. Murf AI Studio
- 公式: https://murf.ai/
- 特徴: 前述のMurf AIのスタジオ版。ナレーション動画の制作に特化したUIで、スライド・タイムライン・BGMを統合管理できる。
- 料金: 従量課金制
31. Descript Overdub
- 公式: https://www.descript.com/
- 特徴: テキスト編集で動画・音声を修正できるDescriptの音声クローン機能。自分の声をクローンして、後からテキストを打つだけで自分の声で追加録音できる。
- 料金: Free〜Pro階層
32. Natural Reader
- 公式: https://www.naturalreaders.com/
- 特徴: 200以上のAI音声・50言語。PDF・EPUB・Webページを読み上げるシンプルな用途に最適。ブラウザ拡張機能・iOS/Androidアプリ対応。
- 料金: 無料プランあり
- 日本語: ○
比較まとめ表
| サービス | 品質 | 日本語 | 音声クローン | 無料 | 向いている用途 |
|---|---|---|---|---|---|
| VoxCPM | ◎ | ◎ | ◎ | ✅ | Voice Design・商用 |
| ElevenLabs | ◎ | ◎ | ◎ | ○ | 全般・ナレーション |
| Google Chirp 3 | ◎ | ◎ | ○ | ○ | 大規模API利用 |
| Azure Neural | ◎ | ◎ | ◎ | ❌ | 企業・法人向け |
| Murf Falcon | ◎ | ○ | ◎ | ○ | スライド・動画 |
| Cartesia Sonic 3 | ◎ | ○ | ◎ | ❌ | リアルタイム会話AI |
| Fish Speech | ◎ | ◎ | ◎ | ✅ | ローカル・商用 |
| Kokoro TTS | ◎ | ◎ | ○ | ✅ | 軽量・CPU動作 |
| Qwen3-TTS | ◎ | ◎ | ◎ | ✅ | 高精度クローン |
| Voxtral | ○ | ○ | ◎ | △ | API・低コスト |
| IndexTTS-2 | ○ | ○ | ◎ | ✅ | 動画吹き替え |
| VOICEVOX | ○ | ◎ | ❌ | ✅ | 日本語・無料 |
| CoeFont | ◎ | ◎ | ◎ | ○ | 日本語クローン |
| VOICEPEAK | ◎ | ◎ | ❌ | ❌ | 日本語品質重視 |
| Hume Octave 2 | ◎ | ◎ | ○ | ❌ | 感情表現 |
| Bark | ○ | ○ | △ | ✅ | 効果音込み創作 |
(◎ 優秀 / ○ 対応 / △ 限定 / ❌ 非対応)
用途別おすすめ
「日本語で無料から試したい」→ VOICEVOX or Kokoro TTS
VOICEVOXは操作が簡単で日本語に特化。KokoroはApache 2.0のオープンソースで商用利用も可能。
「自分の声でクローンしたい」→ CoeFont or ElevenLabs
CoeFont は5分の録音で日本語クローンが完成。ElevenLabsは英語中心だが品質は業界最高峰。
「動画吹き替えに使いたい」→ IndexTTS-2 or CosyVoice 3
口パクの長さに合わせた精密な継続時間制御が可能で、動画翻訳・吹き替えに最適。
「リアルタイム会話AIに組み込みたい」→ Cartesia Sonic 3 or LMNT
40〜200msの超低遅延TTSはリアルタイム会話ボットの構築に欠かせない。
「企業・法人利用で安全に使いたい」→ Azure Neural TTS or Google Chirp 3
SOC 2・HIPAA・GDPRなどの認証を取得した商用グレードのサービスを選びましょう。
「感情を込めた音声を作りたい」→ Hume AI or Fish Speech
Hume AIは自然言語でトーン・感情を指示でき、Fish Speechは[excited]などのタグで制御可能。
VOICEVOXから次のステップを踏むなら
VOICEVOXを使っている方が次に試すべきは用途次第です:
- 日本語クローンをやってみたい → CoeFont(5分録音でOK)
- 英語コンテンツも作りたい → ElevenLabs(無料枠あり)
- ローカルで動かしたい → Kokoro TTS or Fish Speech(オープンソース)
- 動画制作に使いたい → Murf AI(スライド統合)or IndexTTS-2(吹き替え向け)
ヒント
まずはElevenLabsの無料プランとCoeFontを試してみてください。どちらも日本語対応していて、VOICEVOXとの品質差を体感しやすいです。


