AI知識まとめノート
2026年最新|TTS(音声合成AI)サービス完全比較36選|VoxCPM・ElevenLabs・Fish SpeechからVOICEVOXまで

2026年最新|TTS(音声合成AI)サービス完全比較36選|VoxCPM・ElevenLabs・Fish SpeechからVOICEVOXまで

「音声合成ってVOICEVOXしか知らない」——そんな方に向けて書いた記事です。

2026年のTTS(Text-to-Speech)は進化が凄まじく、数秒の音声サンプルから完璧にクローンする技術や、感情まで含めてコントロールできるサービスが次々と登場しています。VOICEVOXは日本語特化の無料ツールとして今でも優秀ですが、世界では35以上のTTSサービスが競争しており、用途によってはまったく別の選択肢が最適解になります。


🔥 2026年4月リリースの超注目作:VoxCPM

VoxCPM(OpenBMB)

VoxCPMのイメージ

  • 公式: https://github.com/OpenBMB/VoxCPM
  • 運営: OpenBMB(MiniCPMシリーズの開発元)
  • リリース: 2026年4月(GitHub Stars 13,000超え)
  • 特徴:
    • トークナイザーフリーのTTSという革新的な設計。従来の離散トークン化を排除し、連続的な音声表現を拡散自己回帰アーキテクチャで直接生成。
    • 2Bパラメータ・200万時間以上の多言語音声データで学習
    • 30言語対応(日本語含む)——言語タグ不要で入力するだけで自動判別
    • Voice Design:「若い女性、落ち着いたトーン、ゆっくりしたペース」のようなテキスト説明だけで新しい声を創出(参考音声不要)
    • Controllable Cloning:短いリファレンス音声からクローニング。感情・テンポ・表現をガイドしながら元の声色を保持
    • Ultimate Cloning:リファレンス音声+テキストを与えると、音色・リズム・感情・スタイルまで忠実に再現
    • 48kHz スタジオ品質の音声出力(16kHz入力から48kHzに超解像アップサンプリング)
    • RTF約0.3(RTX 4090)、Nano-VLLMで約0.13まで高速化可能
    • Apache 2.0ライセンス——完全オープンソース・商用利用可
  • インストール: pip install voxcpm
  • 日本語: ◎
  • 音声クローン: ◎(音声なし・短音声・完全クローンの3段階)

ヒント

VoxCPMの「Voice Design」機能はテキスト説明だけで新しい声を作れるという点で他のTTSと一線を画しています。リファレンス音声すら不要でキャラクター音声を設計できる、2026年で最も革新的なTTS機能のひとつです。


🏆 商用クラウドTTS 主要サービス

1. ElevenLabs(業界標準)

ElevenLabsのイメージ

  • 公式: https://elevenlabs.io/
  • 特徴: 1万種以上のAI音声、日本語対応(関西弁などの方言も)。最新モデル「Eleven v3」は自然言語タグで感情・トーンをインライン制御できる。音声クローンは「Instant」(数秒)から「Professional」(高精度)まで選択可能。2026年2月に評価額$110億でSeries Dを調達した業界最注目企業。
  • 料金: 無料プランあり、Pro $99/月〜(約100万文字)
  • 日本語: ◎(関西弁対応あり)
  • 音声クローン: ◎

2. OpenAI TTS(GPT-4o mini TTS)

  • 公式: https://platform.openai.com/docs/guides/text-to-speech
  • 特徴: 最新モデル gpt-4o-mini-tts-2025-12-15 は単語誤り率(WER)を35%改善。11種類の組み込み音声から選択。ChatGPT APIと親和性が高く、LLMと組み合わせた用途に最適。
  • 料金: $0.60/百万トークン(約$0.015/分)
  • 日本語: ○
  • 音声クローン: ❌

3. Google Cloud TTS(Chirp 3 HD)

  • 公式: https://cloud.google.com/text-to-speech
  • 特徴: Chirp 3 HDは超自然な音声品質で31言語8新スピーカーを追加。「Instant Custom Voice」機能で音声クローニングも対応(eu・us地域)。月100万文字まで無料(WaveNet音声)。
  • 料金: WaveNet $16/百万文字、Chirp 3 HD $30/百万文字
  • 日本語: ◎
  • 音声クローン: ○(Chirp 3のみ)

4. Microsoft Azure Neural TTS


5. Amazon Polly

  • 公式: https://aws.amazon.com/polly/
  • 特徴: 2026年3月に10の新音声と8ロケール拡張を実施。「Bidirectional Streaming API」でLLMからの直接ストリーミング配信が可能に。AWSインフラと直結しているためバックエンド組み込みに強い。
  • 料金: 従量課金(比較的安価)
  • 日本語: ○
  • 音声クローン: ❌

6. Murf AI(Falcon)

  • 公式: https://murf.ai/
  • 特徴: 最新エンジン「Falcon」はサブ55msの超低遅延TTSを実現。35言語以上・150以上の音声。Canva・PowerPoint・Google Slidesとの統合対応。SOC 2・HIPAA・ISO 42001など各種認証を取得しており、企業利用に安心。
  • 料金: 無料プランあり
  • 日本語: ○
  • 音声クローン: ◎

7. Cartesia AI(Sonic 3)

  • 公式: https://cartesia.ai/
  • 特徴: Sonic 3 Turboは40msという業界最速レイテンシを実現。40言語以上対応。音声に笑いを加える機能や、数秒の音声からのクローニングも可能。リアルタイム会話AIとの組み合わせに最適。
  • 料金: 従量課金+月額プラン
  • 日本語: ○
  • 音声クローン: ◎

8. LMNT

  • 公式: https://www.lmnt.com/
  • 特徴: 150〜200msの低遅延でリアルタイム会話向けに特化。24言語対応、5秒の音声サンプルからクローニング可能。Khan Academyが採用するなど教育分野での実績あり。
  • 料金: 無料枠あり、Indie $10/月
  • 日本語: ○
  • 音声クローン: ◎

9. Speechify

  • 公式: https://speechify.com/
  • 特徴: 5,000万人以上が使う大手TTSアプリ。1,000以上のAI音声・60言語対応。読み上げ特化でEPUB・PDF・Webページを自然に読み上げる。音声クローニング・Voice Typing機能も搭載。
  • 料金: 無料あり、Premium $29/月 or $139/年
  • 日本語: ○
  • 音声クローン: ◎

10. Resemble AI(Chatterbox)

  • 公式: https://www.resemble.ai/
  • 特徴: 「Chatterbox Turbo」(350Mパラメータ)は23言語対応。咳・笑い・つぶやきなどのParalinguistic tagsで人間らしさを演出。音声透かし技術「Perth Watermarker」を搭載し、フェイク検出にも対応。
  • 料金: オープンソース版あり
  • 日本語: ○
  • 音声クローン: ◎

11. Hume AI(Octave 2)

  • 公式: https://www.hume.ai/
  • 特徴: LLMベースの感情理解TTSが最大の強み。自然言語でトーン・感情・スタイルを指示できる。200ms以下の低遅延。オープンソース版「TADA」はリアルタイム速度の5倍速(RTF 0.09)を達成。
  • 料金: APIベース従量課金
  • 日本語: ◎(11言語)
  • 音声クローン: ○

12. Gemini API TTS(Google)

  • 公式: https://ai.google.dev/gemini-api/docs/speech-generation
  • 特徴: Gemini 2.5 Flash/Proに統合されたTTS機能。複数話者対応・自然言語プロンプトでスタイル制御が可能。LLMと音声生成がシームレスに連携するのが強み。
  • 料金: Gemini API料金に準拠
  • 日本語: ◎
  • 音声クローン: ❌

🇯🇵 日本語特化型TTS

13. VOICEVOX

VOICEVOXのイメージ

  • 公式: https://voicevox.hiroshiba.jp/
  • 特徴: 日本語特化の完全無料オープンソースTTS。ディープラーニングによる自然なイントネーション。2026年2月26日にさくらインターネットの「さくらのAI Engine」でクラウド版APIが公開され、OpenAI互換API形式でも使えるようになった。
  • 料金: 無料(オープンソース)
  • 日本語: ◎(日本語専用)
  • 音声クローン: ❌

VOICEVOXは「日本語の自然な読み上げを無料で」という用途では今でもベストの選択肢のひとつ。


14. CoeFont

  • 公式: https://coefont.cloud/
  • 特徴: 10,000以上のAI音声。従来50時間かかっていた日本語音声クローニングをわずか5分で実現。日本語から英語・スペイン語・中国語・フランス語へのクロスリンガルTTSも対応。「CoeFont通訳」は2026年の日経トレンディ1位を獲得。
  • 料金: 階層制(無料枠あり)
  • 日本語: ◎(日本語特化)
  • 音声クローン: ◎(5分クローン)

15. VOICEPEAK(AHS / Dreamtonics)

  • 公式: https://www.ah-soft.com/voice/
  • 特徴: 「Syllaflow」音声合成エンジン採用で人間と区別しにくい品質を実現。ナレーター系・キャラクター系両方の音声を用意。商用利用可能なライセンス設計。
  • 料金: ソフトウェア買い切り(6ナレーターセット等)
  • 日本語: ◎(日本語専用)
  • 音声クローン: ❌

16. AITalk(エーアイ)

  • 公式: https://www.ai-j.jp/
  • 特徴: 法人向け日本語TTS老舗。独自の日本語言語分析エンジンで高い発音精度を誇る。AITalk WebAPI(2025年9月更新)でクラウド利用も可能。100以上のスピーカー・60言語対応。
  • 料金: ライセンス制(法人向け)
  • 日本語: ◎
  • 音声クローン: ○

17. AivisSpeech

  • 公式: https://aivis-project.com/
  • 特徴: 0.3秒のリアルタイム音声生成と感情豊かな合成が特徴。「Aivis Cloud API」としてクラウド提供も開始。日本語向け最新鋭エンジンのひとつ。
  • 料金: API従量課金
  • 日本語: ◎(日本語専用)
  • 音声クローン: ○

🔓 オープンソースTTS

18. Fish Speech S2-Pro

  • 公式: https://fish.audio/
  • 特徴: 2026年3月にオープンソース化。80言語・1,000万時間の学習データ。[whisper], [excited], [angry] などのタグで感情制御が可能。ElevenLabsと同等〜それ以上の品質との評価も。Dual-Autoregressive + RL Alignmentという独自設計。
  • 料金: オープンソース(商用利用可)
  • 日本語: ◎(日本語データ100,000時間)
  • 音声クローン: ◎

19. Kokoro TTS

  • 公式: https://kokorottsai.com/
  • 特徴: わずか82Mパラメータながら2026年1月にTTS Arenaで1位を獲得した超軽量高品質モデル。英・仏・韓・日・中に対応。リアルタイムの210倍速で動作しCPU負荷も低い。Apache 2.0ライセンスで商用利用可。
  • 料金: オープンソース(Apache 2.0)
  • 日本語: ◎
  • 音声クローン: ○

20. Qwen3-TTS(Alibaba)

  • 公式: Hugging Face / GitHub
  • 特徴: 2026年1月公開のAlibabaのオープンソースTTS。3秒の音声サンプルから超高精度なボイスクローニングを実現。10言語以上(日本語含む)対応。ストリーミング時97msの超低遅延。500万時間以上の学習データ。
  • 料金: オープンソース(商用利用可)
  • 日本語: ◎
  • 音声クローン: ◎(3秒クローン)

21. CosyVoice 3(Alibaba)

  • 公式: https://cosyvoice.org/
  • 特徴: LLMベース。9言語・18の中国方言対応。ゼロショットのマルチ言語クローニング。ストリーミング対応(150msレイテンシ)。Pinyin/CMU音素制御でプロ向け調整も可能。
  • 料金: オープンソース
  • 日本語: ◎
  • 音声クローン: ◎

22. Voxtral TTS(Mistral)

  • 公式: https://mistral.ai/news/voxtral-tts
  • 特徴: 2026年3月発表。4Bパラメータで9言語対応。2〜3秒のゼロショットクローニング。感情・アクセント・話し方を保持しながらの音声生成。ElevenLabs Flash v2.5と同等品質との評価。オープンウェイト(CC BY-NC 4.0)でAPI提供も。
  • 料金: $0.016/1,000文字(API)
  • 日本語: ○
  • 音声クローン: ◎

23. IndexTTS-2(Bilibili)

  • 公式: GitHub
  • 特徴: 感情と話者特性を独立して制御できる設計が特徴。動画吹き替え向けに精密な継続時間制御を搭載しており、元の口パクにピッタリ合わせた音声生成が可能。ゼロショット音声クローニング対応。
  • 料金: オープンソース
  • 日本語: ○
  • 音声クローン: ◎

24. F5-TTS

  • 公式: https://github.com/SWivid/F5-TTS
  • 特徴: Flow matching + DiT技術を採用した336Mパラメータのモデル。WER 2.42という非常に低い誤り率。RTF 0.15の高速生成。英・仏・独・日などマルチ言語対応。
  • 料金: オープンソース
  • 日本語: ○
  • 音声クローン: ◎

25. Bark(Suno AI)

  • 公式: https://github.com/suno-ai/bark
  • 特徴: 100以上のスピーカー対応。笑い・音楽・音響効果まで生成できるユニークな設計。感情的・創作的な音声(オーディオブック・ポッドキャスト)に向いている。完全生成型のモデル。
  • 料金: オープンソース(MIT)
  • 日本語: ○
  • 音声クローン: △

26. StyleTTS 2

  • 公式: https://github.com/yl4579/StyleTTS2
  • 特徴: 拡散モデル+敵対的学習を組み合わせた研究系モデル。LJSpeechベンチマークで人間スコアを超えた品質を記録。
  • 料金: オープンソース
  • 日本語: △
  • 音声クローン: ○

27. Coqui TTS / XTTS v2

  • 公式: https://github.com/coqui-ai/TTS
  • 特徴: 17言語対応の音声クローニング対応TTSフレームワーク。本家Coquiは解散したが、2025年12月にIdiap Research Instituteがフォークを継続メンテナンス中。
  • 料金: オープンソース
  • 日本語: ○
  • 音声クローン: ◎

28. Sesame CSM-1B

  • 公式: https://csm1b.com/
  • 特徴: 1Bパラメータの会話音声生成モデル。ターンテイキング・バックチャネルなど自然な会話のリズムを生成できる。Llama backboneとMimiオーディオコーデックを使用。API提供あり。
  • 料金: オープンソース+APIアクセス
  • 日本語: △
  • 音声クローン: ○

便利ツール・統合型サービス

29. Podcastle AI

  • 公式: https://podcastle.ai/
  • 特徴: 自社開発エンジン「Asyncflow v1.0」採用。500以上のAI音声・無制限カスタム音声クローニング。同等スペックのElevenLabsと比べて約40%安い料金設定が魅力。
  • 日本語: ○

30. Murf AI Studio

  • 公式: https://murf.ai/
  • 特徴: 前述のMurf AIのスタジオ版。ナレーション動画の制作に特化したUIで、スライド・タイムライン・BGMを統合管理できる。
  • 料金: 従量課金制

31. Descript Overdub

  • 公式: https://www.descript.com/
  • 特徴: テキスト編集で動画・音声を修正できるDescriptの音声クローン機能。自分の声をクローンして、後からテキストを打つだけで自分の声で追加録音できる。
  • 料金: Free〜Pro階層

32. Natural Reader

  • 公式: https://www.naturalreaders.com/
  • 特徴: 200以上のAI音声・50言語。PDF・EPUB・Webページを読み上げるシンプルな用途に最適。ブラウザ拡張機能・iOS/Androidアプリ対応。
  • 料金: 無料プランあり
  • 日本語: ○

比較まとめ表

サービス品質日本語音声クローン無料向いている用途
VoxCPMVoice Design・商用
ElevenLabs全般・ナレーション
Google Chirp 3大規模API利用
Azure Neural企業・法人向け
Murf Falconスライド・動画
Cartesia Sonic 3リアルタイム会話AI
Fish Speechローカル・商用
Kokoro TTS軽量・CPU動作
Qwen3-TTS高精度クローン
VoxtralAPI・低コスト
IndexTTS-2動画吹き替え
VOICEVOX日本語・無料
CoeFont日本語クローン
VOICEPEAK日本語品質重視
Hume Octave 2感情表現
Bark効果音込み創作

(◎ 優秀 / ○ 対応 / △ 限定 / ❌ 非対応)


用途別おすすめ

「日本語で無料から試したい」→ VOICEVOX or Kokoro TTS

VOICEVOXは操作が簡単で日本語に特化。KokoroはApache 2.0のオープンソースで商用利用も可能。

「自分の声でクローンしたい」→ CoeFont or ElevenLabs

CoeFont は5分の録音で日本語クローンが完成。ElevenLabsは英語中心だが品質は業界最高峰。

「動画吹き替えに使いたい」→ IndexTTS-2 or CosyVoice 3

口パクの長さに合わせた精密な継続時間制御が可能で、動画翻訳・吹き替えに最適。

「リアルタイム会話AIに組み込みたい」→ Cartesia Sonic 3 or LMNT

40〜200msの超低遅延TTSはリアルタイム会話ボットの構築に欠かせない。

「企業・法人利用で安全に使いたい」→ Azure Neural TTS or Google Chirp 3

SOC 2・HIPAA・GDPRなどの認証を取得した商用グレードのサービスを選びましょう。

「感情を込めた音声を作りたい」→ Hume AI or Fish Speech

Hume AIは自然言語でトーン・感情を指示でき、Fish Speechは[excited]などのタグで制御可能。


VOICEVOXから次のステップを踏むなら

VOICEVOXを使っている方が次に試すべきは用途次第です:

  • 日本語クローンをやってみたいCoeFont(5分録音でOK)
  • 英語コンテンツも作りたいElevenLabs(無料枠あり)
  • ローカルで動かしたいKokoro TTS or Fish Speech(オープンソース)
  • 動画制作に使いたいMurf AI(スライド統合)or IndexTTS-2(吹き替え向け)

ヒント

まずはElevenLabsの無料プランとCoeFontを試してみてください。どちらも日本語対応していて、VOICEVOXとの品質差を体感しやすいです。

関連記事