SpeechDock — 高度な機能
このページでは、クラウドプロバイダのAPIキーが必要な機能について説明します。これらはオプション機能です。SpeechDockはAPIキーなしでもmacOSネイティブのSTT/TTSで完全に動作します。
APIキーの設定
クラウドプロバイダを使用するには、設定 > APIキーでAPIキーを設定してください。
| プロバイダ | APIキーの取得 | 環境変数 |
|---|---|---|
| OpenAI | OpenAI Platform | OPENAI_API_KEY |
| Google Gemini | Google AI Studio | GEMINI_API_KEY |
| ElevenLabs | ElevenLabs Settings | ELEVENLABS_API_KEY |
| Grok (xAI) | xAI Console | GROK_API_KEY |
APIキーはmacOSキーチェーンに安全に保存されます。開発時には環境変数を設定することもできます。
クラウドSTTプロバイダ
クラウドプロバイダは、macOSネイティブSTTと比較して、より高い精度、より多くの言語サポート、特殊な機能を提供します。
| プロバイダ | モデル | 特徴 |
|---|---|---|
| OpenAI | GPT-4o Transcribe、GPT-4o Mini Transcribe、Whisper | 高精度、100以上の言語 |
| Google Gemini | Gemini 2.5 Flash Native Audio、Gemini 2.0 Flash Live | マルチモーダル、高速 |
| ElevenLabs | Scribe v2 Realtime | 低遅延、自然な句読点 |
| Grok | Grok 2 | xAIのリアルタイム文字起こし |
プロバイダは設定 > 音声認識から選択できます。
クラウドTTSプロバイダ
クラウドTTSは、さまざまなスタイルと言語で自然な音声を提供します。
| プロバイダ | モデル | 音声 |
|---|---|---|
| OpenAI | GPT-4o Mini TTS、TTS-1、TTS-1 HD | alloy、echo、fable、onyx、nova、shimmer |
| Google Gemini | Gemini 2.5 Flash TTS、Gemini 2.5 Pro TTS | 多言語音声 |
| ElevenLabs | Eleven v3、Eleven Flash v2.5、Eleven Multilingual v2、Eleven Turbo v2.5 | 豊富な音声ライブラリ |
| Grok | Grok 2 | Clio、Sage、Charon、Fenrir、Leda |
音声とモデルの選択
各プロバイダは異なる音声とモデルを提供しています。以下から選択できます:
- 設定 > 音声合成(永続的な設定)
- TTSパネルのヘッダー(クイック切り替え)
音声出力デバイス
TTS再生を任意の音声出力デバイス(スピーカー、ヘッドフォン、仮想デバイス)にルーティングできます。設定 > 音声合成またはTTSパネルから選択してください。
音声ファイルの文字起こし
録音済みの音声ファイルを文字起こしできます。クラウドSTTプロバイダとmacOSネイティブ(macOS 26+)で利用可能です。Grokプロバイダでは利用できません。
| プロバイダ | 形式 | 最大サイズ | 最大長 | API |
|---|---|---|---|---|
| macOS(26+) | MP3、WAV、M4A、AAC、AIFF、FLAC、MP4 | 500 MB | 無制限 | SpeechAnalyzer(オフライン) |
| OpenAI | MP3、WAV、M4A、FLAC、WebM、MP4 | 25 MB | 無制限 | Whisper |
| Gemini | MP3、WAV、AAC、OGG、FLAC | 20 MB | 約10分 | generateContent |
| ElevenLabs | MP3、WAV、M4A、OGG、FLAC | 25 MB | 約2時間 | Scribe v2 |
注意: macOSネイティブのファイル文字起こしにはmacOS 26以降が必要です。音声はすべてデバイス上で処理され、APIキーやインターネット接続は不要です。
文字起こしの方法
ドラッグ&ドロップ: 音声ファイルをSTTパネルのテキストエリアにドラッグします。
メニューバー: SpeechDockメニューバーからTranscribe Audio File…を選択します。
STTパネルのプレースホルダーには、現在選択されているプロバイダがサポートする形式と制限が表示されます。
外部プロバイダによる翻訳
macOSのオンデバイス翻訳は約18言語をサポートしていますが、クラウドプロバイダでは以下が可能です:
- 25以上の言語(言語リストのすべての言語)
- LLMを使用した高品質な翻訳
- macOS 14以降で動作(macOS 26の要件なし)
翻訳プロバイダとモデル
| プロバイダ | モデル | 備考 |
|---|---|---|
| macOS(デフォルト) | System | オンデバイス、APIキー不要、macOS 26以降 |
| OpenAI | GPT-5 Nano(デフォルト)、GPT-5 Mini、GPT-5.2 | 高速、高品質 |
| Gemini | Gemini 3 Flash(デフォルト)、Gemini 3 Pro | 高速、多言語対応 |
| Grok | Grok 3 Fast(デフォルト)、Grok 3 Mini Fast | 高速翻訳 |
翻訳プロバイダの切り替え
- 設定 > 翻訳: デフォルトのプロバイダとモデルを設定
- パネル: 翻訳コントロールの横にある
⚡ボタンをクリックしてクイック切り替え
プロバイダの自動同期
STTまたはTTSプロバイダを切り替えると、翻訳プロバイダが自動的に同期されます:
| STT/TTSプロバイダ | 翻訳プロバイダ |
|---|---|
| OpenAI | OpenAI |
| Gemini | Gemini |
| Grok | Grok |
| ElevenLabs / macOS | macOS |
字幕リアルタイム翻訳
字幕モードを使用すると、話しながらリアルタイムで翻訳できます。これはすべての音声ソース(マイク、システム音声、アプリ音声)で動作します。
動作の仕組み
- 字幕モードを有効化(
Ctrl + Option + S) - 字幕ヘッダーの地球儀アイコン(🌐)をクリックして翻訳を有効化
- ターゲット言語と翻訳プロバイダを選択
- 録音を開始 — 翻訳がリアルタイムで表示される
字幕用翻訳プロバイダ
| プロバイダ | デバウンス | 最適な用途 |
|---|---|---|
| macOS | 300ms | 高速、ローカル、プライバシー重視 |
| OpenAI | 800ms | 高品質、多言語対応 |
| Gemini | 600ms | 速度と品質のバランス |
| Grok | 800ms | 高速翻訳 |
注意: 字幕翻訳は最適なパフォーマンスのためにプロバイダのデフォルトモデルを使用します。これはパネル翻訳設定で選択されたモデルとは独立しています。
機能
- キャッシュ — 繰り返されるフレーズはキャッシュから即座に翻訳(最大200エントリ)
- コンテキスト対応 — LLMプロバイダはより良い翻訳のために最近の文章をコンテキストとして使用
- ポーズ検出 — 1.5秒の無音後に自動的に翻訳をトリガー
- 設定同期 — 字幕モード開始時にSTTパネルから翻訳設定を同期
制限事項
- 翻訳は文字起こしのみのモードと比較していくらかの遅延を追加
- クラウドプロバイダはAPIキーとインターネット接続が必要
- macOSプロバイダはmacOS 26以降とダウンロード済みの言語パックが必要
言語の選択
STTとTTSの両方で、すべてのクラウドプロバイダで言語選択がサポートされています:
- 自動(デフォルト): 話されている言語/対象言語を自動検出
- 手動: 25以上のサポート言語から選択
対応言語: 英語、日本語、中国語、韓国語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、ロシア語、アラビア語、ヒンディー語、オランダ語、ポーランド語、トルコ語、インドネシア語、ベトナム語、タイ語、ベンガル語、グジャラート語、カンナダ語、マラヤーラム語、マラーティー語、タミル語、テルグ語。
TTS速度制御(音声保存)
ファイルに音声を保存する際、速度はリアルタイム再生とは異なる方法で制御されます:
| プロバイダ | パラメータ | 範囲 | 備考 |
|---|---|---|---|
| OpenAI | speed | 0.25〜4.0 | TTS-1/TTS-1 HDのみ |
| ElevenLabs | voice_settings.speed | 0.7〜1.2 | アプリの範囲からマッピング |
| Gemini | テキスト指示 | なし | 自然言語によるペース指示 |
| macOS | 1分あたりの単語数 | 50〜500 | 基準175 wpm |
| Grok | — | — | 速度パラメータ非対応 |
リアルタイム再生では、速度は常にオーディオ処理によってローカルで制御され、再生中に動的に調整できます。
プライバシーに関する考慮事項
クラウドプロバイダを使用する場合:
- 音声データは処理のために各プロバイダのAPIに送信されます
- 各プロバイダには独自のプライバシーポリシーとデータ保持規則があります
- 最大限のプライバシーを確保するには、macOSネイティブプロバイダを使用してください(すべての処理がデバイス上で行われます)
- APIキーはmacOSキーチェーンに保存され、プロバイダ間で共有されることはありません
| 前へ: 基本機能 | 次へ: AppleScript自動化 |