SpeechDock — 基本機能
SpeechDockは、macOSのTTS/STTをより柔軟で使いやすくします。macOSには強力な音声認識・音声合成エンジンが搭載されていますが、手軽に活用する手段がありませんでした。SpeechDockがこの問題を解決します — メニューバーに常駐し、Macのどこからでもアクセスできます。
インストール後すぐに使用でき、APIキーや追加ダウンロードは不要です。
インストール
- Releasesページから最新の
.dmgファイルをダウンロード - DMGファイルを開き、SpeechDockをアプリケーションフォルダにドラッグ
- アプリケーションからSpeechDockを起動
動作環境
- macOS 14.0 (Sonoma) 以降
- Apple Silicon Mac (M1/M2/M3/M4)
権限
SpeechDockには以下の権限が必要または推奨されます:
| 権限 | レベル | 用途 |
|---|---|---|
| マイク | 必須 | 音声認識入力 |
| アクセシビリティ | 推奨 | グローバルキーボードショートカットとテキスト挿入 |
| 画面収録 | オプション | システム音声/アプリ音声のキャプチャ、OCR、ウィンドウサムネイル |
初回起動時に、SpeechDockはリアルタイムステータスインジケータ付きの権限セットアップウィンドウを表示します。システム設定 > プライバシーとセキュリティ で権限を付与すると、アプリを再起動することなくセットアップウィンドウが自動的に更新されます。必要な権限が不足している機能はUIで無効化され、明確な視覚的インジケータが表示されます。
音声認識 (STT)
内蔵のmacOS音声認識エンジンを使用して音声をテキストに変換します。APIキーは不要です。
- macOS 14–15: AppleのSFSpeechRecognizerを使用(60秒間隔で自動再起動)
- macOS 26以降: SpeechAnalyzerフレームワークを使用(時間制限なし、精度向上)
音声ソース
| ソース | 説明 | 要件 |
|---|---|---|
| マイク | 接続されたマイクから録音 | マイク権限 |
| システム音声 | Macからのすべての音声出力をキャプチャ | 画面収録権限 |
| アプリ音声 | 特定のアプリケーションからの音声をキャプチャ | 画面収録権限 |
STTパネル
グローバルホットキー(デフォルト: Cmd + Shift + Space)またはメニューバーからSTTパネルを開きます。
| 操作 | ショートカット |
|---|---|
| 録音 / 停止 | Cmd + R / Cmd + S |
| ターゲットにペースト | Cmd + Return |
| ペースト先を選択 | Cmd + Shift + Return |
| キャンセル | Cmd + . |
自動録音開始: 設定で有効にすると、STTパネルを開いた直後に録音が開始されます。
VAD(音声区間検出)
無音を検出すると自動的に録音を停止します:
- 最小録音時間: VADが有効になるまでの録音時間(デフォルト: 10秒)
- 無音時間: 停止するまでの無音の長さ(デフォルト: 3秒)
設定 > 音声認識で設定します。
音声合成 (TTS)
内蔵のmacOS音声合成を使用してテキストを音声に変換します。APIキーは不要です。
TTSパネル
グローバルホットキー(デフォルト: Ctrl + Option + T)またはメニューバーからTTSパネルを開きます。
| 操作 | ショートカット |
|---|---|
| 再生 / 停止 | Cmd + Return / Cmd + . |
| 音声を保存 | Cmd + S |
入力方法:
- パネルに直接テキストを入力
- 他のアプリでテキストを選択し、TTSホットキーを押す(選択テキストを自動キャプチャ)
- OCRを使用して画面からテキストをキャプチャ
自動再生: 有効にすると、パネルを開いたときにキャプチャしたテキストを自動的に読み上げます。
速度調整
TTSパネルのスライダーで再生速度を0.5倍から2.0倍に調整できます。再生中でもリアルタイムで速度変更が適用されます。
音声を保存
Cmd + Sを押すか、保存ボタンをクリックして合成音声をファイルに保存します。テキストは5文字以上必要です。
OCR読み上げ
画面の任意の領域からテキストをキャプチャし、TTSパネルに送信します:
- OCRホットキー(デフォルト:
Ctrl + Option + Shift + O)を押す - テキストを含む領域をドラッグして選択
- 認識されたテキストがTTSパネルに表示される
- 必要に応じて編集し、再生を押す
テキスト認識にはmacOS Vision Frameworkを使用します。
字幕モード
リアルタイムの文字起こしをフローティング字幕オーバーレイとして表示します:
- フローティング字幕 — すべてのウィンドウの上に表示
- クリックスルー — 作業の邪魔にならない
- カスタマイズ可能 — フォントサイズ、不透明度、最大行数、位置
- ドラッグ可能 — 画面上の任意の位置に配置
- リアルタイム翻訳 — 話しながら字幕を翻訳(オプション)
ホットキー(デフォルト: Ctrl + Option + S)、STTパネル、またはメニューバーから切り替えます。
字幕には現在の録音セッションの文字起こしのみが表示されます。以前のセッションは表示されません。
字幕の翻訳
字幕オーバーレイで直接リアルタイム翻訳を有効にできます:
- 字幕ヘッダーの地球儀アイコン(🌐)をクリックして翻訳を有効化
- ドロップダウンメニューからターゲット言語とプロバイダを選択
- 翻訳されたテキストが元の文字起こしの下に表示される
翻訳設定は字幕モード開始時にSTTパネルから同期されます。字幕オーバーレイ内で独立して変更することもできます。
クイック入力
STTパネルを開かずに音声入力を行うフローティングマイクボタン。任意のアプリケーションへの素早い音声入力に最適です。
使い方
- メニューバーからFloating Mic Buttonを有効にする
- ボタンをクリックするか
Ctrl + Option + Mを押して録音開始 - 話す — リアルタイムの文字起こしがボタン横のフローティングHUDに表示される
- 再度クリックするか
Ctrl + Option + Mを押して停止 - 文字起こしテキストが最前面のアプリに自動的にペーストされる
機能
- フローティングボタン — 48pxの丸型ボタン、常に画面上に表示
- ドラッグ可能 — 任意の位置にドラッグ可能、位置はセッション間で保存
- リアルタイムHUD — 話しながら文字起こしテキストを表示
- 自動ペースト — 録音停止時に文字起こしテキストがペーストされる
- コンテキストメニュー — 右クリックでSTTプロバイダの切り替えやボタンの非表示が可能
ボタンの状態
| 状態 | 外観 |
|---|---|
| 待機中 | マイクアイコン付きの灰色ボタン |
| ホバー | アクセントカラー |
| 録音中 | パルスアニメーション付きの赤、停止アイコン |
ボタンのツールチップには現在のショートカットと録音時間が表示されます。
翻訳
macOSのオンデバイス翻訳を使用して、文字起こしテキストやTTSテキストを翻訳します(macOS 26以降が必要)。APIキー不要で、約18言語に対応しています。
使い方
- STTまたはTTSパネルでテキストを入力または文字起こし
- 言語ドロップダウン(例:
→ Japanese ▼)からターゲット言語を選択 [🌐 Translate]をクリックしてテキストを翻訳[🌐 Original ◀]をクリックして元のテキストに戻す
翻訳コントロールはテキストが3文字以上あり、録音/再生中でない場合に表示されます。言語選択と翻訳実行は別々の操作なので、翻訳を実行せずにターゲット言語を変更できます。
TTS言語の同期: テキストを翻訳すると、TTS言語が翻訳先の言語に自動的に切り替わります。元に戻すと、以前のTTS言語が復元されます。
その他の翻訳オプション(100以上の言語、高品質)については、高度な機能を参照してください。
テキスト置換
STT出力やTTS入力のパターンを自動的に修正・置換するルールを定義します。
組み込みパターン
| パターン | 例 | デフォルトの置換 |
|---|---|---|
| URL | https://example.com | ” URL “ |
| メールアドレス | user@example.com | ” Email “ |
| ファイルパス | /path/to/file | ” Path “ |
各パターンはオン/オフを切り替えでき、置換テキストをカスタマイズできます。
カスタムルール
設定 > テキスト置換で独自の正規表現ベースの置換ルールを追加します。ルールはJSONファイルとしてエクスポート/インポートできます。
TTSパネルでは、マッチしたテキストがオレンジ色の下線とツールチップでハイライト表示されます。
キーボードショートカット
グローバルホットキー
| 操作 | デフォルト |
|---|---|
| STTパネルの切替 | Cmd + Shift + Space |
| TTSパネルの切替 | Ctrl + Option + T |
| OCR領域から読み上げ | Ctrl + Option + Shift + O |
| 字幕モードの切替 | Ctrl + Option + S |
| クイック入力 | Ctrl + Option + M |
設定 > ショートカットでカスタマイズできます。
パネル内で ? を押すとキーボードショートカットのチートシートが表示されます:
パネルショートカット
パネルショートカットは設定 > ショートカットで修飾キーのサポート付きでカスタマイズできます。
パネルスタイル
設定 > 外観で選択:
- フローティング — 常に最前面のボーダーレスパネル、どこからでもドラッグ可能
- 標準ウィンドウ — タイトルバー付きの通常のmacOSウィンドウ
一度に開けるパネル(STTまたはTTS)は1つだけです。一方を開くともう一方は閉じます。
メニューバー
メニューバーのSpeechDockアイコンをクリックして以下にクイックアクセス:
- STT録音の開始/停止
- 選択テキストのTTSを開く
- 字幕モードとフローティングマイクボタンの切替
- 音声ファイルの文字起こし
- 文字起こし履歴の閲覧
- OCR読み上げ
- 設定、ヘルプ、Aboutにアクセス
設定
Cmd + , またはメニューバーから設定を開きます。統合設定ウィンドウはサイドバーで以下のカテゴリに分かれています:
APIキーの設定については高度な機能を参照してください。
プライバシーとセキュリティ
- macOSネイティブ: すべての音声処理はデバイス上で行われます。外部にデータは送信されません。
- APIキー: macOSキーチェーンに保存され、各プロバイダ以外には送信されません。
- テレメトリなし: SpeechDockは使用状況データを収集・送信しません。
トラブルシューティング
STTが動作しない
- マイク権限が付与されているか確認
- システム音声/アプリ音声の場合、画面収録権限を確認
- アプリを再起動してみる
TTSが動作しない
- 音声出力がミュートされていないか確認
- 別の出力デバイスを選択してみる
- アプリを再起動してみる
ショートカットが反応しない
- アクセシビリティ権限が付与されているか確認
- 他のアプリケーションとの競合を確認
- 設定でショートカットをデフォルトにリセット
OCRが動作しない
- 画面収録権限が付与されているか確認
- より大きな領域で、より鮮明なテキストを選択してみる