Skip to main content Link Menu Expand (external link) Document Search Copy Copied

English

SpeechDock — 基本機能

SpeechDockは、macOSのTTS/STTをより柔軟で使いやすくします。macOSには強力な音声認識・音声合成エンジンが搭載されていますが、手軽に活用する手段がありませんでした。SpeechDockがこの問題を解決します — メニューバーに常駐し、Macのどこからでもアクセスできます。

インストール後すぐに使用でき、APIキーや追加ダウンロードは不要です。

インストール

  1. Releasesページから最新の.dmgファイルをダウンロード
  2. DMGファイルを開き、SpeechDockをアプリケーションフォルダにドラッグ
  3. アプリケーションからSpeechDockを起動

動作環境

  • macOS 14.0 (Sonoma) 以降
  • Apple Silicon Mac (M1/M2/M3/M4)

権限

SpeechDockには以下の権限が必要または推奨されます:

権限 レベル 用途
マイク 必須 音声認識入力
アクセシビリティ 推奨 グローバルキーボードショートカットとテキスト挿入
画面収録 オプション システム音声/アプリ音声のキャプチャ、OCR、ウィンドウサムネイル

初回起動時に、SpeechDockはリアルタイムステータスインジケータ付きの権限セットアップウィンドウを表示します。システム設定 > プライバシーとセキュリティ で権限を付与すると、アプリを再起動することなくセットアップウィンドウが自動的に更新されます。必要な権限が不足している機能はUIで無効化され、明確な視覚的インジケータが表示されます。

音声認識 (STT)

STT Panel
STTパネル — 複数の音声ソースに対応したリアルタイム音声認識

内蔵のmacOS音声認識エンジンを使用して音声をテキストに変換します。APIキーは不要です。

  • macOS 14–15: AppleのSFSpeechRecognizerを使用(60秒間隔で自動再起動)
  • macOS 26以降: SpeechAnalyzerフレームワークを使用(時間制限なし、精度向上)

音声ソース

ソース 説明 要件
マイク 接続されたマイクから録音 マイク権限
システム音声 Macからのすべての音声出力をキャプチャ 画面収録権限
アプリ音声 特定のアプリケーションからの音声をキャプチャ 画面収録権限

STTパネル

グローバルホットキー(デフォルト: Cmd + Shift + Space)またはメニューバーからSTTパネルを開きます。

操作 ショートカット
録音 / 停止 Cmd + R / Cmd + S
ターゲットにペースト Cmd + Return
ペースト先を選択 Cmd + Shift + Return
キャンセル Cmd + .
Select Paste Target
ペースト先の選択 — 文字起こしテキストを受け取るアプリケーションを選択

自動録音開始: 設定で有効にすると、STTパネルを開いた直後に録音が開始されます。

VAD(音声区間検出)

無音を検出すると自動的に録音を停止します:

  • 最小録音時間: VADが有効になるまでの録音時間(デフォルト: 10秒)
  • 無音時間: 停止するまでの無音の長さ(デフォルト: 3秒)

設定 > 音声認識で設定します。

音声合成 (TTS)

TTS Panel
TTSパネル — 速度調整と音声保存機能付きのテキスト読み上げ

内蔵のmacOS音声合成を使用してテキストを音声に変換します。APIキーは不要です。

TTSパネル

グローバルホットキー(デフォルト: Ctrl + Option + T)またはメニューバーからTTSパネルを開きます。

操作 ショートカット
再生 / 停止 Cmd + Return / Cmd + .
音声を保存 Cmd + S

入力方法:

  • パネルに直接テキストを入力
  • 他のアプリでテキストを選択し、TTSホットキーを押す(選択テキストを自動キャプチャ)
  • OCRを使用して画面からテキストをキャプチャ

自動再生: 有効にすると、パネルを開いたときにキャプチャしたテキストを自動的に読み上げます。

速度調整

TTSパネルのスライダーで再生速度を0.5倍から2.0倍に調整できます。再生中でもリアルタイムで速度変更が適用されます。

音声を保存

Cmd + Sを押すか、保存ボタンをクリックして合成音声をファイルに保存します。テキストは5文字以上必要です。

OCR読み上げ

OCR Selection
OCR選択 — テキスト認識のための画面領域をドラッグで選択

画面の任意の領域からテキストをキャプチャし、TTSパネルに送信します:

  1. OCRホットキー(デフォルト: Ctrl + Option + Shift + O)を押す
  2. テキストを含む領域をドラッグして選択
  3. 認識されたテキストがTTSパネルに表示される
  4. 必要に応じて編集し、再生を押す

テキスト認識にはmacOS Vision Frameworkを使用します。

字幕モード

Subtitle Overlay
字幕オーバーレイ — フローティング字幕として表示されるリアルタイム文字起こし

リアルタイムの文字起こしをフローティング字幕オーバーレイとして表示します:

  • フローティング字幕 — すべてのウィンドウの上に表示
  • クリックスルー — 作業の邪魔にならない
  • カスタマイズ可能 — フォントサイズ、不透明度、最大行数、位置
  • ドラッグ可能 — 画面上の任意の位置に配置
  • リアルタイム翻訳 — 話しながら字幕を翻訳(オプション)

ホットキー(デフォルト: Ctrl + Option + S)、STTパネル、またはメニューバーから切り替えます。

字幕には現在の録音セッションの文字起こしのみが表示されます。以前のセッションは表示されません。

字幕の翻訳

字幕オーバーレイで直接リアルタイム翻訳を有効にできます:

  1. 字幕ヘッダーの地球儀アイコン(🌐)をクリックして翻訳を有効化
  2. ドロップダウンメニューからターゲット言語とプロバイダを選択
  3. 翻訳されたテキストが元の文字起こしの下に表示される

翻訳設定は字幕モード開始時にSTTパネルから同期されます。字幕オーバーレイ内で独立して変更することもできます。

クイック入力

Quick Transcription
クイック入力 — ボタンをクリックすると録音が停止し、文字起こしテキストがカーソル位置にペーストされます

STTパネルを開かずに音声入力を行うフローティングマイクボタン。任意のアプリケーションへの素早い音声入力に最適です。

使い方

  1. メニューバーからFloating Mic Buttonを有効にする
  2. ボタンをクリックするかCtrl + Option + Mを押して録音開始
  3. 話す — リアルタイムの文字起こしがボタン横のフローティングHUDに表示される
  4. 再度クリックするかCtrl + Option + Mを押して停止
  5. 文字起こしテキストが最前面のアプリに自動的にペーストされる

機能

  • フローティングボタン — 48pxの丸型ボタン、常に画面上に表示
  • ドラッグ可能 — 任意の位置にドラッグ可能、位置はセッション間で保存
  • リアルタイムHUD — 話しながら文字起こしテキストを表示
  • 自動ペースト — 録音停止時に文字起こしテキストがペーストされる
  • コンテキストメニュー — 右クリックでSTTプロバイダの切り替えやボタンの非表示が可能

ボタンの状態

状態 外観
待機中 マイクアイコン付きの灰色ボタン
ホバー アクセントカラー
録音中 パルスアニメーション付きの赤、停止アイコン

ボタンのツールチップには現在のショートカットと録音時間が表示されます。

翻訳

Translation Controls
翻訳コントロール — ワンクリックでテキストを翻訳

macOSのオンデバイス翻訳を使用して、文字起こしテキストやTTSテキストを翻訳します(macOS 26以降が必要)。APIキー不要で、約18言語に対応しています。

使い方

  1. STTまたはTTSパネルでテキストを入力または文字起こし
  2. 言語ドロップダウン(例: → Japanese ▼)からターゲット言語を選択
  3. [🌐 Translate]をクリックしてテキストを翻訳
  4. [🌐 Original ◀]をクリックして元のテキストに戻す

翻訳コントロールはテキストが3文字以上あり、録音/再生中でない場合に表示されます。言語選択と翻訳実行は別々の操作なので、翻訳を実行せずにターゲット言語を変更できます。

TTS言語の同期: テキストを翻訳すると、TTS言語が翻訳先の言語に自動的に切り替わります。元に戻すと、以前のTTS言語が復元されます。

その他の翻訳オプション(100以上の言語、高品質)については、高度な機能を参照してください。

テキスト置換

STT出力やTTS入力のパターンを自動的に修正・置換するルールを定義します。

組み込みパターン

パターン デフォルトの置換
URL https://example.com ” URL “
メールアドレス user@example.com ” Email “
ファイルパス /path/to/file ” Path “

各パターンはオン/オフを切り替えでき、置換テキストをカスタマイズできます。

カスタムルール

設定 > テキスト置換で独自の正規表現ベースの置換ルールを追加します。ルールはJSONファイルとしてエクスポート/インポートできます。

TTSパネルでは、マッチしたテキストがオレンジ色の下線とツールチップでハイライト表示されます。

キーボードショートカット

グローバルホットキー

操作 デフォルト
STTパネルの切替 Cmd + Shift + Space
TTSパネルの切替 Ctrl + Option + T
OCR領域から読み上げ Ctrl + Option + Shift + O
字幕モードの切替 Ctrl + Option + S
クイック入力 Ctrl + Option + M

設定 > ショートカットでカスタマイズできます。

パネル内で ? を押すとキーボードショートカットのチートシートが表示されます:

Keyboard Shortcuts
キーボードショートカット チートシート

パネルショートカット

パネルショートカットは設定 > ショートカットで修飾キーのサポート付きでカスタマイズできます。

パネルスタイル

設定 > 外観で選択:

  • フローティング — 常に最前面のボーダーレスパネル、どこからでもドラッグ可能
  • 標準ウィンドウ — タイトルバー付きの通常のmacOSウィンドウ

一度に開けるパネル(STTまたはTTS)は1つだけです。一方を開くともう一方は閉じます。

メニューバー

Menu Bar
メニューバー — すべての機能へのクイックアクセス

メニューバーのSpeechDockアイコンをクリックして以下にクイックアクセス:

  • STT録音の開始/停止
  • 選択テキストのTTSを開く
  • 字幕モードとフローティングマイクボタンの切替
  • 音声ファイルの文字起こし
  • 文字起こし履歴の閲覧
  • OCR読み上げ
  • 設定、ヘルプ、Aboutにアクセス

設定

Cmd + , またはメニューバーから設定を開きます。統合設定ウィンドウはサイドバーで以下のカテゴリに分かれています:

Speech-to-Text Settings
音声認識 — プロバイダ、モデル、言語、音声入力、自動停止、パネル動作
Text-to-Speech Settings
音声合成 — プロバイダ、モデル、音声、速度、音声出力、パネル動作
Translation Settings
翻訳 — パネル翻訳プロバイダ/モデル、字幕翻訳設定
Subtitle Settings
字幕 — オン/オフ、位置、フォントサイズ、テキスト/背景の不透明度、最大行数
Shortcuts Settings
ショートカット — グローバルホットキーとパネルショートカット
Text Replacement Settings
テキスト置換 — 組み込みパターンとカスタムルール
Appearance Settings
外観 — テキストフォントサイズ、パネルスタイル、ログイン時に起動

APIキーの設定については高度な機能を参照してください。

プライバシーとセキュリティ

  • macOSネイティブ: すべての音声処理はデバイス上で行われます。外部にデータは送信されません。
  • APIキー: macOSキーチェーンに保存され、各プロバイダ以外には送信されません。
  • テレメトリなし: SpeechDockは使用状況データを収集・送信しません。

トラブルシューティング

STTが動作しない

  1. マイク権限が付与されているか確認
  2. システム音声/アプリ音声の場合、画面収録権限を確認
  3. アプリを再起動してみる

TTSが動作しない

  1. 音声出力がミュートされていないか確認
  2. 別の出力デバイスを選択してみる
  3. アプリを再起動してみる

ショートカットが反応しない

  1. アクセシビリティ権限が付与されているか確認
  2. 他のアプリケーションとの競合を確認
  3. 設定でショートカットをデフォルトにリセット

OCRが動作しない

  1. 画面収録権限が付与されているか確認
  2. より大きな領域で、より鮮明なテキストを選択してみる

前へ: ホーム 次へ: 高度な機能