TCSE ドキュメント

TED Corpus Search Engine(TCSE)のユーザーガイドです。
TCSE は TED Talk のトランスクリプトの検索に特化したサーチエンジンです。教育と研究での使用を目的として開発されました。TCSE は TED のデータを Creative Commons BY-NC-ND ライセンスのもとに使用していますが、TED による公式のサービスではありません。
現在のバージョン
- バージョン: 12.3.0
- トーク数: 6,419 TED Talks
- 対訳言語数: 34言語
- NLPエンジン: spaCy 3.8 (
en_core_web_lg) - 最終更新日: 2026年4月10日
最近のアップデート(v11–v12)
ユーザーインターフェース
- 多言語 UI — English、日本語、中文、한국어の4言語に対応。各ページの言語ボタンで切り替え可能
- 検索ワークフローの改善 — リセットボタンを廃止。検索語を入力して 検索 をクリックするだけで、いつでも新しい検索を開始できるようになりました
検索機能の追加
- KWIC コンコーダンス表示 — リスト表示と KWIC(Key Word In Context)表示をワンクリックで切り替え可能に
- 固有表現(NER)検索 — アドバンスト・サーチで
%PERSON、%ORG、%GPE、%DATE等を用いて固有表現を検索 - コロケーション分析 — MI、tスコア、DPによる統計分析。レンマベースで活用形を集約
- コロケーション・ネットワーク — 語の共起関係をフォースレイアウトグラフで視覚的に表示
- 検索結果エクスポート — トークン検索結果をTSV(ZIP)またはJSONでダウンロード。コンテキスト、言語アノテーション、翻訳付きで研究利用可能
コロケーション・可視化
- NER拡張Nグラム — 固有表現を
%TYPEラベル(例:%PERSON said、in %GPE)に置換し、エンティティ対応の頻度分析が可能に - ネットワークズームスライダー — スクロールに代わるズームコントロール(50%〜200%)で、グラフの拡大・縮小をより正確に操作可能に
- テキストハイライト デフォルトオフ — キーワードとディスコースマーカーのハイライトがデフォルトでオフに変更。すっきりしたトランスクリプト表示を実現
構文パターン・データ
- 構文カテゴリフィルタ — 句動詞・イディオム・文法・コロケーション・談話・NERパターンのカテゴリ別に絞り込み可能に
- 1,160件の構文パターン — 擬似分裂文、結果構文、NERパターン、形容詞主観性構文などの言語構造を追加
- 6,419 TED Talks — v10 から1,100件以上のトークを追加
主な機能
- 全文検索 — 全 TED Talk トランスクリプトを横断検索
- アドバンスト・サーチ — 品詞タグ、レンマ、依存関係、形態素情報、固有表現を用いた高度な言語検索
- KWIC コンコーダンス表示 — 言語学的な分析に適したコンコーダンス表示
- コロケーションモード — Nグラム頻度(1-gramから4-gram)、コロケーション分析、ネットワーク可視化
- 構文・熟語検索 — 1,160件の文法パターン(イディオム、句動詞など)の検索
- 34の対訳言語 — 翻訳テキストを用いた言語横断検索
- 多言語 UI — 英語・日本語・中国語・韓国語
- HTML5 ビデオプレーヤー — セグメント単位の再生とスタディモード
- テキストハイライト — キーワード(TF-IDF)とディスコースマーカーの強調表示
- 検索結果エクスポート — TSVまたはJSONで検索結果をダウンロードし、研究・分析に活用
開発者
TCSE およびこのドキュメントは 長谷部陽一郎(yohasebe@gmail.com)が開発・運営しています。