TCSE ドキュメント

TED Corpus Search Engine(TCSE)のユーザーガイドです。
TCSE は TED Talk のトランスクリプトの検索に特化したサーチエンジンです。教育と研究での使用を目的として開発されました。TCSE は TED のデータを Creative Commons BY-NC-ND ライセンスのもとに使用していますが、TED による公式のサービスではありません。
現在のバージョン
- バージョン: 12.0.0
- トーク数: 6,419 TED Talks
- 対訳言語数: 34言語
- NLPエンジン: spaCy 3.8 (
en_core_web_lg) - 最終更新日: 2026年2月28日
最近のアップデート(v11–v12)
ユーザーインターフェース
- 多言語 UI — English、日本語、中文、한국어の4言語に対応。各ページの言語ボタンで切り替え可能
- 検索ワークフローの改善 — リセットボタンを廃止。検索語を入力して 検索 をクリックするだけで、いつでも新しい検索を開始できるようになりました
検索機能の追加
- KWIC コンコーダンス表示 — リスト表示と KWIC(Key Word In Context)表示をワンクリックで切り替え可能に
- 固有表現(NER)検索 — アドバンスト・サーチで
%PERSON、%ORG、%GPE、%DATE等を用いて固有表現を検索 - コロケーション分析 — Nグラムモードに MI(相互情報量)と t スコアによる統計分析を追加
構文パターン・データ
- 構文カテゴリフィルタ — 句動詞・イディオム・文法・談話等のカテゴリ別に絞り込み可能に
- 新構文パターン追加 — 擬似分裂文、結果構文などの情報構造パターンを追加(全1,101パターン)
- 6,419 TED Talks — v10 から1,100件以上のトークを追加
主な機能
- 全文検索 — 全 TED Talk トランスクリプトを横断検索
- アドバンスト・サーチ — 品詞タグ、レンマ、依存関係、形態素情報、固有表現を用いた高度な言語検索
- KWIC コンコーダンス表示 — 言語学的な分析に適したコンコーダンス表示
- Nグラム頻度分析 — 1-gramから4-gramまでのNグラム統計とコロケーション分析
- 構文・熟語検索 — 1,101件の文法パターン(イディオム、句動詞など)の検索
- 34の対訳言語 — 翻訳テキストを用いた言語横断検索
- 多言語 UI — 英語・日本語・中国語・韓国語
- HTML5 ビデオプレーヤー — セグメント単位の再生とスタディモード
- テキストハイライト — キーワード(TF-IDF)とディスコースマーカーの強調表示
開発者
TCSE およびこのドキュメントは 長谷部陽一郎(yohasebe@gmail.com)が開発・運営しています。