コンテンツにスキップ

TCSE ドキュメント

TCSE Logo

TED Corpus Search Engine(TCSE)のユーザーガイドです。

TCSE は TED Talk のトランスクリプトの検索に特化したサーチエンジンです。教育と研究での使用を目的として開発されました。TCSE は TED のデータを Creative Commons BY-NC-ND ライセンスのもとに使用していますが、TED による公式のサービスではありません

現在のバージョン

  • バージョン: 12.0.0
  • トーク数: 6,419 TED Talks
  • 対訳言語数: 34言語
  • NLPエンジン: spaCy 3.8 (en_core_web_lg)
  • 最終更新日: 2026年2月28日

最近のアップデート(v11–v12)

ユーザーインターフェース

  • 多言語 UI — English、日本語、中文、한국어の4言語に対応。各ページの言語ボタンで切り替え可能
  • 検索ワークフローの改善 — リセットボタンを廃止。検索語を入力して 検索 をクリックするだけで、いつでも新しい検索を開始できるようになりました

検索機能の追加

  • KWIC コンコーダンス表示 — リスト表示と KWIC(Key Word In Context)表示をワンクリックで切り替え可能に
  • 固有表現(NER)検索 — アドバンスト・サーチで %PERSON%ORG%GPE%DATE 等を用いて固有表現を検索
  • コロケーション分析 — Nグラムモードに MI(相互情報量)と t スコアによる統計分析を追加

構文パターン・データ

  • 構文カテゴリフィルタ — 句動詞・イディオム・文法・談話等のカテゴリ別に絞り込み可能に
  • 新構文パターン追加 — 擬似分裂文、結果構文などの情報構造パターンを追加(全1,101パターン)
  • 6,419 TED Talks — v10 から1,100件以上のトークを追加

主な機能

  • 全文検索 — 全 TED Talk トランスクリプトを横断検索
  • アドバンスト・サーチ — 品詞タグ、レンマ、依存関係、形態素情報、固有表現を用いた高度な言語検索
  • KWIC コンコーダンス表示 — 言語学的な分析に適したコンコーダンス表示
  • Nグラム頻度分析 — 1-gramから4-gramまでのNグラム統計とコロケーション分析
  • 構文・熟語検索 — 1,101件の文法パターン(イディオム、句動詞など)の検索
  • 34の対訳言語 — 翻訳テキストを用いた言語横断検索
  • 多言語 UI — 英語・日本語・中国語・韓国語
  • HTML5 ビデオプレーヤー — セグメント単位の再生とスタディモード
  • テキストハイライト — キーワード(TF-IDF)とディスコースマーカーの強調表示

開発者

TCSE およびこのドキュメントは 長谷部陽一郎yohasebe@gmail.com)が開発・運営しています。