コンテンツにスキップ

TCSE ドキュメント

TCSE Logo

TED Corpus Search Engine(TCSE)のユーザーガイドです。

TCSE は TED Talk のトランスクリプトの検索に特化したサーチエンジンです。教育と研究での使用を目的として開発されました。TCSE は TED のデータを Creative Commons BY-NC-ND ライセンスのもとに使用していますが、TED による公式のサービスではありません

現在のバージョン

  • バージョン: 12.3.0
  • トーク数: 6,419 TED Talks
  • 対訳言語数: 34言語
  • NLPエンジン: spaCy 3.8 (en_core_web_lg)
  • 最終更新日: 2026年4月10日

最近のアップデート(v11–v12)

ユーザーインターフェース

  • 多言語 UI — English、日本語、中文、한국어の4言語に対応。各ページの言語ボタンで切り替え可能
  • 検索ワークフローの改善 — リセットボタンを廃止。検索語を入力して 検索 をクリックするだけで、いつでも新しい検索を開始できるようになりました

検索機能の追加

  • KWIC コンコーダンス表示 — リスト表示と KWIC(Key Word In Context)表示をワンクリックで切り替え可能に
  • 固有表現(NER)検索 — アドバンスト・サーチで %PERSON%ORG%GPE%DATE 等を用いて固有表現を検索
  • コロケーション分析 — MI、tスコア、DPによる統計分析。レンマベースで活用形を集約
  • コロケーション・ネットワーク — 語の共起関係をフォースレイアウトグラフで視覚的に表示
  • 検索結果エクスポート — トークン検索結果をTSV(ZIP)またはJSONでダウンロード。コンテキスト、言語アノテーション、翻訳付きで研究利用可能

コロケーション・可視化

  • NER拡張Nグラム — 固有表現を %TYPE ラベル(例: %PERSON saidin %GPE)に置換し、エンティティ対応の頻度分析が可能に
  • ネットワークズームスライダー — スクロールに代わるズームコントロール(50%〜200%)で、グラフの拡大・縮小をより正確に操作可能に
  • テキストハイライト デフォルトオフ — キーワードとディスコースマーカーのハイライトがデフォルトでオフに変更。すっきりしたトランスクリプト表示を実現

構文パターン・データ

  • 構文カテゴリフィルタ — 句動詞・イディオム・文法・コロケーション・談話・NERパターンのカテゴリ別に絞り込み可能に
  • 1,160件の構文パターン — 擬似分裂文、結果構文、NERパターン、形容詞主観性構文などの言語構造を追加
  • 6,419 TED Talks — v10 から1,100件以上のトークを追加

主な機能

  • 全文検索 — 全 TED Talk トランスクリプトを横断検索
  • アドバンスト・サーチ — 品詞タグ、レンマ、依存関係、形態素情報、固有表現を用いた高度な言語検索
  • KWIC コンコーダンス表示 — 言語学的な分析に適したコンコーダンス表示
  • コロケーションモード — Nグラム頻度(1-gramから4-gram)、コロケーション分析、ネットワーク可視化
  • 構文・熟語検索 — 1,160件の文法パターン(イディオム、句動詞など)の検索
  • 34の対訳言語 — 翻訳テキストを用いた言語横断検索
  • 多言語 UI — 英語・日本語・中国語・韓国語
  • HTML5 ビデオプレーヤー — セグメント単位の再生とスタディモード
  • テキストハイライト — キーワード(TF-IDF)とディスコースマーカーの強調表示
  • 検索結果エクスポート — TSVまたはJSONで検索結果をダウンロードし、研究・分析に活用

開発者

TCSE およびこのドキュメントは 長谷部陽一郎yohasebe@gmail.com)が開発・運営しています。