コンテンツにスキップ

検索結果のエクスポート

ベータ機能

この機能はベータ版です。TCSEのウェブサイトで利用可能ですが、ユーザーのフィードバックに基づいてインターフェースやデータ項目が変更される可能性があります。フィードバックを歓迎します。

トークン検索の結果を構造化データファイルとしてエクスポートし、言語研究・統計分析・その他の処理に活用できます。

エクスポート方法

  1. トークン検索(通常検索・アドバンスト・サーチ・翻訳検索)を実行する
  2. 結果が表示されたら、結果上部のボタンバーにある TSV または JSON をクリックする
  3. 現在表示中のページ(最大200件)がダウンロードされます
  4. 他のページもエクスポートしたい場合は、Prev/Next ボタンでページを切り替えてから再度エクスポートしてください

エクスポート形式

TSV(ZIPダウンロード)

以下の2ファイルを含むZIPアーカイブがダウンロードされます:

  • data.tsv — タブ区切りテキストファイル(Excel対応のBOM付きUTF-8)。各行が1つの検索ヒットに対応し、全データ項目が列として含まれます。
  • metadata.json — 検索クエリ、総ヒット数、サンプリング方法、ライセンス情報などのメタデータ。

ExcelGoogleスプレッドシートなどの表計算アプリケーションで開くのに最適です。

JSON(単一ファイルダウンロード)

メタデータとデータの両方を含む単一のJSONファイルがダウンロードされます:

{
  "metadata": { "query": "...", "total_hits": 1234, ... },
  "data": [ { "talk_id": 1, "match": "...", ... }, ... ]
}

PythonRなどのプログラミング言語で処理するのに最適です。

データ項目

エクスポートされる各ヒットには以下の項目が含まれます:

項目 説明
talk_id トークID
talk_title TED Talkのタイトル
speaker スピーカー名
year 公開年
video_type トークの種類(例:「TED Stage Talk」「TEDx Talk」「TED-Ed Original」)
talk_duration トーク全体の長さ(秒)
talk_url ted.comのトークURL
segment_id セグメントの一意ID(再現性のため)
match マッチした語句(通常検索では検索語、アドバンスト・サーチでは実際の表層形)
segment_text マッチを含むセグメントの全文
segment_position トーク内の位置(例:「42/187」)
start_time セグメントの開始時間(秒)
duration セグメントの持続時間(秒)
context_before_1 マッチの1つ前のセグメント
context_before_2 マッチの2つ前のセグメント
context_after_1 マッチの1つ後のセグメント
context_after_2 マッチの2つ後のセグメント

アドバンスト・サーチの追加項目

アドバンスト・サーチ使用時は、各ヒットに以下が追加されます:

項目 説明
pos マッチした語の品詞
lemma マッチした語のレンマ(基本形)
dep 依存関係ラベル

翻訳の追加項目

翻訳言語を選択している場合、各ヒットに以下が追加されます:

項目 説明
translation_lang 翻訳言語コード
translation_segment マッチしたセグメントの翻訳テキスト
translation_context_before_1 1つ前のセグメントの翻訳
translation_context_before_2 2つ前のセグメントの翻訳
translation_context_after_1 1つ後のセグメントの翻訳
translation_context_after_2 2つ後のセグメントの翻訳

ページネーションとエクスポート範囲

各エクスポートでは現在表示中のページ(最大200件、通常のページネーションサイズと同じ)がダウンロードされます。この設計には以下の利点があります:

  • 再現性: 同じページは常に同じデータを返します(ランダマイズオフの場合)。共同研究者と正確なデータを共有できます。
  • WYSIWYG: 画面で見ているものをそのままエクスポートできます。
  • コーパス全体へのアクセス: クエリの全ヒットを取得するには、Prev/Nextでページを切り替えながら各ページをエクスポートします。メタデータのpagetotal_pagesで進捗を把握できます。

メタデータには以下が含まれます:

  • total_hits: クエリの総ヒット数
  • exported_count: このページのヒット数(≤ 200)
  • page: 現在のページ番号
  • total_pages: 総ページ数
  • randomized: ランダム順序かどうか(Randomizeチェックボックスがオンの場合true)

誤操作防止のため、連続エクスポートには5秒間の短いクールダウンが適用されます。TSV/JSONボタンにホバーするとカウントダウンが表示され、タイマーが0になると自動的に再び有効になります。

ライセンス

エクスポートされるデータにはTED Talkのトランスクリプトが含まれており、Creative Commons BY-NC-ND 4.0 ライセンスに基づいて使用されています。メタデータファイルにはライセンス表示が含まれます。エクスポートデータは研究・教育目的のみを対象としています。

ヒント

  • 全結果をエクスポートするには、ページを切り替えながら各ページをエクスポートしてください。ファイル名にはページ番号が含まれます(例: tcse_export_20260411_p3.zip
  • segment_position項目を使って、パターンがトークのどの位置に出現しやすいかを分析できる
  • アドバンスト・サーチのアノテーション(POS、レンマ、dep)とコンテキストを組み合わせて、詳細な談話分析が可能
  • コーパス全体レベルの統計にはエクスポートよりもNグラム・コロケーションタブを活用すること