検索結果のエクスポート

ベータ機能

この機能はベータ版です。TCSEのウェブサイトで利用可能ですが、ユーザーのフィードバックに基づいてインターフェースやデータ項目が変更される可能性があります。フィードバックを歓迎します。

トークン検索の結果を構造化データファイルとしてエクスポートし、言語研究・統計分析・その他の処理に活用できます。

エクスポート方法

トークン検索（通常検索・アドバンスト・サーチ・翻訳検索）を実行する
結果が表示されたら、結果上部のボタンバーにある TSV または JSON をクリックする
現在表示中のページ（最大200件）がダウンロードされます
他のページもエクスポートしたい場合は、Prev/Next ボタンでページを切り替えてから再度エクスポートしてください

エクスポート形式

TSV（ZIPダウンロード）

以下の2ファイルを含むZIPアーカイブがダウンロードされます：

data.tsv — タブ区切りテキストファイル（Excel対応のBOM付きUTF-8）。各行が1つの検索ヒットに対応し、全データ項目が列として含まれます。
metadata.json — 検索クエリ、総ヒット数、サンプリング方法、ライセンス情報などのメタデータ。

Excel、Googleスプレッドシートなどの表計算アプリケーションで開くのに最適です。

JSON（単一ファイルダウンロード）

メタデータとデータの両方を含む単一のJSONファイルがダウンロードされます：

{
  "metadata": { "query": "...", "total_hits": 1234, ... },
  "data": [ { "talk_id": 1, "match": "...", ... }, ... ]
}

Python、Rなどのプログラミング言語で処理するのに最適です。

データ項目

エクスポートされる各ヒットには以下の項目が含まれます：

項目	説明
talk_id	トークID
talk_title	TED Talkのタイトル
speaker	スピーカー名
year	公開年
video_type	トークの種類（例：「TED Stage Talk」「TEDx Talk」「TED-Ed Original」）
talk_duration	トーク全体の長さ（秒）
talk_url	ted.comのトークURL
segment_id	セグメントの一意ID（再現性のため）
match	マッチした語句（通常検索では検索語、アドバンスト・サーチでは実際の表層形）
segment_text	マッチを含むセグメントの全文
segment_position	トーク内の位置（例：「42/187」）
start_time	セグメントの開始時間（秒）
duration	セグメントの持続時間（秒）
context_before_1	マッチの1つ前のセグメント
context_before_2	マッチの2つ前のセグメント
context_after_1	マッチの1つ後のセグメント
context_after_2	マッチの2つ後のセグメント

アドバンスト・サーチの追加項目

アドバンスト・サーチ使用時は、各ヒットに以下が追加されます：

項目	説明
pos	マッチした語の品詞
lemma	マッチした語のレンマ（基本形）
dep	依存関係ラベル

翻訳の追加項目

翻訳言語を選択している場合、各ヒットに以下が追加されます：

項目	説明
translation_lang	翻訳言語コード
translation_segment	マッチしたセグメントの翻訳テキスト
translation_context_before_1	1つ前のセグメントの翻訳
translation_context_before_2	2つ前のセグメントの翻訳
translation_context_after_1	1つ後のセグメントの翻訳
translation_context_after_2	2つ後のセグメントの翻訳

ページネーションとエクスポート範囲

各エクスポートでは現在表示中のページ（最大200件、通常のページネーションサイズと同じ）がダウンロードされます。この設計には以下の利点があります：

再現性: 同じページは常に同じデータを返します（ランダマイズオフの場合）。共同研究者と正確なデータを共有できます。
WYSIWYG: 画面で見ているものをそのままエクスポートできます。
コーパス全体へのアクセス: クエリの全ヒットを取得するには、Prev/Nextでページを切り替えながら各ページをエクスポートします。メタデータのpageとtotal_pagesで進捗を把握できます。

メタデータには以下が含まれます：

total_hits: クエリの総ヒット数
exported_count: このページのヒット数（≤ 200）
page: 現在のページ番号
total_pages: 総ページ数
randomized: ランダム順序かどうか（Randomizeチェックボックスがオンの場合true）

誤操作防止のため、連続エクスポートには5秒間の短いクールダウンが適用されます。TSV/JSONボタンにホバーするとカウントダウンが表示され、タイマーが0になると自動的に再び有効になります。

ライセンス

エクスポートされるデータにはTED Talkのトランスクリプトが含まれており、Creative Commons BY-NC-ND 4.0 ライセンスに基づいて使用されています。メタデータファイルにはライセンス表示が含まれます。エクスポートデータは研究・教育目的のみを対象としています。

ヒント

全結果をエクスポートするには、ページを切り替えながら各ページをエクスポートしてください。ファイル名にはページ番号が含まれます（例: tcse_export_20260411_p3.zip）
segment_position項目を使って、パターンがトークのどの位置に出現しやすいかを分析できる
アドバンスト・サーチのアノテーション（POS、レンマ、dep）とコンテキストを組み合わせて、詳細な談話分析が可能
コーパス全体レベルの統計にはエクスポートよりもNグラム・コロケーションタブを活用すること