検索結果のエクスポート
ベータ機能
この機能はベータ版です。TCSEのウェブサイトで利用可能ですが、ユーザーのフィードバックに基づいてインターフェースやデータ項目が変更される可能性があります。フィードバックを歓迎します。
トークン検索の結果を構造化データファイルとしてエクスポートし、言語研究・統計分析・その他の処理に活用できます。
エクスポート方法
- トークン検索(通常検索・アドバンスト・サーチ・翻訳検索)を実行する
- 結果が表示されたら、結果上部のボタンバーにある TSV または JSON をクリックする
- 現在表示中のページ(最大200件)がダウンロードされます
- 他のページもエクスポートしたい場合は、Prev/Next ボタンでページを切り替えてから再度エクスポートしてください
エクスポート形式
TSV(ZIPダウンロード)
以下の2ファイルを含むZIPアーカイブがダウンロードされます:
- data.tsv — タブ区切りテキストファイル(Excel対応のBOM付きUTF-8)。各行が1つの検索ヒットに対応し、全データ項目が列として含まれます。
- metadata.json — 検索クエリ、総ヒット数、サンプリング方法、ライセンス情報などのメタデータ。
Excel、Googleスプレッドシートなどの表計算アプリケーションで開くのに最適です。
JSON(単一ファイルダウンロード)
メタデータとデータの両方を含む単一のJSONファイルがダウンロードされます:
{
"metadata": { "query": "...", "total_hits": 1234, ... },
"data": [ { "talk_id": 1, "match": "...", ... }, ... ]
}
Python、Rなどのプログラミング言語で処理するのに最適です。
データ項目
エクスポートされる各ヒットには以下の項目が含まれます:
| 項目 | 説明 |
|---|---|
| talk_id | トークID |
| talk_title | TED Talkのタイトル |
| speaker | スピーカー名 |
| year | 公開年 |
| video_type | トークの種類(例:「TED Stage Talk」「TEDx Talk」「TED-Ed Original」) |
| talk_duration | トーク全体の長さ(秒) |
| talk_url | ted.comのトークURL |
| segment_id | セグメントの一意ID(再現性のため) |
| match | マッチした語句(通常検索では検索語、アドバンスト・サーチでは実際の表層形) |
| segment_text | マッチを含むセグメントの全文 |
| segment_position | トーク内の位置(例:「42/187」) |
| start_time | セグメントの開始時間(秒) |
| duration | セグメントの持続時間(秒) |
| context_before_1 | マッチの1つ前のセグメント |
| context_before_2 | マッチの2つ前のセグメント |
| context_after_1 | マッチの1つ後のセグメント |
| context_after_2 | マッチの2つ後のセグメント |
アドバンスト・サーチの追加項目
アドバンスト・サーチ使用時は、各ヒットに以下が追加されます:
| 項目 | 説明 |
|---|---|
| pos | マッチした語の品詞 |
| lemma | マッチした語のレンマ(基本形) |
| dep | 依存関係ラベル |
翻訳の追加項目
翻訳言語を選択している場合、各ヒットに以下が追加されます:
| 項目 | 説明 |
|---|---|
| translation_lang | 翻訳言語コード |
| translation_segment | マッチしたセグメントの翻訳テキスト |
| translation_context_before_1 | 1つ前のセグメントの翻訳 |
| translation_context_before_2 | 2つ前のセグメントの翻訳 |
| translation_context_after_1 | 1つ後のセグメントの翻訳 |
| translation_context_after_2 | 2つ後のセグメントの翻訳 |
ページネーションとエクスポート範囲
各エクスポートでは現在表示中のページ(最大200件、通常のページネーションサイズと同じ)がダウンロードされます。この設計には以下の利点があります:
- 再現性: 同じページは常に同じデータを返します(ランダマイズオフの場合)。共同研究者と正確なデータを共有できます。
- WYSIWYG: 画面で見ているものをそのままエクスポートできます。
- コーパス全体へのアクセス: クエリの全ヒットを取得するには、Prev/Nextでページを切り替えながら各ページをエクスポートします。メタデータの
pageとtotal_pagesで進捗を把握できます。
メタデータには以下が含まれます:
total_hits: クエリの総ヒット数exported_count: このページのヒット数(≤ 200)page: 現在のページ番号total_pages: 総ページ数randomized: ランダム順序かどうか(Randomizeチェックボックスがオンの場合true)
誤操作防止のため、連続エクスポートには5秒間の短いクールダウンが適用されます。TSV/JSONボタンにホバーするとカウントダウンが表示され、タイマーが0になると自動的に再び有効になります。
ライセンス
エクスポートされるデータにはTED Talkのトランスクリプトが含まれており、Creative Commons BY-NC-ND 4.0 ライセンスに基づいて使用されています。メタデータファイルにはライセンス表示が含まれます。エクスポートデータは研究・教育目的のみを対象としています。
ヒント
- 全結果をエクスポートするには、ページを切り替えながら各ページをエクスポートしてください。ファイル名にはページ番号が含まれます(例:
tcse_export_20260411_p3.zip) segment_position項目を使って、パターンがトークのどの位置に出現しやすいかを分析できる- アドバンスト・サーチのアノテーション(POS、レンマ、dep)とコンテキストを組み合わせて、詳細な談話分析が可能
- コーパス全体レベルの統計にはエクスポートよりもNグラム・コロケーションタブを活用すること