よくある質問
TCSEを引用するには?
TCSEを利用した成果を発表する際は、以下を引用してください。
- Hasebe, Yoichiro. (2015) Design and Implementation of an Online Corpus of Presentation Transcripts of TED Talks. Procedia: Social and Behavioral Sciences 198(24), 174-182.
TEDデータの利用条件は?
TCSE は TED のデータを Creative Commons BY-NC-ND ライセンスのもとに使用しています。
TCSE は非商用の教育・研究目的で無料で提供されていますが、本システムは使用者の責任において使用するものとします。すべての資料および情報は「現状のまま」提供され、いかなる保証も行いません。
TCSE は同志社大学の長谷部陽一郎(yohasebe@gmail.com)が開発しています。
現在のTCSEのバージョンは?
現在のバージョンは 12.0.0 で、6,419件の TED Talk を収録しています。すべてのトランスクリプトデータは spaCy 3.8(en_core_web_lg)による品詞タグ付け、レンマ化、依存構造解析、形態素解析、固有表現認識の処理が施されています。
TCSEのデータベースはどのくらいの頻度で更新されますか?
TCSE は新しいトーク、トランスクリプト、翻訳が追加されるたびに定期的に更新されます。そのため、言語コーパスとしてのTCSEの統計データは時間とともに変化します。
対訳言語の選択基準は?
TED Talkのトランスクリプトはさまざまな言語に翻訳されています。翻訳されたトーク数は言語によって異なります。TCSEでは1,000件以上のトークが翻訳されている言語のデータを提供しています。現在、英語以外に 34言語 が利用可能です。
各言語の翻訳トーク数はTCSEのメインページで確認できます。
TCSEで利用可能な対訳言語の一覧
- アラビア語
- ブルガリア語
- ビルマ語
- 中国語(簡体字)
- 中国語(繁体字)
- クロアチア語
- チェコ語
- オランダ語
- フランス語
- ドイツ語
- ギリシャ語
- ヘブライ語
- ヒンディー語
- ハンガリー語
- インドネシア語
- イタリア語
- 日本語
- 韓国語
- クルド語(中央)
- クルド語(北部)
- ペルシア語
- ポーランド語
- ポルトガル語
- ポルトガル語(ブラジル)
- ルーマニア語
- ロシア語
- セルビア語
- スロバキア語
- スペイン語
- スウェーデン語
- タイ語
- トルコ語
- ウクライナ語
- ベトナム語