固有表現検索
TCSEでは、spaCyのNER(固有表現認識)システムが認識した固有表現を検索できます。アドバンスト・サーチで %ENTITY 記法を使用して、TED Talkトランスクリプト内の特定の種類の固有表現を検索します。複数語からなるエンティティ(例:「New York」「United Nations」)は単一ユニットとしてマッチします。
使い方
%ENTITY記法でクエリを入力する(例:%PERSON said)- Advanced Search にチェックを入れる
- SEARCH をクリックする


N-gramモードでのNERパターン検索
N-gram モードでもNERパターンを検索できます。例えば、1-gramモードで %PERSON を検索すると、コーパス全体における人名エンティティの総頻度が表示されます。2-gram以上のモードでは、固有表現を含む共起パターン(例: %PERSON said、in %GPE)を確認できます。N-gram結果をクリックすると、対応するアドバンスト・サーチが自動的に開きます。
エンティティタイプ
TCSEは18種類の固有表現タイプを認識します:
| エンティティタイプ | 説明 | コーパス内の件数 |
|---|---|---|
%CARDINAL |
他のタイプに該当しない数値 | 73,912 |
%DATE |
日付(絶対・相対)や期間 | 72,487 |
%PERSON |
人名(架空の人物を含む) | 59,525 |
%GPE |
国、都市、州 | 48,806 |
%ORG |
企業、機関、組織 | 47,748 |
%ORDINAL |
"first"、"second" 等の序数 | 21,850 |
%NORP |
国籍、宗教・政治団体 | 21,830 |
%LOC |
GPE以外の地名(山脈、水域など) | 14,512 |
%TIME |
1日未満の時刻 | 9,389 |
%PERCENT |
パーセンテージ(「%」を含む) | 8,184 |
%QUANTITY |
計量単位(重量、距離など) | 6,854 |
%WORK_OF_ART |
書籍、楽曲等のタイトル | 6,046 |
%MONEY |
金額 | 5,108 |
%PRODUCT |
製品、乗り物、食品(サービス以外) | 3,470 |
%FAC |
建物、空港、高速道路、橋 | 2,649 |
%EVENT |
ハリケーン、戦争、スポーツイベント等の名称 | 2,165 |
%LANGUAGE |
言語名 | 1,557 |
%LAW |
法律として成立した文書の名称 | 758 |
使用例
| クエリ | 検索対象 |
|---|---|
%PERSON |
すべての人名 |
%PERSON said |
人名の後に "said" が続くもの |
in %GPE |
"in" の後に国名・都市名が続くもの |
%MONEY |
すべての金額表現 |
%DATE |
すべての日付表現 |
%ORG [be] |
組織名の後に "be" の活用形が続くもの |