コンテンツにスキップ

固有表現検索

TCSEでは、spaCyのNER(固有表現認識)システムが認識した固有表現を検索できます。アドバンスト・サーチで %ENTITY 記法を使用して、TED Talkトランスクリプト内の特定の種類の固有表現を検索します。複数語からなるエンティティ(例:「New York」「United Nations」)は単一ユニットとしてマッチします。

使い方

  1. %ENTITY 記法でクエリを入力する(例: %PERSON said
  2. Advanced Search にチェックを入れる
  3. SEARCH をクリックする

NER検索入力

NER検索結果

N-gramモードでのNERパターン検索

N-gram モードでもNERパターンを検索できます。例えば、1-gramモードで %PERSON を検索すると、コーパス全体における人名エンティティの総頻度が表示されます。2-gram以上のモードでは、固有表現を含む共起パターン(例: %PERSON saidin %GPE)を確認できます。N-gram結果をクリックすると、対応するアドバンスト・サーチが自動的に開きます。

エンティティタイプ

TCSEは18種類の固有表現タイプを認識します:

エンティティタイプ 説明 コーパス内の件数
%CARDINAL 他のタイプに該当しない数値 73,912
%DATE 日付(絶対・相対)や期間 72,487
%PERSON 人名(架空の人物を含む) 59,525
%GPE 国、都市、州 48,806
%ORG 企業、機関、組織 47,748
%ORDINAL "first"、"second" 等の序数 21,850
%NORP 国籍、宗教・政治団体 21,830
%LOC GPE以外の地名(山脈、水域など) 14,512
%TIME 1日未満の時刻 9,389
%PERCENT パーセンテージ(「%」を含む) 8,184
%QUANTITY 計量単位(重量、距離など) 6,854
%WORK_OF_ART 書籍、楽曲等のタイトル 6,046
%MONEY 金額 5,108
%PRODUCT 製品、乗り物、食品(サービス以外) 3,470
%FAC 建物、空港、高速道路、橋 2,649
%EVENT ハリケーン、戦争、スポーツイベント等の名称 2,165
%LANGUAGE 言語名 1,557
%LAW 法律として成立した文書の名称 758

使用例

クエリ 検索対象
%PERSON すべての人名
%PERSON said 人名の後に "said" が続くもの
in %GPE "in" の後に国名・都市名が続くもの
%MONEY すべての金額表現
%DATE すべての日付表現
%ORG [be] 組織名の後に "be" の活用形が続くもの