コンテンツにスキップ

固有表現検索

TCSEでは、spaCyのNER(固有表現認識)システムが認識した固有表現を検索できます。アドバンスト・サーチで %ENTITY 記法を使用して、TED Talkトランスクリプト内の特定の種類の固有表現を検索します。複数語からなるエンティティ(例:「New York」「United Nations」)は単一ユニットとしてマッチします。

使い方

  1. %ENTITY 記法でクエリを入力する(例: %PERSON said
  2. Advanced Search にチェックを入れる
  3. SEARCH をクリックする

NER検索入力

NER検索結果

コロケーションモードでのNERパターン検索

Collocation モードでもNERパターンを検索できます。例えば、1-gramモードで %PERSON を検索すると、コーパス全体における人名エンティティの総頻度が表示されます。2-gram以上のモードでは、固有表現を含む共起パターン(例: %PERSON saidin %GPE)を確認できます。Nグラム結果をクリックすると、対応するアドバンスト・サーチが自動的に開きます。

エンティティタイプ

TCSEは18種類の固有表現タイプを認識します:

エンティティタイプ 説明
%CARDINAL 他のタイプに該当しない数値
%DATE 日付(絶対・相対)や期間
%PERSON 人名(架空の人物を含む)
%GPE 国、都市、州
%ORG 企業、機関、組織
%ORDINAL "first"、"second" 等の序数
%NORP 国籍、宗教・政治団体
%LOC GPE以外の地名(山脈、水域など)
%TIME 1日未満の時刻
%PERCENT パーセンテージ(「%」を含む)
%QUANTITY 計量単位(重量、距離など)
%WORK_OF_ART 書籍、楽曲等のタイトル
%MONEY 金額
%PRODUCT 製品、乗り物、食品(サービス以外)
%FAC 建物、空港、高速道路、橋
%EVENT ハリケーン、戦争、スポーツイベント等の名称
%LANGUAGE 言語名
%LAW 法律として成立した文書の名称

使用例

クエリ 検索対象
%PERSON すべての人名
%PERSON said 人名の後に "said" が続くもの
in %GPE "in" の後に国名・都市名が続くもの
%MONEY すべての金額表現
%DATE すべての日付表現
%ORG [be] 組織名の後に "be" の活用形が続くもの