固有表現検索
TCSEでは、spaCyのNER(固有表現認識)システムが認識した固有表現を検索できます。アドバンスト・サーチで %ENTITY 記法を使用して、TED Talkトランスクリプト内の特定の種類の固有表現を検索します。複数語からなるエンティティ(例:「New York」「United Nations」)は単一ユニットとしてマッチします。
使い方
%ENTITY記法でクエリを入力する(例:%PERSON said)- Advanced Search にチェックを入れる
- SEARCH をクリックする


コロケーションモードでのNERパターン検索
Collocation モードでもNERパターンを検索できます。例えば、1-gramモードで %PERSON を検索すると、コーパス全体における人名エンティティの総頻度が表示されます。2-gram以上のモードでは、固有表現を含む共起パターン(例: %PERSON said、in %GPE)を確認できます。Nグラム結果をクリックすると、対応するアドバンスト・サーチが自動的に開きます。
エンティティタイプ
TCSEは18種類の固有表現タイプを認識します:
| エンティティタイプ | 説明 |
|---|---|
%CARDINAL |
他のタイプに該当しない数値 |
%DATE |
日付(絶対・相対)や期間 |
%PERSON |
人名(架空の人物を含む) |
%GPE |
国、都市、州 |
%ORG |
企業、機関、組織 |
%ORDINAL |
"first"、"second" 等の序数 |
%NORP |
国籍、宗教・政治団体 |
%LOC |
GPE以外の地名(山脈、水域など) |
%TIME |
1日未満の時刻 |
%PERCENT |
パーセンテージ(「%」を含む) |
%QUANTITY |
計量単位(重量、距離など) |
%WORK_OF_ART |
書籍、楽曲等のタイトル |
%MONEY |
金額 |
%PRODUCT |
製品、乗り物、食品(サービス以外) |
%FAC |
建物、空港、高速道路、橋 |
%EVENT |
ハリケーン、戦争、スポーツイベント等の名称 |
%LANGUAGE |
言語名 |
%LAW |
法律として成立した文書の名称 |
使用例
| クエリ | 検索対象 |
|---|---|
%PERSON |
すべての人名 |
%PERSON said |
人名の後に "said" が続くもの |
in %GPE |
"in" の後に国名・都市名が続くもの |
%MONEY |
すべての金額表現 |
%DATE |
すべての日付表現 |
%ORG [be] |
組織名の後に "be" の活用形が続くもの |