コンテンツにスキップ

Nグラム

TED Talk の語句のNグラムを確認できます。メインページの Collocation ボタンをクリックして、コロケーションモードに切り替えてください。

メインページのコロケーションモード

Nグラムとは、n 個の連続する語のまとまりを指します。さまざまなNグラムの頻度を確認することで、その言語において定着している語の連なりや、そうでないものを見出すことができます。

Nグラムのタブ

TCSEでは4種類のNグラムサイズが利用可能です:

  • 1-gram: 単語単位の頻度
  • 2-gram: 2語連続(バイグラム)
  • 3-gram: 3語連続(トライグラム)
  • 4-gram: 4語連続

検索キー wait に対する出力例:

結果(一部)

位置フィルタボタン

Nグラムの結果が表示されると、結果テーブルの上にフィルタボタンが表示されます:

  • n-gram ALL: 検索語がどの位置にあるかを問わず、すべてのNグラムを表示(デフォルト)
  • n-gram #1: 検索語が1番目の位置にあるNグラムのみ表示
  • n-gram #2: 検索語が2番目の位置にあるNグラムのみ表示
  • (以降、#nまで同様)

例えば、2-gramモードで wait を検索した場合、#1 をクリックすると wait が先頭にくるNグラム(例:wait forwait until)が、#2 をクリックすると wait が2番目にくるNグラム(例:can't waitplease wait)が表示されます。

位置フィルタボタンとNグラム結果

チャンクベースのNグラム

結果テーブルでは、一部の行が水色の背景で表示されます。これらは名詞句チャンクを表しています。名詞句チャンクとは、複数の語が1つの文法単位として機能するまとまり(例:immune systemsolar system)のことです。水色の背景がない行は、単純な語単位のNグラムです。

水色で強調表示されたチャンクベースのNグラム

このチャンクベースの分析により、単純な語の連なりを超えた、意味のある複数語表現を特定できます。結果の任意の行をクリックすると、トランスクリプトコーパス内でのその用例を検索できます。

NER拡張Nグラム

固有表現タイプ(%PERSON%GPE%ORG 等)で検索すると、実際の固有表現がタイプラベルに置換された状態でNグラムが表示されます。例えば %PERSON を2-gramモードで検索すると、%PERSON saidthank %PERSON のようなエントリが表示され、具体的な固有表現名に関わらず、各エンティティタイプがどのような言語構造と共起するかを把握できます。

コロケーション分析

Colloc 2Colloc 3 タブでは、検索語のコロケーション分析を提供しています。結果はレンマベースで集約され、正確な結びつき度を算出します。詳しくはコロケーション分析を参照してください。

コロケーション・ネットワーク

Network タブでは、コロケーション関係をフォースレイアウトグラフで視覚的に表示します。詳しくはコロケーション・ネットワークを参照してください。

ヒント

  • 結果に表示されたNグラムをクリックすると、トランスクリプトコーパス内でのその用例を検索できる
  • Nグラム頻度はTED Talkにおける実際の使用パターンを反映している
  • CollocタブとNetworkタブはレンマベースの集約で活用形を統合して表示する