コンテンツにスキップ

Nグラム

TED Talk の語句のNグラムを確認できます。メインページの N-gram ボタンをクリックして、Nグラムモードに切り替えてください。

メインページの N-gram タブ

Nグラムとは、n 個の連続する語のまとまりを指します。さまざまなNグラムの頻度を確認することで、その言語において定着している語の連なりや、そうでないものを見出すことができます。

Nグラムのタブ

TCSEでは4種類のNグラムサイズが利用可能です:

  • 1-gram: 単語単位の頻度
  • 2-gram: 2語連続(バイグラム)
  • 3-gram: 3語連続(トライグラム)
  • 4-gram: 4語連続

検索キー wait に対する出力例:

結果(一部)

位置フィルタボタン

Nグラムの結果が表示されると、結果テーブルの上にフィルタボタンが表示されます:

  • n-gram ALL: 検索語がどの位置にあるかを問わず、すべてのNグラムを表示(デフォルト)
  • n-gram #1: 検索語が1番目の位置にあるNグラムのみ表示
  • n-gram #2: 検索語が2番目の位置にあるNグラムのみ表示
  • (以降、#nまで同様)

例えば、2-gramモードで wait を検索した場合、#1 をクリックすると wait が先頭にくるNグラム(例:wait forwait until)が、#2 をクリックすると wait が2番目にくるNグラム(例:can't waitplease wait)が表示されます。

位置フィルタボタンとNグラム結果

チャンクベースのNグラム

結果テーブルでは、一部の行が水色の背景で表示されます。これらは名詞句チャンクを表しています。名詞句チャンクとは、複数の語が1つの文法単位として機能するまとまり(例:immune systemsolar system)のことです。水色の背景がない行は、単純な語単位のNグラムです。

水色で強調表示されたチャンクベースのNグラム

このチャンクベースの分析により、単純な語の連なりを超えた、意味のある複数語表現を特定できます。結果の任意の行をクリックすると、トランスクリプトコーパス内でのその用例を検索できます。

コロケーション分析

Colloc 2Colloc 3 タブでは、検索語のコロケーション分析を提供しています。詳しくはコロケーション分析を参照してください。

ヒント

  • 結果に表示されたNグラムをクリックすると、トランスクリプトコーパス内でのその用例を検索できる
  • Nグラム頻度はTED Talkにおける実際の使用パターンを反映している