下「DBSCAN 33 」などのクラスタリング手法を用いることである。しかし、今回のケースでは「新型コロナウイルスが終息傾向」、「新型コロナウイルスの出口がなかなか見通せない」、「新型コロナウイルス感染の脅威が高まっている」が同じものと判定されるなど、景況感に関係する正負の向きの情報を適切に抽出できない。特に、正負の向きに関する情報の区別がつかないことは、景況感の分析という観点からは致命的な問題となる。
そこで今回の分析では、フレーズ埋め込みのクラスタリング結果を大規模言語モデルによって更に改良する方法を採用した。これによって「新型コロナウイルス感染症の5類移行」、「新型コロナウイルスの5類感染症への移行」、「新型コロナウイルスが5類感染症に移行」などが同じ意味としてまとめられ、表記揺れをより人間の判断に近い分類に整理できる 34 。本分析では、このように表記揺れを吸収した表現をノードとして構築したネットワークを使用する。
3. マクロの分析結果
景気ウォッチャー調査の134,840件の回答から因果関係を抽出して構築したネットワークは、ノード数124,286、エッジ数284,439という比較的大きなネットワークとなる 35 。このサイズのネットワークの可視化は困難であるため、次数15以上のノード 36 に絞ったものをコラム1-1-5②図に示す 37 (ノード数2,681、エッジ数60,638)。各ノードのサイズは次数を表し、色はコミュニティ抽出によるクラスタリング結果を示している 38 。全体として、右側には景気判断が上向きを表す「4」や「5」に向かう表現が、左側には下向きを表す「1」、「2」に向かう表現が分布していることが分かる。中立を表す「3」はその中間に位置し、コミュニティ抽出の結果では他と色が異なっており独立したコミュニティを形成していることも注目に値する。これは、多様な回答者が景気判断について言及しているにもかかわらず、景気判断の理由付けにある程度の共通性が見られることを示唆している。
33 「DBSCAN」は、各データの位置から確認した密度を用いて、密度が高い場所にいるデータは同じグループとして結合していく手法である。どのデータからも離れているデータはノイズ(外れ値)として扱われるという特性がある。
34 本分析作業の詳細は、久野氏が講師を務める東京大学大学院の講義の関連記事において取りまとめている(外部サイト: http://dss.i.u-tokyo.ac.jp/blog/practical-graph-rag-1/ )。
35 ここで「ノード」とはテキストデータから切り出した単語やフレーズといった要素を表し、「エッジ」とは因果関係といったノード同士の関係性やつながりを表す。
36 ここで「次数」とは、各ノードにつながっているエッジの数を表す。次数が低いノードは、エッジが少なく他のノードとの関係性が薄いため、全体のトレンドや傾向を把握するに当たり、ここでは次数15以上のノードに絞る処理を行っている。
37 本コラムにおける全ての図表の詳細版は、以下の久野氏個人のホームページにて確認可能(外部サイト: https://www.rhisano.com/figures )。
38 久野・大西・渡辺(2024)に基づく。