Executive Summary
投資家やアナリストが有益だと感じる決算説明会資料には共通点がある。しかし評価の軸は多岐に及び、本当に重要な評価軸を明確化するのは困難である。この課題を解決するために、我々は決算説明会資料のテキストデータに対して自然言語処理による分析を行った。分析には「単語単位」・「スライド単位」・「資料全体」の3つの粒度を用いた。さらにそのそれぞれの粒度に対して、「IRとしての開示」の評価軸で分析を行っている。
その結果、IR資料に対する評価軸の中でも、特に以下の3点が重要であることが分かった。
ROICを代表とする重要KPIが開示されていること
セグメントごとの開示が細かく、情報が充実していること
経営目標とそれに対するコミットメントが示されていること
尚、弊社では、この分析に基づく説明会資料評価スコアの提供や、今後のIR改善のための相談を上場企業から無償で受け付けている。ニーズがあれば、以下のリンクからご連絡いただきたい。
対象データ
対象となるデータはTOPIX500に属する企業のうち、最新の本決算プレゼン資料のテキストデータの取得ができた472社としている。対象となる説明会資料は、日本語で書かれた、最新の本決算説明会資料である。そもそも決算説明会資料の開示がない等の理由や、その他の理由でPDFに書かれた文字情報が読み取りできなかった会社は除いた。
被説明変数:優良IR企業変数
本稿の被説明変数はIRが優良とされる企業か否かを示すダミー変数である。ここでは、アナリストや投資家からIRの評価が高い会社を示すものとして、ExtelでのIRの表彰の有無(ただし当該会社が開示している場合のみ)、証券アナリスト協会によってディスクロージャー優良企業として2024年に選定されたかどうか(各セクター1社のみ)で、判断をしている。Extelあるいは証券アナリスト協会からの表彰を受けている企業のダミー変数を1、それ以外を0としている。(今後それぞれの企業グループを「優良IR企業」、「そのほかの企業」と簡易的に呼称する。)
IRの評価点は決算説明会資料だけではないが、優良IR企業は説明会資料の観点でも評価されるだろうとこの分析では仮定している。また説明会資料に対象を絞っても、優良IR企業だからこそ見られる工夫を見つけられる可能性があるとも想定した。
優良IR企業はユニバースの472社のうち17社が該当し、具体的には「日立製作所、三井物産、三井住友フィナンシャルグループ、東京海上ホールディングス、ソフトバンク、味の素、中外製薬、ブリヂストン、日本製鉄、TDK、三井不動産、三越伊勢丹ホールディングス、三井化学、野村総合研究所、出光興産、川崎汽船、コナミグループ」となっている。尚、上述したデータ制約によって、そもそもユニバースに入っていないために、証券アナリスト協会からディスクロージャー優良企業と表彰されていても、本分析の対象とはなっていない企業もいることに留意されたい。またExtelの受賞状況は会社が開示しているものをインターネット検索で見つけることができた場合のみ含めている。
説明変数グループ1:単語TF‐IDFデータ
単語単位の分析のために、各会社のプレゼン資料に含まれているテキスト情報を形態素(意味を持つ最小単位、以下簡易的に単語と呼ぶ)に分割した。分割には形態素解析エンジンであるMecabを用いた。さらに得られた単語に対して、二段階のフィルタリングを実施した。第一に472社のプレゼンテーション資料のうち少なくとも10%以上で使われている単語のみを分析対象とした。そうして得られた単語の数は1568個であった。第二に手作業でのフィルタリングをし、以下の3つの種類の単語を取り除いていた。
「さまざま」や「おもな」といった分析上の意味をなさない単語
「樹脂」「店舗」といったセクター固有の単語
「ベトナム」「米州」など特定のビジネスエクスポージャーに関わる単語
本稿の目的は、発行体が自助努力で開示を改善するための示唆を提供することであるので、意味をなさない単語だけではなく、自助努力で変えることが容易ではない要素を取り除いている。結果、残った単語は387となった。
発行体のそれぞれのプレゼン資料のテキストデータについて、TfidfVectorizerを適用し単語の登場頻度とレア度に基づくベクトル化を行った。これを、それぞれの発行体のプレゼン資料においてその単語がどれほど重要かを示す代理変数として用いる。
説明変数グループ2:文字数等定量データ
さらに、472社のプレゼン資料の単純な文字数カウント等に関する数値も算出した。単純に、スライド枚数や文字数が多い企業のほうが評価されている可能性を検証するためである。さらに、手計算で有意になる可能性が示唆されたため、日本語プレゼン資料に含まれる英文字の割合もデータに含めた。
説明変数グループ3:スライド分類データ
次にスライド単位の分析用データ構築を我々は行った。ある発行体のプレゼン資料が含んでいるスライドが、IRの評価につながっているかどうかを検証することが目的である。例えばESGについてのスライドを含んでいるかどうかが、評価につながるかどうか検証することを可能にしたいと考えた。
機械的にそれぞれのスライドの種類の分別を行うために、スライドそれぞれの文章のベクトル化を行った。そのためのモデルとしてはoshizo/sbert-jsnli-luke-japanese-base-liteを用いた。このモデルは768次元で、133Mのパラメーター数のあるモデルであり、「JSTS valid-v1.1」と呼ばれる評価データセットで、0.811という比較的高いスコアを出している。
これらのスライドそれぞれの文章を、コサイン類似度を評価軸に階層クラスタリングした。文章ベクトル間の0から1の距離を指標として用いて階層的にまとめ上げ、類似度に基づくクラスタ構造を特定した。結果、数多くのグループにスライドを分類することに成功した。ただし、単語レベルでの分析で述べたように、スライドについても、会社の独自性が高いスライドが存在する。こういった、ごく僅かな数の会社の説明会資料にしか含まれていないスライドは分析上の意味が低いと考えられる。よって、472社の全スライドに対して、該当するスライドが40以下であるグループについては分析対象から除いた。(つまりそのグループに属するスライドを含むプレゼン資料を作成した企業が40社以下である場合はそのスライドグループを分析対象から外した。)
結果38のスライドのグループが残った。この38のグループに対して、それぞれ該当するスライドのサンプルを見ることで、名づけを行った。
該当するスライドが最も多いグループは「前向きなトーンの実績や計画」に関するもので、6871枚のスライドが該当した。次点は5789枚のスライドが該当する「業績数値が示された表」であった。3番目のグループは「ディスクレーマー、表紙、目次」であった。
これらのスライドのグループに対して、手作業でフィルタリングを行い、以下に該当するグループを取り除いた。
IR評価に関係のないことが明確なスライド(例:目次、会社ロゴのみのスライドグループ)
特定セクターや会社への結びつきが強いスライド(例:医薬品関連のスライドグループ、アシックス社のスライドのみ含むグループ)
その結果、20のスライドグループが残った。
分析対象となる472社に対して、スライドグループのそれぞれに関するダミー変数を作成した。この変数ではプレゼン資料のうち1ページでもそのグループに属するスライドがある場合は1、それ以外は0となっている。
説明変数グループ4:定性質問スコア
最後に、これまでの説明変数では捉えきれない要素で、我々が重要だと思う点についてのデータを構築した。それは以下の3点の質問に関連している。
定性質問1:過去の開示情報からの変化がプレゼン資料から捉えられるようになっているか
定性質問2:目標が達成できなかったときの経営責任が伝わるようになっているか
定性質問3:セグメントごとなどの細かい粒度で指標やその目標が示されているか
この3点の評価軸でもって、会社の説明会資料全体のテキストに対して、Googleの提供する"gemini-2.5-flash”によって0から100のスコアを付与した。
ここで定性質問の1~3に対してGeminiが各社のプレゼン資料に付与した点数は、平均点がそれぞれ93.2・81.1・90.3と高いのに対して、0点や5点の場合もごく稀に散見されるなど、やや極端なスコアリングに見えた。よって、それぞれの質問に関して、各社の点数の高さの順位をユニバースの社数472で割ることで、値をタイル値に直した。
説明変数全体のまとめ
グループごとの説明変数の統計量をまとめたところ、以下のようになった。
優良IR企業はダミー変数であり、その他の企業では0となる。またスライド分類も同様に当該スライドが含まれなければ0となる。さらに単語TF‐IDFは該当の文字がスライドになかった場合に0となる。よって以上の3変数は0の値をもつことが、それ以外の場合よりも多い変数であるので、中央値が0となっている。
分析とその結果
この章では分析手法の説明と、その結果を示す。
分析手法
上記で用意したデータに対して、L1正則化ロジスティック回帰を行った。L1正則化は、変数選択と過学習の抑制を同時に行う回帰分析手法であり、線形回帰に「L1正則化項」というペナルティを加えることで、不要な特徴量(説明変数)の係数をゼロにし、モデルをシンプルかつ解釈しやすくすることが可能になっている。当分析では472社の企業のデータに対して、説明変数(特徴量)が413と相対的にかなり大きいため、L1正則化項を設けることが適切と判断した。
さらに、今回の分析では被説明変数が0か1か(そのほかの企業か優良IR企業か)のダミー変数となっている。優良IR企業に選ばれる確率を予想し、決算説明会資料をスコアリングしたいため、ロジスティック回帰を採用した。
L1正則化におけるcパラメータは1.1と設定した。このパラメーターは小さいほどシンプルなモデルになる一方で、説明能力が減退する。しかし、同パラメーターは大きいほど過学習のリスクが増す。本稿の目的に即して、結果的に15の説明変数が残るように調整した結果、cパラメータは1.1となった。
分析結果
モデルの説明力を示すスコアは以下のようになった。
もっとも直感的に理解しやすいのはNagelkerke R²であり、ロジスティック回帰における「決定係数 R²」の拡張版となっている。この値に基づいて大まかに説明すると、優良IR企業である確率の2割程度を決算説明会資料から求めることができるモデルを今回、作成したといえる。
分析の結果、係数がゼロにならなかった説明変数(特徴量)は15となった。そのうち、プラスに寄与する説明変数は7つあり、そのリストは以下のようになった。便宜的にIDをf1-f7と割り振っている。
かなりデータに制約のある分析であったにも関わらず、ROICの重要性が示されたことを始めに、選択された説明変数は納得感の高いものがほとんどであった。
マイナス寄与する説明変数のリストも8つ得られたが、ここでは「優れた決算説明会資料が満たすべき項目を明確化する」という本稿の目的に即して敢えて示さないこととした。その背景としてはプラス寄与する説明変数と異なり、マイナス寄与する説明変数はここで示す意義が低いものばかりであったためである。
今回の分析では472社のうち17社のみが優良IR企業となっている。よって、被説明変数のうち17個だけが1の値をもち、455個が0の値となっている。ゆえにマイナス寄与する説明変数はただ単に平均的に0以外の値をもつ傾向が強い変数ばかりが選ばれることになった。別の言い方をすると、被説明変数が0である場合が多い中で、マイナス寄与する説明変数はモデルの説明能力を向上させるために、単に企業の説明会資料が「当たり前に満たしている」特徴量ばかりとなった。
結果の解釈
ROICやセグメント別業績数値の開示:f1やf2の説明変数(特徴量)で示されるようにROICという単語のプレゼン上の重要度が高い会社、またセグメント別の業績数値が開示されたスライドを含む会社はポジティブに評価されているという結果が得られた。
ROICのTF-IDFのスコアがもっとも高い会社はブリヂストンであった。合計22ページの比較的コンパクトなプレゼン資料の中で、ROICという単語が9回も登場しており、重要KPIにフォーカスしている姿勢が好感できるプレゼン資料となっている。
またセグメント別業績数値を開示したスライドがプレゼン資料に含まれており、優良IR企業とされているのが川崎汽船である。四半期ごとのセグメントの数値やポイントが分かり易くまとまっている。


管理と経営責任:f3やf4の説明変数(特徴量)で示されるように業績リスクやKPIのマネジメントの徹底や、経営者の責任感が伝わってくるプレゼン資料は優良IR企業の特徴であることが分かった。(注:ここでの「マネジメント」というのは多くの場合の文脈で「経営者」という意味ではなく、「管理すること」を指している。つまり、管理を徹底することと、経営者のコミットメントが鍵であることが示唆される。)
この2点で優れているのは三井物産である。本決算説明会資料は「中期経営計画 2026進捗 2026年3月期事業計画」というタイトルになっている。リスク・ポートフォリオ・バランスシートといった様々な事柄に対して管理(マネジメント)を徹底する意思が伝わる内容となっている。また「持続的な企業価値向上に向けた取組み」といったページで、ROEの向上と資本コスト低減の2軸での、目標に対する実際の取り組みが示されている。こういった内容を踏まえてGeminiが「目標が達成できなかったときの経営責任が伝わる」と高く評価したのだと思われる。
説明資料の充実・英語比率:f5やf6の説明変数で示されるように、単純にスライド枚数が多かったり、Appendixが充実していることも優良IR企業の特徴であるようだ。
さらに興味深いのはf7である。本分析は日本語の決算説明会資料を対象にしているにも関わらず、そういったプレゼン資料に含まれる英文字の割合が多いことが優良IR企業の特徴となっていることが分かった。
これは意図的に海外投資家にとっての視認性を意識してなされている場合と、KPIや役職名が英語となっていること(例えば最高財務責任者ではなくCFOと呼んでいるか、等)が反映されている可能性がある。つまり、普段から海外投資家への発信や、海外拠点とのコミュニケーションを意識している会社ほど、結果的に英語比率が高くなっている可能性がありそうだ。
単純にプレゼン資料に英文字を多く入れることはあまり意味をなさないと考えられるものの、この説明変数が選ばれたのは興味深い。
これらの点で高い評価となったのは三井不動産である。92ページにわたる資料の中で、自社の長期業績推移やマーケットデータなどの充実した情報の提供がなされている。特に非財務データについて長い時系列での推移が示された例は珍しく好感がもてる。さらに同社のプレゼン資料は別途英語版もあるものの、海外投資家を意識してか、日本語版にも英語併記がなされている。


結論と今後の課題
結論として今回の分析では、優良IR企業の決算説明会資料がもつ特徴を抽出することができた。具体的には、ROICの開示やセグメントごとの詳細な開示、経営者のコミットメントが伝わる内容のプレゼン資料であることが、優良IR企業の特徴のようだ。さらに、スライド枚数の多さや、英文字の多さも示唆のある特徴となっていることが分かった。
本稿の分析には制約が多くあった。まず、被説明変数はごく限られた人数のアナリストや投資家が優良IRと認めるかどうか、というやや恣意的になりがちな変数であった。一方でテキスト分析を行ったために説明変数(特徴量)の候補は膨大で、候補が413と大きくなった。然しそれにも関わらず、選ばれたプラスに寄与する7つの説明変数が納得感の高いものがほとんどであるという点は驚きの結果であった。
ただし一方で、いくつかの課題も感じられた。まず、説明変数グループ4に含まれた定性質問スコアは、Geminiに考えさせるという設計に無理があると考えられ、3つのうち2つはモデルにより棄却された。さらにWACCやCost of Equityといった我々が重要と考えるKPIは説明変数として残らなかった。まだまだ開示がこれらの係数については不十分であるためにそのような結果になった可能性がある。
今回の分析ではTOPIX500のうち472社を対象としたが、同じモデルを全上場企業に適用し、IR資料の改善点への示唆が得られるシステムを構築することに我々は成功した。また、同じ説明変数に対して、バリュエーション指標を被説明変数とした分析を行うことで、定性的な会社の特徴がバリュエーションに与える影響を可視化することも今後は目指したい。
本稿に関連して我々が提供しうるサービス
本稿に関連しては、弊社は以下のサービスを発行体と投資家に提供可能である。
発行体向け:
弊社では発行体に対して、無償で説明会資料評価スコアの提供やIRに関する相談を受け付けている。
有償では単なるスコア提供ではなく、説明会資料で追加すべきスライドの具体的な提示や、設定すべきKPIの算出支援を行うことができる。
投資家向け:
投資家向けには以下のサービスを提供できる。本稿ではTOPIX500を分析対象にしたが、東証の全銘柄についてのDatabaseも構築準備をしている。
次回はセクター相対PBRを被説明変数として、企業の定性的なテキスト情報がバリュエーションに与える影響を分析予定。
スクリーニングに有償で応じることができる。例えばスライド単位で「xx社の本決算プレゼン資料xxページと似たようなメッセージを発信している企業を調べて欲しい」といった検索や「ROICを重視した経営」といった曖昧な文章に対して、類似度の高いスライドを検索することができる。
今回ベクトル化したスライドデータのデータベースを構築している。ご希望があればデータベースそのものを販売可能である。
テック分野に明るい投資家に対しては、上述したベクトルデータをオンラインにあげて、APIとして提供する相談にも応じることができる。MCPサーバー経由でGenerative AIとの接続も可能になる。
*是非、配信登録していただければ幸いです。
注:ここで書かれたサービスは予告なく提供を停止することがあります。また当社の役割はあくまで情報提供に限定されており、売買の推奨や目標株価の提示といった、日本の金融商品取引法上の勧誘行為に該当する業務は一切行っておりませんのでご了承ください。