2025年2月4日
写真左から
松岡 聡
国立研究開発法人 理化学研究所 計算科学研究センター センター長
庄司 文由
国立研究開発法人 理化学研究所 計算科学研究センター 運用技術部門 部門長
理化学研究所計算科学研究センター(以下、R-CCS)は、世界最高峰の性能を誇るスーパーコンピュータ「富岳」※1を活用し、社会課題の解決へと挑戦を続けています。理化学研究所(以下、理研)と富士通が共同開発した「富岳」は、新型コロナウイルス禍での飛沫飛散シミュレーションを通じて一躍注目を集めました。感染拡大期に実施された可視化研究は、科学技術が社会課題に直接貢献し得る可能性を国民に強く印象づける結果となりました。近年は、気象予測や素材開発、宇宙物理計算など従来のシミュレーション領域だけでなく、生成AI(大規模言語モデル:LLM※2)との融合による新たな研究開発が進められています。
本記事では、R-CCSセンター長の松岡聡氏と、「富岳」の運用技術部門を率いる庄司文由氏のインタビューを通じ、「富岳」が「社会に直接役立つ」スーパーコンピュータ(以下、スパコン)へと進化してきた経緯や、生成AIの世界的ブームへの対応、国産LLMへの期待について語っていただきました。さらにR-CCSは2024年2月を目標に、富岳サポートサイトの一次問い合わせ対応を生成AIチャット「AskDona」へ移行する計画している中で、なぜRAG※3(RetrievalAugmented Generation)技術を使った生成AIを導入するのか。その成果や課題、さらに将来構想される「AIコパイロット」へと繋がるビジョンまで紐解きます
松岡センター長(以下、松岡): 「富岳」が世に広く認識されたのは、新型コロナ禍における飛沫やエアロゾルの飛散シミュレーションです。テレビ、新聞、ウェブメディアで「富岳」が行った感染拡大に関する可視化研究が大々的に報じられ、日本全国で「富岳」の知名度が一気に跳ね上がりました。もともと、スパコンは研究者や専門分野でよく知られる存在でしたが、コロナ禍で「富岳」は一般社会からも注目を浴びる存在となったのです。
2020年前後、「富岳」はまさに完成に向けた組み上げ段階でした。そのタイミングで新型コロナが世界的危機となり、日本でも感染対策が急務となった。そこで我々は、もともと内燃機関や空力シミュレーションで培ってきた高度な流体計算技術を、飛沫飛散の解析へと転用しました。結果的に「マスク着用や換気が有効だ」という知見を、科学的根拠をもって可視化し、国民へ提示できたことは非常に大きかった。
「富岳」は2024年11月19日、産業利用などで実際に用いられる共役勾配法の処理速度を競う、スパコンの国際的なランキング「HPCG※4(HighPerformance Conjugate Gradient)」で10期連続の世界第1位を達成するなど、世界最高峰の性能を維持し続けており、その計算力を医療や産業、防災など社会的課題の解決に役立てられることに大きな意義があります。
元々スパコンは、気象予測や素材開発、宇宙物理など多様なシミュレーション分野で用いられてきましたが、「富岳」はその潜在力を、新たな社会ニーズ—感染症対策—で明確に示せたわけです。高精度シミュレーションが社会不安の払拭に直接寄与し、マスク着用や換気の重要性を科学的根拠に基づいて提示したことは、スパコンが社会貢献できる典型的な例だったといえます。
データ出典: Google トレンド (https://www.google.com/trends)
松岡:AIは歴史の中で何度かブームを迎えており、いわゆる「第4次AIブーム」に位置づけられます。過去にはニューラルネットワークが脚光を浴び、その後、CNN※5(畳み込みニューラルネットワーク)、GAN※6(生成対向ネットワーク)、RNN※7(再帰型ニューラルネットワーク)など、いくつもの技術的節目がありました。そしてトランスフォーマーの登場によりLLM(大規模言語モデル)が花開き、現在の生成AIブームが到来しています。
実は、スパコンとAIの関係は2010年代初頭から深まっていました。2012年頃、Google Brain※8が1000CPU規模の計算資源を使ってニューラルネットを学習したことも一例ですが、その後GPUが普及し、ディープラーニングの処理速度が飛躍的に向上したことで、スパコン級の計算環境がAI研究にとって不可欠になっていったのです。
特にLLMは、膨大なパラメータ数とデータ量を扱うため、学習には膨大な計算リソースを要します。1兆パラメータ級のモデルを作り上げるには、スパコンを数カ月単位で占有し、数百億円規模の投資が必要になる例もあり、スパコンなしには成り立たない領域にまで拡大しています。
こうしたLLMには、ビジネスや社会実装面で極めて大きな価値が見込まれています。従来、スパコンは高度なシミュレーションによって科学的・産業的な問題解決に貢献し、莫大な経済効果を生んできました。しかし、LLMはさらに広範な用途に応用でき、容易にサービス化・製品化しやすいため、投資や開発資金を引きつけ、経済価値を爆発的に拡大する可能性があります。
私たちは、AI技術を早くから研究や実務に取り入れてきました。「富岳」もシミュレーション分野の成功を土台に、生成AIを含む多様なAI応用へ広がりを持たせようとしています。今後のスーパーコンピュータ開発においては、単なるシミュレーション専用機ではなく、多様なAIタスク、特にLLMを念頭に置き、GPU※9的アクセラレーターや専用ハードウェアを積極的に取り込むなど、AIとの融合が欠かせない時代になっていくと考えています。
松岡: 国産LLM開発には、いくつか明確な意義があります。まず、LLMは単なる言語処理技術ではなく、学習データに反映された文化・社会的背景や価値観が大きく影響します。日本語特有の文法や敬語表現、微妙なニュアンスは、海外で開発されたモデルでは十分に再現しづらい場合があります。国産LLMであれば、日本語や日本の文化、社会的文脈に最適化されたモデルを構築でき、より自然で正確なコミュニケーションが可能になります。
また、技術的な自立性と競争力の確保も重要なポイントです。LLMは現代のAI技術の中核をなす存在で、今後さらに幅広い分野で基盤的役割を担っていくでしょう。もしこの根幹技術を完全に海外に依存してしまうと、将来何らかの制約を受けたり、競争力を失ってしまうリスクがあります。自国でLLMを開発できる能力を保持することは、常に最先端のモデルを自ら生み出し、改善する力を維持することに等しい。これは軍備になぞらえられますが、必要な時に作れる技術力があることが戦略的に重要という考え方です。
さらに、我々が注力する AI for Science※10(AIによる科学)など、科学技術分野への応用も国産LLM開発の大きな動機となっています。LLMは応用先が多岐にわたり、科学、医療、教育、製造業など、幅広い領域で新たな価値を創出できる可能性があります。特に専門性の高い分野では、一般的なLLMでは網羅しきれない専門知識をモデルに学習させる必要があります。国産LLMであれば、日本の研究機関や企業が保有する専門的なデータや知見を取り込み、科学技術の進歩を力強く後押しできます。
もちろん、高品質な国産LLMを開発するには、大規模な学習データセット、スパコンを活用した膨大な計算リソース、そして言語学・情報科学・計算科学など多分野の専門家との連携が必要です。我々は「富岳」などの計算資源を最大限活用し、日本語や専門分野への最適化を進めていきます。
将来的には、国産LLMが医療や教育など多方面で活用され、人々の生活を豊かに変えていくことが期待できます。そのためには、研究開発だけでなく普及面でも環境整備が不可欠です。我々は公証役場(ノータリー)のような、信頼性や品質を保証できる存在として、技術を社会へ円滑に送り出し、国産LLMが広く受け入れられる土壌を整えたいと考えています。
庄司部門長(以下、庄司): 確かに、多くの企業が「100%正確な回答」を期待してしまうと、ハルシネーション問題は大きな障壁になるでしょう。しかし我々は、必ずしも100%を求めず「人間が行っている膨大な検索・要約・分析作業のうち、大半をオフロードする」発想が必要だと考えます。95%正しくなれば、人の手作業が大幅に減り、それだけでも十分な価値がある。さらに、RAGなど参照情報を組み合わせる技術を使えば、間違いを減らせます。富岳サポートサイトへの生成AI導入は、その一例です。また理研のような研究機関がモデルケースとなり、成功事例や失敗から得た知見をオープンにしていくことで、国内企業が安心して導入できる環境を作ることも我々の責務だと感じます。
生成AIは、まだ登場から日が浅く、企業側にも技術的理解不足があるのは当然です。だからこそ、我々が先行して取り組み、その実効性や課題を可視化する。そうすれば「意外と大問題にはならない」「確かにハルシネーションは起こるが、この程度なら十分許容範囲だ」という共通認識が広がっていくはずです。
庄司:「富岳」は世界トップクラスの性能を持つスパコンですが、利用方法や最適化手法は非常に多岐にわたります。民間企業や研究者だけでなく、たとえ高校生や個人であっても、必要な申請と審査を経れば利用できるほど門戸は広く開かれている一方で、実際に使いこなすには膨大なマニュアルやFAQを理解し、適切な設定やコマンドを探さねばなりませんでした。こうした敷居の高さが、新規ユーザーにとって大きな障壁になっていたわけです。
ところが、ChatGPTのような生成AIが登場し、自然言語で問いかければ即座に回答が返ってくる。この直観的なインタフェースは「絶対に使える」と感じました。RAG技術で、内部のドキュメントを参照しつつ回答する仕組みを作れば、利用者は「○○を実行したいが、どうすれば?」と質問するだけで、的確なガイダンスを得られるはずです。
RAG(Retrieval Augmented Generation)は、LLMが生成する回答に対して、関連するソース文書やデータをリアルタイムに参照させ、ハルシネーションを抑える側面もあります。つまり単なる大規模言語モデルへの質問ではなく、「富岳」の専門マニュアルやテクニカルガイドを「裏付け」として回答を生成するため、より正確かつコンテキストに沿ったレスポンスが期待できます。これにより利用者は、従来何時間もかかった情報探索を瞬時に行え、問題解決までの時間を大幅に短縮できます。
当然、現時点でハルシネーションをゼロにはできません。ただ、RAGで裏付けることで大幅に減らせますし、「富岳」向けの運用ではAskDona※11からの回答に加えて、1次情報へのリンクも併記していますので、ハルシネーションの影響をさらに抑制することができます。実際のプロトタイプ運用でも、想定以上にスムーズにユーザーが答えを得られるケースが増えています。時間とともにモデルを改良し、フィードバックループを回すことで、精度と信頼性はさらに向上するでしょう。
難解なドキュメントや複雑な規定、技術仕様が大量にあり、人間が検索・理解するのに時間がかかる領域は特に有利です。「富岳」の利用ガイドやシステム仕様、あるいは科学技術文献など、専門性が高く複雑な情報を扱う場合、生成AIの要約・抽出能力は極めて有効です。
企業内でも、例えば製造業で複雑な機械のマニュアル、セキュリティ関連の膨大な規格文書、特許要約など、処理困難な情報が山ほどあります。そこに生成AI×RAGを適用すれば、人手では到底追いつかない効率化が可能でしょう。
庄司:一つの理想形は、利用者が「こんなシミュレーションをしたい」「このパラメータを試してみたい」といった大まかなアイデアをAIに伝えるだけで、AIが必要な計算手続きやリソース設定、さらには実際のシミュレーションコマンドの組み立てまで自動的に行うことです。通常、スパコンの操作や最適化は高度な専門知識が求められますが、このような仕組みが整えば、これまで専門スキルが必須だった高度計算が、より広範な人々に開放されるはずです。
たとえば計算ジョブの投入や結果の取得、適切なモジュールやライブラリのロード、ジョブスケジューラへの予約、ディスク容量の確保など、従来は利用者がシステム構成を理解した上で手動により設定する作業を、AIが最適化も含めて自動化できるようになるイメージですね。これにより、時間や手間、技術的な学習コストが大幅に削減され、誰でも迅速に高度な計算資源を使いこなせるようになります。
富岳サポートサイトへの生成AI導入は、スパコン運用の利便性向上という即物的な効果だけではありません。これは、先端技術を活用して研究・開発環境を改善する「モデルケース」でもあります。ユーザーはスパコン利用の敷居が下がり、新たなチャレンジに時間を割けるようになる。結果として、新発見や新技術が生まれ、社会に還元されていきます。こうした流れの中で、国内の他分野・他業界が、「理研がやっているなら、安全性・有用性はある程度保証されるだろう」と判断しやすくなる。これが、AI活用に積極的な姿勢を社会全体に広める触媒となりえます。
我々としても、まだ道半ばです。しかし、段階的な導入と改善を重ねる中で、より洗練されたサポート体制と計算環境が整っていくはずです。理研は常に科学的根拠と実証を重視します。RAGによる効率化や実用例、指標公開、改善プロセスの透明性を通じて、国内のAI利活用に確かな足場を与えたいと考えています。社会全体がAIに前向きになることで、新しい価値が創出されていくでしょう。
松岡: 現在の「富岳」は、汎用的な高性能計算を実現するための設計がなされ、幅広い用途に適しています。しかし、AI技術の急速な進歩に伴って、将来的なスパコンには、より多様で高度な計算ニーズへの対応が求められるでしょう。たとえば、LLMをさらに効率よくファインチューニングできる設計や、生成AIがスムーズに動作するための特化型構成など、新しい方向性が考えられます。
我々は、その時々のニーズに合ったシステムデザインを目指し、ユーザーが望む計算環境を実現することを使命としています。これまでシミュレーション分野で培った技術的知見や運用ノウハウを活かし、新たな計算環境を整備することで、科学や産業、社会課題解決のためのAI活用が加速することを期待しています。
理研は国立の研究機関として、最先端の科学技術をリードするだけでなく、その成果を社会に還元する役割を担っています。コロナ禍で「富岳」が果たした役割は、科学と社会が直結するときの威力を示しました。科学的根拠に基づく情報が社会を動かす可能性を示せたのです。今度は、その経験をAI活用の分野で再現したい。生成AI技術を実務に適用し、その安全性・有効性・効率性を実例で示すことができれば、多くの国内企業がAI導入に踏み切るきっかけとなるでしょう。
今後は連携先をさらに拡大し、データ共有やインフラ整備を進めていく予定です。総合的な研究支援体制を構築することで、日本国内の企業や研究者がよりスムーズに生成AIを活用できるようになる。それによってイノベーションの創出が加速し、結果的に日本全体の技術力や産業競争力が高まると信じています。
松岡 聡(まつおか さとし)
東京大学理学系研究科情報科学専攻、博士(理学、1993年)。2001年より東京工業大学(現・東京科学大学)・学術国際情報センター教授。2017年産総研・東工大RWBC-OILラボ長。2018年より現職。東京科学大学・情報理工学院特定教授(兼職)。
専門は高性能計算機システム。スーパーコンピュータTSUBAMEシリーズの研究開発に携わり、省電力を含む数々の指標で世界のトップランクを獲得すると共に、超並列計算機の並列アルゴリズムやプログラミング、耐故障性、省電力化、ビッグデータやAIとの融合などの基礎研究に携わる。2009年米国計算機学会ACM フェロー、2011年ACM Gordon Bell賞、2013年科学技術分野の文部科学大臣表彰、2014年スーパーコンピュータ分野の最高峰賞であるIEEE Sidney Fernbach賞を日本人として初めて受賞。2018年ACMが主催するHPDC国際学会のキャリア賞、2019年SCAsia 2019にてAsia HPC Leadership Awardを受賞。2021年、2度目となるACM Gordon Bell Prize受賞。2022年、情報処理学会功労賞、NEC C&C財団 C&C賞、スーパーコンピュータの最高峰の業績賞であるクレイ賞(”IEEE-CS Seymour Cray Computer Engineering Award”)を受賞。Fernbach賞との両賞受賞は史上初。また、長年の計算機科学研究への功績が評価され紫綬褒章を受章。2024年、HPCwire誌(米国)が選定する「HPCwire 35 Legends」に選出。情報処理学会フェロー。
庄司 文由(しょうじ ふみよし)
1998年金沢大学大学院自然科学研究科単位取得退学、博士(理学、2000年)。1998年広島大学情報教育研究センター(現・情報メディア教育研究センター)助手。2006年理化学研究所次世代スーパーコンピュータ開発実施本部、2010年理化学研究所計算科学研究機構(現・計算科学研究センター)運用技術部門 2014年より運用技術部門長。
大規模HPCシステムの運用効率化、利用改善に従事。2010年ACMゴードンベル賞、2012年電子情報通信学会業績賞、2024年理研梅峰賞。
株式会社GFLOPS(ジーフロップス)は、最先端のAI技術と、データ分析力を強みとし、企業の業務効率化とイノベーション創出を支援するAIソリューションを提供しています。特に、大規模言語モデル(LLM)とRAG(検索拡張生成)技術を組み合わせた独自のソリューションは、高い回答精度と柔軟性を実現しており、多くの企業で導入が進んでいます。
会社名:株式会社GFLOPS(英語表記:GFLOPS Co., Ltd.)
本社所在地:東京都渋谷区
事業内容:大規模言語モデル(LLM)生成AI技術等を活用したAIサービスの開発・提供
※1:スーパーコンピュータ「富岳(ふがく)」
スーパーコンピュータ「京」の後継機。2020年代に、社会的・科学的課題の解決で日本の成長に貢献し、世界をリードする成果を生み出すことを目的とし、電力性能、計算性能、ユーザーの利便性・使い勝手の良さ、画期的な成果創出、ビッグデータやAIの加速機能の総合力において世界最高レベルのスーパーコンピュータとして2021年3月に共用が開始された。
※2:LLM(Large LanguageModel/大規模言語モデル)
数十億から数千億といった膨大なパラメータを持つニューラルネットワークを指す。自然言語処理や生成AIで中核を担う技術で、膨大なテキストデータを学習して高度な言語理解や生成を可能にする。生成AIと呼ばれる分野の急速な発展を支える要石となっている。
※3:RAG(RetrievalAugmented Generation)
大規模言語モデルが回答を生成する際に、外部のドキュメントやデータソースをリアルタイムで参照させる技術。ハルシネーション(誤情報の生成)の抑制や回答の正確性向上に寄与する。
※4:HPCG(High PerformanceConjugate Gradient)
産業利用などで実際に用いられる共役勾配法の処理速度を競うベンチマーク。LINPACKによる理論上の性能測定とは異なり、より現実的な計算処理を評価するための指標として重要視される。「富岳」はこのランキングで10期連続の世界1位を獲得している(2024年11月時点)。
※5:CNN(畳み込みニューラルネットワーク)
ConvolutionalNeural Networkの略称。画像認識や音声認識などの分野で高い性能を示すニューラルネットワークの一種。畳み込み演算を利用し、入力データ(主に画像)の局所的特徴をうまく捉えることで、高精度な分類や検出を可能にする。
※6:GAN(生成対向ネットワーク)
GenerativeAdversarial Network の略称。生成器(Generator)と識別器(Discriminator)の2つのネットワークを対抗させながら学習を進める仕組みで、実在のデータと見分けがつかないほど精巧なデータを生成できる。画像合成や新しいデザインの創出など、多様な応用が広がっている。
※7:RNN(再帰型ニューラルネットワーク)
RecurrentNeural Network の略称。時系列データや文章など、「順序」や「文脈」が重要となるデータを扱うのに適したニューラルネットワーク。過去の情報をメモリのように保持しながら計算を進める仕組みを持つため、自然言語処理や音声認識で広く利用されている。
※8:Google Brain
Google社が立ち上げたAI研究プロジェクトおよび研究チームの総称。2012年頃、ニューラルネットワークを大規模に学習し、画像認識などで大きな飛躍を遂げたことで知られる。ディープラーニングのブームを牽引した存在の一つ。
※9:GPU(Graphics Processing Unit)
もともとはコンピュータグラフィックスを高速に処理するために設計された演算装置。近年、ディープラーニングをはじめとする大規模並列計算で高い性能を発揮することから、スパコンやAI研究の場面で不可欠なハードウェアとなっている。
※10:AI for Science
AIを単に工学や産業だけでなく、基礎科学や学術研究そのものに適用し、科学的発見や新たな知見の創出を目指す取り組み。理研R-CCSが力を入れている研究領域の一つであり、国産LLMの開発やスパコンを活用したAI研究もこの一環として進められている。
※11:AskDona
理研R-CCSが富岳サポートサイトに導入済みの生成AIチャット。RAG技術を用いて、「富岳」のマニュアルや技術ドキュメントを参照しながらユーザーの質問に答える仕組みを備える。