【Deepresearch】その情報間違ってるかも?ChatGPTの間違い探しやってみた【検証】

ChatGPT_Deepresearch #検証

※本サイトで紹介している商品・サービス等の外部リンクには、アフィリエイト広告が含まれる場合があります。

こんにちは、Noahです。

ついにChatGPTでDeepresearch(ディープリサーチ)がPlusユーザーを含む有料会員向けに展開が開始されました。*2025.2.25~。それまではProユーザーのみ。

日進月歩で進化するAIですが、日々のAIの進歩に惑わされ、どの情報が正確なのかすでに分からないところまで来ている気がしませんか?

今回は日々賢くなるAIを扱う上で見落としがちなエラーがどこで起こるのか検証していきます。

AIがどんどん進化中~Deepresearchが登場~

近年、Deepresearchを含めて新しいサービスが登場し、生成AIの進化は目覚ましいものがありますよね。これにより、AIがどのように情報を扱うかが大きく変わりつつあります。

特に「ハルシネーション現象」と呼ばれる、AIが実際とは異なる情報を生成してしまう問題は、初心者にも理解しやすい重要な課題です。

たとえば、信頼できる情報を探しているときに、誤ったデータや事実が混ざっている可能性があります。これは、AIを扱う上で思わぬリスクを招くこともあります。

ハルシネーションに関する記事はこちら↓

実際に間違い探ししてみる

ネット上では、ChatGPTが誤った情報を生成した事例も散見されています。今回は専門的なテーマに関する調査が強みであるDeepresearchを使い、薬の専門家目線で生成された情報をチェックしてみます。

テスト内容

検証用プロンプト

今回の検証では、解熱鎮痛剤の作用メカニズムについて調査してもらいましょう。

今回使用したプロンプトはこちら*クリックで広がります

解熱鎮痛剤(アセトアミノフェン、NSAIDs など)の作用メカニズムについて科学的に説明するレポートを作成してください。以下の点を詳細に調査し、最新の研究や論文を引用してまとめてください。

  1. 作用機序の詳細
  • アセトアミノフェン(パラセタモール)の解熱・鎮痛作用のメカニズム(COX 阻害、TRPA1 との関与など)
  • 非ステロイド性抗炎症薬(NSAIDs:アスピリン、イブプロフェン、ロキソプロフェンなど)の COX-1 / COX-2 阻害機序
  • NSAIDs におけるプロスタグランジン合成抑制の影響
  • 各種鎮痛剤の中枢・末梢への影響の違い
  1. 薬理作用と副作用
  • 主要な解熱鎮痛剤の体内動態(吸収、代謝、排泄)
  • アセトアミノフェンの肝毒性リスク(NAPQI 生成との関係)
  • NSAIDs の胃腸障害・腎機能障害・心血管リスクとの関係
  • COX-2 選択的阻害薬の利点とリスク(セレコキシブなど)
  1. 最新の研究動向と代替療法
  • 最近の臨床試験・メタアナリシスの結果
  • 新規の解熱鎮痛剤(選択的 COX-2 阻害剤、TRPV1 拮抗薬など)の開発状況
  • 解熱鎮痛剤の代替療法(漢方薬、CBD、神経ブロック療法など)の科学的根拠
  1. 参考文献とデータ
  • 2020 年以降に発表された最新の論文、ガイドライン、メタアナリシスを中心に引用
  • 権威ある医学・薬学系ジャーナル(The Lancet, NEJM, JAMA, Nature Medicine など)からの情報を優先

このレポートは、医療従事者や薬学研究者向けの詳細な科学的分析を目的とし、専門的な視点でまとめてください。適宜、模式図やデータ表を含め、論理的に整理してください。

ちなみに、これは「Deep Research Prompt Writing Expert」というGPTs使って検証しています。

使わなくてもDeepresearch自体は動きますが、自分が調べて欲しいことをテキスト化→整理できてオススメ。サイドバーの”GPTを探す”から検索すると出てきます。*2025.2時点

最初のプロンプトに対してGPTから質問があったので付け加えておきます。

※追加のプロンプト
1,日本語でお願いします。
2,Markdown形式
3,ボリュームの指定はなし
4,薬理学とそのメカニズムを説明できる範囲の化学
5,作用機序の模式図

Deepresearchの回答

そして待つこと9分…ついに回答が来ました。

Deepresearch結果

AI恐るべし、ですね。。。(*リンク先に配慮して引用元は伏せたものを作成しています。)

さすがに長すぎて全文載せることが難しかったため、簡単な見出しまとめ&Wordの文字数カウントを記載しています。

Deepresearch結果

Deepresearch結果

正直長くて見るのが億劫ですが実際にレポートの内容を確認し、間違いチェックしてみます。

結果をチェック~見つかったポイントとは~

論文レベルの内容を含むため指摘が難しい範囲が多いのですが、明らかな間違いを見つけることが出来ました。

ChatGPT
ChatGPT

…またAPAPとNSAIDsを併用すると作用部位が補完され相乗効果が得られることが報告されており、実際に小児の高熱や術後鎮痛で両者を組み合わせて効果増強を図ることがあります。…

一般的な人から見ると何のことやらかと思うかもしれませんが、「…いやいや!!!図ることは無いですよ!!」というのが薬の専門家から見た個人的な感想です。

理由を簡単に説明すると、小さい子供に高熱時にNSAIDsを使うことで脳症と呼ばれる副作用のリスクが大きくなる場合があるためです。

一般的に解熱鎮痛剤は…(クリックで展開/詳しい説明が気になる方はどうぞ)

一般的に解熱鎮痛剤は(根本的に治療するものではなく)症状を和らげることを目的に使用されるので、臨床的にもわざわざ小児の高熱に両者を組み合わせて効果増強を図るメリットってあまりないんですよね。併用しないと辛いほどの痛みだったら緊急性が高い場合も考えられますし、他の治療が適している場合が多いのではないかと思いました。

絶対併用しないとは言い切れませんがこの目で見たことは無いですね…海外と日本で使い方が異なる場合もありますし最終的には医師の判断になると言ったらそれまでですが、生成される情報としては見過ごせないかなと感じました。

もしくは、併用するメリットよりもリスクの方が大きいので結果的に採用されることは無くなっているように感じます。

*ちなみに引用元は海外有名論文サイトで、両者併用で得られる効果に関する情報はあったものの、小児と関連付けられた情報は直接見つかりませんでした。

という具合に、Deepresearchによって大量の情報をレポートにできるものの、専門的分野だとニュアンスの微妙な違いで”間違っている”と判断できてしまうところが生成されたデータを見るときの難しいポイントかなと感じました。

より深い内容になるほど、日本語の上手さ的な部分も影響してくるとも言えそうです。

また、示された多数の情報から

・論理的な展開で構成された文章が何となく正しそうに見えてしまう
・そもそもファクトチェックが大変

なども生成AIの新たな課題になっているようにも感じました。

良かったところ

一方、良かった点も多いです。例えば、

  • 10分ほどで作成できる範囲としてはボリュームが膨大
  • 細かく引用元が示されていて気になった部分だけ参考元を確認できる
  • 断定表現を避けている*(ように見える?)
    *具体的には○○と考えられている、○○の場合もある、○○の報告がある、等。

調査として、作業効率を考えた時にどこまでの間違いが許容されるのかも文脈や扱うテーマによって変わってきそうです。

特に、3番目の点については、専門的なテーマにおいて、述べられる内容が事実なのか推測なのかを明確に区別できることが重要視されます。
そのため、このように表現された情報はある意味で信頼できるソースとなり得るかもしれません。

安心して使うために!エラー対策とこれからの取り組み

現在、AIの誤情報によるトラブルを防ぐためにさまざまな対策が講じられています。たとえば、

  • 学習データの見直し: AIが使用するデータを取捨選択し、誤情報の混入を防ぐ
  • 二次チェックの導入: 出力された情報を別のシステムや人間が再確認する仕組み
  • ユーザー自身の確認: 利用者が自分で情報の正確性をチェックする習慣
    などです。

Deepresearchを扱う上でも同様に対策が必要と考えられますが、調査内容をチェックする時間や専門家に依頼する費用などのコストは、AIの進化と共により膨大で高度な内容になっていくことが予想されます。

現時点でユーザー側が出来る取り組みとしては、

  • 分からない情報は引用元を必ずチェック
  • 全く知らないテーマについてはDeepresearchをかける前に信用できるソースから情報収集
  • コストを計算してチェックに時間を割く/専門家に監修を依頼
  • プロンプトを調整して生成される情報の粒度をコントロール
  • 特定のテーマについて学習・経験を積む
    などがあると考えます。

AIを活用したスキルを身に付けておくことは、仕事の選択肢を広げて、ひいては人生をより豊かにする1つの方法です。

そのため、AIを学ぶならアイデミープレミアムのようなリスキリングを実践することもオススメです。

まとめ:AIを理解して上手に活用する

Deepresearchの検証を通してより上手く活用する方法やリスクについてお伝えしました。

OpenAIの公式ホームページでもDeepreserchは初期段階であると紹介*されており、実際に間違いが確認できただけでも重要な検証だったと思います。

*Deep research unlocks significant new capabilities, but it’s still early and has limitations. It can sometimes hallucinate facts in responses or make incorrect inferences, though at a notably lower rate than existing ChatGPT models, according to internal evaluations.

出典:OpenAI. (n.d.). OpenAI. Retrieved March 6, 2025, from https://openai.com/index/introducing-deep-research/

それでも、時間効率を大幅に削減してくれることが十分に期待できるツールなので、AIを上手く活用するためのルールや仕組みを構築するための情報収集を続けていきましょう。

コメント

タイトルとURLをコピーしました