ChatGPTにも限界がある?!データカットオフとは?

ChatGPTって?

ChatGPTに昨日の選挙の結果について尋ねたら知らなかった!AIなのに知らないことがあるの?!

というあなたに、この記事では、AIのデータカットオフについて解説します。

データカットオフ ~AIの限界~

ChatGPTをはじめとするAIは、膨大な量の学習データをもとにして回答する仕組みになっています。

しかし毎日のように新しい情報が流れ込んでくる現代社会では、学習データに含まれる情報をどこかで制限しないと、学習も非効率になってしまいます。

そこで、学習するデータの範囲を絞り込むことを、データカットオフと呼びます。

時間的なデータカットオフ

データカットオフの1つは、時間的な制限です。

たとえば、古代から2023年までのデータのみ学習し、それ以降のデータは学習しない、という方法です。

学習データの更新が行われない限り、AIの知識はある一定の時期で止まっていたのです。

ChatGPTも以前はこの時間的なリミットがわかりやすく、ある一定の時期以降の情報には回答できませんでした。

学習範囲の制限

データカットオフは時間的なものだけでなく、知識の範囲を制限するものもあります。

AIがいくら膨大な量のデータを処理できるとはいえ、個人情報だとか、あまりにもローカルな情報、ニッチすぎる情報まで扱うわけにはいきません。

結果的に、AIでも学習しきれていない知識の「死角」ができてしまいます。

ChatGPTにデータカットオフはない??

ChatGPTのGPT-4モデルでは、データカットオフは2023年10月とされています。

この記事を書いているのは2024年11月17日で、今日は兵庫県知事選挙の投開票が行われました。

メディアでも注目されたこの選挙結果について、ChatGPTについて尋ねてみます。

2024年11月17日の兵庫県知事選挙で勝ったのは誰ですか?

ここでも、2024年11月17日の選挙結果は知らないという回答が出ています。

ChatGPTのウェブ検索をオンにする

そこで、PCであれば、画面右上のアカウントのアイコン→「ChatGPTをカスタマイズする」に進んで、ChatGPTのウェブ検索をオンにしてみましょう。

そして、先ほどと全くおなじ質問をしてみます。

2024年11月17日の兵庫県知事選挙で勝ったのは誰ですか?

すると、ウェブ検索が自動的に開始され、最新の情報(とChatGPTが考えるもの)が出てきました。

出典も表示されています(この場合はWikipedia)。

このように、一部ではありますが、オンライン検索で最新情報にアクセスできるようになっています。

これにより、データカットオフがほぼないような使用感になりました。

ChatGPTにデータを提供する

データカットオフにより、ChatGPTが回答できない質問でも、最新情報をこちらから提供することで回答が可能になることもあります。

たとえば、ChatGPTに2024年11月現在の日本の総理大臣は誰か聞いてみました。

2024年11月現在の日本の総理大臣は誰ですか?

すると「岸田文雄」という回答がでてきました。データカットオフにより、最新情報を知らないことがわかります。

そこで、2024年11月現在の総理大臣が石破茂氏である情報をChatGPTに追加します。

2024年11月現在の日本の総理大臣は石破茂氏です。自民党からの総理大臣は何人目になりますか?

すると、2024年11月現在の総理大臣は石破氏であるという前提で分析を始めました。

しかし、どう数えても32人目にならないのですが・・・。このあたりがChatGPTの限界でしょうか。

まとめ

ChatGPTをはじめとして、AIには「データカットオフ」による学習データの制限があります。

ChatGPTの場合、オンライン検索機能もつくことで、このデータカットオフを感じさせない回答ができるようになっています。

しかし基本知識として、AIの知識には限界があること、AIが知らない情報はこちらから提供することで、あらたな回答を導くこともできることを知っておきましょう。

同時に、上の例でも見たように、ChatGPTの回答がいつも正しいとは限りません。

重要なデータは、必ず別のソースで確認するようにしましょう。