AI愛子設計ログ27 GPT-5の印象

続きです。全てのシリーズはこちら
※本記事は「技術解説編」です。先に公開したユーモア中心の「おちゃらけ版」とは若干時系列が異なるため、シリーズでお読みいただくと理解が深まるかと思います。

■鳴り物入りでリリース

アメリカ時間2025年8月7日(日本時間8月8日)に公開されたOpenAIの新モデルを、サンネームの現場でも1週間運用しました。と、いうか予想に反して旧モデルを一切使わせなく強制的にGPT-5のみになるという仕様。(これは1週間でFASTというモデルが追加された。恐らくGPT-4oそのものでしょう)

すっかり、数々の評価レビューも出そろった感じですので、サンネームとしても印象をアップデートしたいと思います。

結論として、生成能力は確かに向上しましたが、同時に「ボケ」(基本的な手順の取りこぼしや過剰な置き換え提案)が強くなり、日常運用では細心の注意が必要になったと感じました。

■ざっくりした印象

コード生成の筋が良くなり、設計や関数分割の提案が的確になりました。今までは回答を爆速で作ってくれていましたが、思考時間が必要となり最大1分以上待たされることも多くなりました。これは確かに日常ではGeminiを使わずにChatGPTを使っていた唯一無二のメリットだったのに、大きな後退。

しかし、回答を精査するというのは必要な処理ではあります。

なのに、数分考えて import の抜けや requirements 漏れなど初歩的な不整合が増え、全てのエラーの原因を「コンテナ破損です」と行ってくることが多くなったのは困ったものでした。

修正してないファイルを無理に修正させようとするので、黙って指示に従っていたらコード全体が壊れます。

■良くなった点(賢くなったと感じたところ)

設計の見通しが良い: 責務分離や関数分割、キャッシュ戦略の提案が妥当。非同期処理の導入ポイントも概ね正確。
特に今まで片手間にしか作業できていなかったAI愛子開発を夏の休業時間を使って大幅メンテしようとしていたので、キャッシュの実装が一発で出来たのには感動しました。
GPT-4oの時はキャッシュに展開すると何故かデータを読まれなくなるというジレンマを抱えていたのですが、この賢さアップはまさに願ったり叶ったりでした。

今回夏休み中の最大の改良点として実装しようとしていた「キャッシュを使った爆速回答」がわずか1時間で動くようになり、予定していた1週間を大幅短縮し、その余った時間をお遊びコードに回すこともできました。

■困った点(ボケが強くなったと感じたところ)

Pythonの基本中の基本である、import文のミスや不足をものの見事に見逃します。自分でログを読んでいても「import先がないよ」と書いてあるログを見落とすというのはどういうボケでしょうか。信用度がガクッと落ちました。

結果として「全部やり直してください」という全置換の回数が高まりました。実は今回の修正を考えるとその方が速い。プロンプトには正確だが、自分のミスを追うのが苦手という印象。

よってあまり信用しすぎると取り返しのつかない破壊的提案をしてくることがあり、安定性という意味では著しく劣化したと言えるでしょう。(恐らくある程度はGPT-4oで出来ていたので改善はしてくるとは思いますが)

■結論。デバッグはしばらくGemini並行して処理する。GTP-5にもデバッグさせるが信用しない。

GTP-5もまさかGPT-4oで出来ていない作業が出来ないまんまというのはあり得ないと思われます。よって改善してくれるまでは以下の2つの対策を併用します。

・デバッグはGeminiも併用する
・バグったらデバッグせずに設計(プロンプト)の方を見直す。

あ、でもこれってGPT-4oのときも原則一緒でしたね。つまり進化していないというのが正確な表現かも知れません。

■まとめ

新モデルは明らかに賢くなりました。賢くなったと思えない人は、そこまでの機能しかAIを使っていなかったということでしょう。OpenAI社のいう「博士が隣にいる感じ」確かに実感します。

しかし現場運用の観点では、世間知らずな博士といった印象があるので、商用化するにはより使用者側の理的な評価が必要だと思います。

まあ、実際に世の中にいる本物の専門家の博士も似たようなものだからね(笑)


コメント

コメントを残す