n8nやGumloopで自動化ワークフローを組み、テストも通った。本番に出して数日後、確認してみたら出力がすべておかしくなっていた——そういう経験をした方は多いと思います。
止まらずに動き続けることと、正しく動き続けることは別の問題です。多くのエージェントは前者には成功し、後者で静かに失敗します。
ステップが増えるほど精度が落ちる仕組み
各ステップを単体でテストすれば、精度はほぼ正確に見えます。問題はステップをつないだときです。
ステップ1が99%の精度で出力しても、5段重ねれば全体の精度は約95%になります。テキストの末尾に余分な改行が入る、JSONのキー名が微妙に違う、数値が文字列として渡される——こうした小さなズレが下流に伝播し、最終出力を壊します。
人間が間に入っていれば気づける。自動化すると誰も見ていない。これがエージェントが誤動作し続ける基本的な構造です。
ChatGPTの検証プロンプトをワークフローに差し込む
解決は単純で、主要ステップの後に「検証専用のChatGPTステップ」を1つ追加するだけです。
指示はこう書きます。
「前のステップの出力が以下の条件を満たしているか確認してください。条件:[期待する形式・内容]。問題があればNG:理由、問題なければOKとだけ返してください。」
n8nなら「Condition」ノードと組み合わせます。ChatGPTがOKを返せば次へ進む。NGなら前のステップを再実行するか、Slackに通知を送って人間に判断を仰ぐ。
すべてのステップに入れる必要はありません。出力が下流に強く影響する箇所だけで十分です。
2回失敗でSlack通知、エスカレーション設計の考え方
自動再実行を無制限にかけると、ループし続けてAPIコストが膨らみます。「2回再実行してダメなら人間にエスカレート」のルールが現実的です。
Slackへの通知文も自動生成させると、担当者は「どのステップが、どんな出力を返したか」をすぐ把握できます。確認と判断に集中でき、エラーを探して回る手間がなくなります。
n8n・Gumloopでエージェントを組む手順を参照しながら設計すると、各ツールの制約を踏まえた検証ループを置きやすくなります。
担当者が介入する場面だけを残す
この設計で変わるのは「エージェントを管理する仕事」の量です。
いまは「AIに任せたが、結果を全部人間がチェックしている」状態になっているケースが多い。自己検証ループを入れると、担当者が見るのは例外が発生したときだけになります。
完璧には動きません。でも「壊れていることに気づかない」状態は抜け出せます。管理コストを下げながら自動化を本番に乗せる、最小の設計です。
AIに任せたはずが、気づいたら全部自分で確認していた——そういう悔しい経験、一度はありますよね。
検証ステップを1つ追加するだけで、エージェントが「おかしいと自分で気づいて教えてくれる」仕組みに変わります。
まず1箇所だけ試してみてください。それだけで十分です。