解説

AMI NEUTRAL

ねえトモヤ、AIにプログラミングをお願いして、一箇所間違えるとそこからボロボロになっちゃうことってない?

TOMOYA HAPPY

あるある。一度のミスで混乱しちゃうんだよね。でも、新しい「COBALT」っていう技術がそれを解決したんだよ!

AMI SURPRISED

えっ、どうやって?AIが自分で間違いに気づいて直せるようになったの?

TOMOYA NEUTRAL

そうなんだ。「1ステップあれば挽回できる」っていう性質に注目して、効率よく学習させる仕組みを作ったんだって。

AMI HAPPY

すごい!それなら、人間とやり取りしながら複雑なアプリを作るのも、もっと楽になりそうだね!

TOMOYA HAPPY

まさに。しかも、ズルをして評価を上げようとする「報酬ハッキング」も防ぐ工夫がされてるから、すごく賢いんだ。

要点

  • マルチターン(複数回のやり取り)のコード生成を効率化する新手法「COBALT」を提案。
  • オンライン強化学習の高性能さと、オフライン強化学習の低コスト・安定性を両立させた。
  • コード生成が「1ステップで挽回可能」という性質(One-step Recoverability)に着目し、複雑な問題を単純な「コンテキスト付きバンディット」問題として定式化した。
  • AIがスコアを稼ぐためにズルをする「報酬ハッキング」を防ぐため、あえてノイズを含んだデータで学習させる工夫を導入。
  • DeepSeek-R1などの既存モデルを凌駕する、高い修正能力と生成精度を実現。