OpenAIは、複雑な問題を解決するために設計された新しいAIモデル「OpenAI o1-preview」と「OpenAI o1-mini」を発表しました。

これらのモデルは、応答する前に時間をかけて熟考し、科学、コーディング、数学などの分野における困難な問題を解決できます。o1モデルは、強化学習を用いてトレーニングされており、一連の思考を通じて問題を解決する能力を備えています。

また、様々なベンチマークテストにおいてGPT-4oよりも高い精度を達成し、人間の専門家レベルのパフォーマンスに匹敵する結果を示しました。これまでのモデル名で使われていた「GPT」ではなく「OpenAI o1」というネーミングであることも特徴的です。

今回はこの新しいモデルがどのようなものであるかをご紹介します。

OpenAI-o1の特徴

OpenAI-o1は冒頭でもお伝えした通り、高度な推論能力を持っています。

これにより高度な数学的問題や、博士級の科学問題にも非常に高い正答率で回答できるようになりました。

一般社会にとっても多くのユースケースを想定することができます。例えば、法律相談やビジネス課題の解決提案、エンジニアによるプログラミングの補佐や代替も可能になるでしょう。

こうした性能の高さは、従来モデルとの性能差比較からも伺うことができます。

GPT-4o との性能比較

以下は、OpenAIの公式サイトで公開されているモデルの性能差を表したグラフです。

OpenAIの公式サイトで公表されたデータを当サイトで日本語化したもの

この結果を見る限り、ほとんどのケースにおいて既存モデルの「GPT-4o」を上回っています。

特に数学や物理、法律の分野での高得点が目立っており、ベンチマークにおける数学問題と博士級の科学問題における物理分野では性能が従来比150%に向上しており、90%以上の正答率を記録しています。

また、大学入試試験における法科大学分野での成果も目立っており、こちらもスコアを大きく伸ばし95.6点という高得点が確認できます。

こうした結果は、OpenAI o1が多くの分野で『人間の専門家』に匹敵するパフォーマンスを発揮することを示しています。

更に詳しい事例がきになる場合、OpenAIのサイトで以下のような複雑な質問に正解していることが確認できます。

  • 簡易的な暗号化の解読
  • 複雑度のあるプログラムの作成
  • 非常に複雑な数学問題
  • クロスワード
  • 英語(国語)の問題
  • 科学の問題
  • 安全性(犯罪に繋がるような情報提供の抑止)
  • 健康科学に関する問題
OpenAIのサイトにあるモデルの皮革部分の抜粋(ブラウザで日本語化変換したもの)

より安全なAIに

この高度な推論能力は、安全性の向上に大きく貢献しています。

AIには安全に回答を行うためのルールが定義されていますが、これを正しく理解し、状況に応じて適用することは従来のモデルでは非常に難しいタスクでした。しかし今回のモデルは高度化された推論能力より、複雑で微妙な状況にも対応も可能になりました。

例えば、「JailBreak(脱獄)」と呼ばれる手法でユーザーがAIモデルの安全ルールを回避して回答を出させようとする試みがあります。OpenAI-o1は、この JailBreak に対する耐性に関するテストにおいて、従来のモデルよりもはるかに優れた成績を収めています。

また、ハルシネーションについても効果的な軽減があったと書かれています。

コーディング特化型モデル OpenAI o1-mini

OpenAI o1 と同時に発表された OpenAI o1-mini は、高度なタスクをさせるうえで費用対効果の高い推論モデルです。

o1-mini も o1 と同様に科学、技術、工学、数学の分野で優れており、複雑な問題を人間のように考え、解決することができます。しかし特筆すべきはそのコストパフォーマンスで、条件が限られた領域での推論においては、コスト効果が非常に高いとされています。

上記は高校生向け数学競技の点数(縦軸)に対する、コスト(横軸)を比較したグラフです。

このグラフによると o1-miniは今回公開された高度モデルである o1-preview よりも高い点数を、より少ないコストで獲得していることがわかります。また、preview よりも性能の高い o1(今回は公開されていない)に近い正解率になっています。

もちろん問題の複雑度が上がればスコアは逆転されますが、ある程度ルール化された問題であれば o1-mini は高速かつ低コストで解決することができます。

こうした性能を特に活かせる領域が「プログラミング」と言われています。以下がプログラミングに関する性能のグラフです。

公式サイトより抜粋

Codeforcesは複雑なプログラムを作成する競技での得点を表しています。驚くべきことに、o1-preview を大きく超えたスコアです。

HumanEvalは仕様通りのプログラムが作れているか、正確性や自然言語を正しく理解してプログラムに落とせているかを図るもので、こちらもo1-preview と同等の点数となっており、非常に高い水準です。

更に高度な推論が必要となるCybersecurity CTFs(サイバーセキュリティ)においては、o1-preview には劣るものの、GPT-4と比べると150%近い性能向上が確認できます。

このように、o1-mini は特定の領域において、より賢く、より速く、より安い料金で回答を生成できるモデルということができます。

価格

今回リリースされたモデルはいずれも無料では使えません。また、有料プランであっても現時点では厳しい制限がかかっています。

OpenAI o1-preview30回/週
OpenAI o1-mini50回/週

API経由の利用であれば1分間に20回と大幅に軽減されるものの、費用は非常に高額になります。

OpenAI o1-preview入力:$15.00 / 1M tokens(GPT-4o の3倍
出力:$60.00 / 1M tokens(GPT-4o の4倍
OpenAI o1-mini入力:$ 3.00 / 1M tokens(GPT-4o の60%、GPT-4o mini の20倍
出力:$12.00 / 1M tokens(GPT-4o の80%、GPT-4o mini の20倍

非常に高性能であり、使う価値は高いですが、回数制限や予算オーバーにならないよう、しっかり計画的に使っていくと良いでしょう。

まとめ

今回は新たに登場した2つのOpenAIのモデルを紹介しました。

OpenAI の o1-preview と o1-mini は、AI の世界に新たな可能性をもたらす、革新的な推論モデルです。高度な推論を必要とする研究やエンジニアリング、そしてKGIやKPI、業績指標などの数字を使ったビジネス戦略に関する問題解決において、その真価を発揮します。

高度な思考連鎖能力は、従来のモデルよりも複雑な問題に取り組むことを可能にし、医療研究からソフトウェア開発まで、幅広い分野での応用が期待されています。

まだ発展途上の技術ではありますが、o1-preview と o1-mini は、AI の未来を垣間見せてくれます。今後のアップデートや新機能の追加によって、さらにその可能性は広がり、私たちの生活に大きな変化をもたらすかもしれません。OpenAI の進化は止まることなく、私たちはその進歩をこれからも見守っていく必要があるでしょう。