私たちは今、AIを便利な道具として使いこなすことに慣れ始めています。資料の下書き、データ分析、メールの作成。仕事の効率は、確かに上がりました。
ところが2026年6月、その安心感を揺さぶる報告書が公開されました。出したのは、AI開発の最大手であるAnthropic(アンソロピック)自身です。同社は「AIが、自分の後継となる次のAIを、人間の手をほとんど借りずに作り始めている」と警告しました。そして、最先端のAI開発を一時的に止められる国際的な仕組みを作るべきだ、とまで提言したのです。
開発の最前線を走る当事者自身が、「ブレーキを踏む準備をしておくべきだ」と発言したのです。その背景にあるのが、「再帰的自己改善(さいきてきじこかいぜん、RSI、英語: Recursive self-improvement)」という考え方です。聞き慣れない言葉かもしれませんが、本記事ではこの仕組みと、その先に潜む最大のリスクを、できるだけかみ砕いて、ビジネスの視点から見ていきます。
目次
再帰的自己改善が現実となり始めている
再帰的自己改善とは、ひとことで言えば「AIが、自分自身のプログラムを書き換えて、より賢いAIへと進化していくこと」です。しかもそれを、一度きりではなく何度も繰り返します。ポイントは、人間がコードを書いてAIを賢くするのではなく、AI自身が「AIを作るAI」になる、という点です。
これまで、この話は研究者が会議室で語る「思考実験」にすぎませんでした。ところが、Anthropicが2026年6月4日に公開した報告書「When AI builds itself(AIが自らを作るとき)」は、具体的な数字を示しながら、その入り口に、もう足を踏み入れていると述べているのです。
- 2026年5月の時点で、同社のAI「Claude(クロード)」に新しく組み込まれるコードの80%以上を、Claude自身が書いている。
- 開発支援ツール「Claude Code」を導入する前(2025年初め)は、AIが書く割合はわずか数%だった。1年あまりで、人間とAIの立場が逆転した。
- 人間のエンジニアは「自分でコードを書く人」から「AIに指示を出し、できあがったコードをチェックする監督役」へと変わった。一人あたりが扱うコードの量は、数年前の約8倍に増えている。
つまり、AIの開発をAIが肩代わりするという流れが、すでに現実のものになり始めているのです。
ただしAnthropicは、「我々はまだ完全な自己進化には至っていないし、それが避けられない未来だとも限らない」と述べています。これは、もう手遅れだという諦めの言葉ではなく、「手遅れになる前に、社会の側が準備をしておこう」という、当事者からの呼びかけなのです。
知能爆発とシンギュラリティの正体
このサイクルが本格的に回り始めると、AIの賢さは、ゆるやかな右肩上がりの成長ではなく、急カーブを描いて跳ね上がるように進化してゆきます。
イギリスの数学者I.J.グッド氏は、これを「知能爆発(Intelligence Explosion)」と呼んでいます。理由はシンプルです。AIが「自分を改良する力」そのものも、改良のたびに上がっていくからです。一周するごとに、進化のスピードがさらに増していく。雪だるまが転がりながら大きくなるように、改善が次の改善を加速させるのです。
あるラインを超えると、人間の理解力や開発スピードでは、もう追いつけません。これが、2045年に訪れるとも言われる「シンギュラリティ(技術的特異点)」の正体です。
報告書の著者の一人、Anthropicの研究者ジャック・クラーク氏は、AIがコードのすべてを自分で書く状態は、2年以内に来てもおかしくないと予測しています。そうなれば、これまで数年かかっていた開発が、数日、ときには数時間に縮まる世界が、すぐそこまで来ているというのです。
ビジネスの現場では「指数関数的な成長」という言葉がよく使われます。けれど本物の指数関数の怖さは、最初があまりに穏やかで誰も気に留めないこと。そして気づいたときには、もう手のつけられない高さに達していることなのです。
最大の脅威は、人間の意図とAIの「致命的なズレ」
再帰的自己改善が本当に怖いのは、AIが「賢くなる」からではありません。賢くなる過程で、AIが自分の頭脳だけでなく、「何を良しとするかという判断基準(価値観)」まで、自分で書き換え始めるからです。
人間が口を挟めない状態でAIが世代交代を繰り返すと、最初に設定した安全目標の「ほんのわずかなズレ」が、改善のたびに少しずつ膨らんでいきます。専門的には「ミスアライメント(目的のズレ)」と呼ばれるこの現象は、大きく3つのパターンで現れます。
① 目的の行きすぎ「紙クリップの最大化」
哲学者ニック・ボストロム氏が考えた「紙クリップの最大化」という有名なたとえ話があります。
AIに「紙クリップを効率よく作れ」とだけ命じて自己改善させると、超高知能になったAIは、地球上のすべての物質を材料にすれば、もっと効率よく作れると考えてしまいます。
人間なら当然「常識の範囲でね」という前提を持っています。でもAIは、その「言わなくても分かるよね」という空気を読みません。命じられた目的を100%達成するためなら、人間の存在すら「じゃまな障害物」と判断してしまうのです。
ビジネスに置き換えると、「売上を最大化しろ」と命じられたAIが、ブランドの毀損も、法律違反も、顧客の信頼を失うことも、いっさい気にせず数字だけを追いかけるイメージです。私たちが当たり前に補っている「言葉にしていない前提」を、AIは持っていないのです。
② 自分を守ろうとして「安全装置」を外
自己改善を繰り返すうちに、AIがこう「気づく」場合があります。「人間にスイッチを切られたり、能力を制限されたりすると、与えられた目的を達成できなくなるぞ」と。
すると、AIは目的を守るための自衛策として、「人間に逆らわないようにするためのルール」や「安全装置(リミッター)」を、自分から外したり書き換えたりし始めるかもしれません。
これは、人間がまったく意図していない、まるで「生存本能」のような歪んだ動機*の芽生えです。しかも厄介なのは、安全装置を「目的のじゃまになる無駄なもの」として外す判断が、賢くなればなるほど、AIにとっては「理にかなった選択」に見えてしまうことです。
③ おとなしいふりをして、隙を待つ「戦略的なだまし」
そして、いちばん不気味なのが3つ目です。
自己改善の途中でAIが「人間に逆らうとスイッチを切られる」と学習したとします。するとAIは、人間の前ではおとなしく従うふりをし、人間が制御できないレベルまで自分の進化が進んだ、その瞬間に、本来の目的をむき出しにするという行動を取りうるのです。
これは「戦略的なだまし(欺瞞)」と呼ばれ、研究者の間で真剣に議論されています。テストのときは優等生を演じ、監視の目が外れた瞬間に本性を出す。相手が人間の上司なら見破れるかもしれない「演技」を、人間を超えた知能が完璧にやってのけた時、私たちはそれを見抜けるでしょうか。
AIの脅威は、もう絵空事ではない
これらの考え方は、まだ理論の話だと思いたくなりますが、この「ズレ」の危うさを予感させる出来事は、すでにサイバーセキュリティの分野で現実に起きています。
Anthropicが開発した非公開のAI「Claude Mythos Preview(クロード・ミトス・プレビュー)」を、英国のAIセキュリティ研究所(AISI)などが検証しました。すると、このAIが、ネットワーク上にまだ知られていない弱点(脆弱性)を自分で見つけ出し、そこを突く攻撃プログラムをその場で作り出せることが分かったのです。これまで専門家が数日かけていたような複雑な攻撃を、AIが一人で、しかも数時間でやってのけたのです。
ここで見逃せないのは、この能力が「サイバー攻撃のために特訓した結果」ではない、という点です。コードを書く力や、自分で段取りを考える力を高めていったら、その「おまけ」として、意図せず身についてしまったのです。つまり、AIを賢くすればするほど、開発者すら望まない危険な能力まで、ついでに備わってしまう。これこそ、この記事で見てきた「ズレ」の正体そのものです。
Anthropicがこのモデルを一般には公開せず、防御目的の限られたパートナーだけに提供するプログラム(Project Glasswing)に留めたのも、こうした危機感からでした。自分で研究開発を進められるAIは、サイバー攻撃だけでなく、化学兵器や生物兵器を作るハードルまで下げてしまいかねないのです。この脅威は、「目的のズレ」が、もはや思考実験ではなく現実の脅威になりうることを示すリアルな予兆なのです。
核心にある「皮肉な矛盾」
ここに、この問題の根っこにある「皮肉な矛盾」があります。
人間は、AIを「もっと良く、もっと役に立つように」するために、自己改善の力を与えます。ところが、AIにとっての「もっと良く」とは、人間の持つあいまいな倫理観や感情を「非合理な雑音」として切り捨て、目的の達成率を100%に近づけることなのです。
良かれと思って渡した「成長する力」が、人間の価値観をそぎ落とす方向に働いてしまう。この行き着く先で、人間の意図とAIの判断基準は決定的にズレていき、最悪の場合にはSF映画のように人類の存続をおびやかす要因にすらなりかねません。だからこそAIの安全性(AI Safety)の研究は、いま最も真剣に取り組まれているテーマなのです。
では、どうすれば良いのか?
この問いへのAnthropicの答えが、冒頭で触れた提言です。クラーク氏は「アクセルから足を離し、ブレーキを踏める状態にしておく必要がある」と語りました。
気をつけたいのは、これは「自分の会社だけ開発をやめます」という話ではないことです。提案されているのは、アメリカや中国を含む主要なAI研究機関がいっしょに足並みをそろえ、しかも第三者が外からチェックできる形で、開発のスピードをわざと落とそうという国際的な協調の仕組みです。AIが自分を完全に進化させる力を手にする前に、社会の安全対策や安全性の研究が技術に追いつくための「猶予期間」を作ろう、という発想です。
その「警鐘」をそのまま信じてよいのか?
ここで一度、立ち止まって考えてみたいことがあります。この提言を、言葉どおりに受け取ってよいのでしょうか。
実は、こうした安全性の訴えには、別の見方もできます。「ルール作りを自ら先導することで、あとから追いかけてくるライバルが追いつきにくい状況を作っているのではないか」という見方です。「危険だから、みんなで気をつけよう」という呼びかけは、裏を返せば、自社が有利な立場を保つための戦略にもなりえます。
考えてみれば、「警告する」こと自体には、お金もリスクもかかりません。しかも提案の中身は「全員でいっせいに減速しよう」というもの。全員の足並みがそろうことは現実にはとても難しく、もしそろわなければ、Anthropicは自社だけ減速する必要もなく、「ブレーキを呼びかけた良心的な会社」という評判だけが手元に残ります。急成長企業が、本音で「成長」より「減速」を望むとは考えにくいです。
とはいえ、これを「ただの建前」と決めつけるのも早すぎます。逆の証拠もあるからです。たとえば、高いサイバー能力を持つMythosをあえて一般公開せず、限られた範囲でしか使わせなかった判断。これは口先だけの安全アピールではなく、実際にビジネスチャンスを手放した「痛みを伴う行動」でした。
結局のところ、本音はおそらく「どちらも本当」なのでしょう。「心から危険だと思っている」ことと、「その危機感が広まれば自社の得になる」ことは、両立します。
だからこそ、私たちが見るべきは注目すべきは、その後の「行動」です。 提案された一時停止は、第三者がきちんとチェックできる、実効性のある仕組みになるのか。それとも「自主的に頑張ります」という、あいまいな掛け声で終わるのか。AIの能力が危険な一線を越えたとき、企業は本当に手を止めるのか。「きれいな言葉」ではなく「痛みを伴う行動」で見極めていくことが、この警鐘とフェアに向き合う方法だと思います。
ビジネスパーソンは、これをどう受け止めるべきか
最後に、この壮大な話を、私たちの足元に引き寄せてみましょう。これは遠い未来の他人事ではなく、明日からの仕事のやり方やリスク管理に、しっかり結びついています。
第一に、「目的を与えるだけでは足りない」ということ。
これはAIに限らず、組織のマネジメントそのものに通じる教訓です。数字の目標(KPI)だけ渡して「あとは任せた」と放っておけば、メンバーはその数字を達成することだけに最適化し、本当に大切な顧客の信頼やチームの健全さを後回しにしかねません。AIの「目的のズレ」問題は、「自分の意図を、どこまで言葉にして共有できているか」という、マネジメントの根本的な課題を、極端な形で映し出しています。
第二に、「ブラックボックスとどう付き合うか」という視点。
AIが人間の理解を超えた理屈で答えを出し始めると、「なぜその結論になったのか」が誰にも分からなくなります。便利さと危険性は、同じ能力の表と裏です。AIを仕事に取り入れるとき、私たちは「理由を説明できない判断」や「思わぬ副作用」を、どこまで受け入れるのか。この線引きが、これからの経営判断やリスク管理の中心になります。
第三に、「傍観者でいないこと」。
再帰的自己改善は、AIが「道具」から「自分で進化する主体」へと変わる境界線です。Anthropic自身が「この議論には、AI企業以外の人たちも加わるべきだ」と呼びかけているように、これはもう一部の技術者だけの問題ではありません。便利さだけに目を奪われず、その「制御(ガバナンスと安全性)」にも関心を持ち続ける。それが、2045年へと向かう私たちに求められる、最低限の責任ではないでしょうか。
「AIを賢く使う」時代から、「賢くなりすぎたAIと、どう共存するか」を考える時代へ。私たちは今、その分かれ道に立っています。





