世界

人工良心の危険と約束

私たち人間は、私たちの技術目標を達成することの結果を予測することで悪名高い。安全のために車にシートベルトを追加し、スピード違反や事故が発生する可能性があります。炭化水素を燃やして安価なエネルギーを手に入れ、地球を温めてください。専門家に手術ロボットや予測ポリシングアルゴリズムなどの新しいテクノロジーを提供して、生産性を向上させ、見習いの学習をブロックします。それでも、私たちが構築しているインテリジェントテクノロジーと比較して、意図しない結果を予測するのは驚くべきことです。

WIRED OPINION

ABOUT

Matt Beane(@mattbeane)は、UCサンタバーバラの技術管理の助教授であり、MITのデジタルエコノミー研究所の研究関連会社です。

強化学習、特に最近の驚くべきデモンストレーションのいくつかの背後にあるAIの特に強力なフレーバー。 RLシステムは、報酬状態(別名、目標、「ポイント」を取得する結果)を受け取り、アクションの意図しない結果に関係なくそれらを追跡します。 DeepMindのAlphaGoは、ボードゲームGoで勝つために設計されました。 OpenAIのシステムは、Defense of the Ancients(DOTA)、非常に複雑な、マルチプレイヤーのオンライン戦争ゲーム。両方とも、人類が提供しなければならない最高のものを打ち負かすために必要な、型にはまらない、場合によっては急進的な新しい戦術を思い付きましたが、不均衡に大量のエネルギーと自然を消費しましたそうするためのリソース。この種のひたむきさは、可能な限り多くのクリップを作成するように設計されたAIを含む、あらゆる種類の楽しいSFに影響を与えました仕事を終わらせるために、地球を破壊し、次に宇宙全体を破壊します。

一見無害に見えますが、このwin-at-any-costアプローチは受け入れられません。 AIのより実用的な使用。そうしないと、停電、フラッシュトレーディング市場の障害、または(さらに)過分極した孤立したオンラインコミュニティに圧倒される可能性があります。明らかに、これらの脅威は、AIが以前のベストプラクティスに驚くほどの改善をもたらしているためにのみ可能です:送電網ははるかに効率的で信頼性が高くなり、マイクロ秒周波数の取引により世界市場の効率が大幅に向上し、ソーシャルメディアプラットフォームは有益な接続を提案します商品、サービス、情報、その他の方法では隠されたままの人々に。しかし、これらのプロセスや類似のプロセスを、目標に単独で焦点を当てたAIに引き渡すほど、光の速度で、好ましくない結果を生み出すことがあります。

AIコミュニティ内の一部はすでにこれらの懸念に取り組んでいます。 DeepMindの創設者の1人はAIのパートナーシップを共同設立しました。これは、一部の人類のソリューションに貢献するためにAIを活用する「注意と努力を指示することを目指しています12月4日に、PAIは、シンプルなゲームでの最適化アクティビティの意図しない副作用を回避できる概念実証強化学習モデルであるSafeLifeのリリースを発表しました。 SafeLifeには、これらの結果を明らかにする明確な方法があります。ゲームシステムのエントロピー(または乱れやランダム性の度合い)の増加です。定義上、これは実用的なシステムではありませんが、副次的被害を最小限に抑えながら、強化学習駆動システムが目標に向けて最適化できる方法を示しています。

これは非常にエキサイティングな作業です。原則として、AIやロボットなどのインテリジェントテクノロジーのあらゆる種類の意図しない効果を支援できます。たとえば、工場のロボットは、アカオノスリが飛ぶ場合に速度を落とす必要があることを知ることができます。 (私はこれが起こるのを見ました。それらの建物はハトと、十分に大きいならば、猛禽類を収容しています)。 SafeLifeのようなモデルは、プログラムされた設定をオーバーライドしてスループットを最大化できます。これは、生物を破壊すると世界に多くのエントロピーが追加されるためです。しかし、理論上役立つと期待されるもののいくつかは、彼らが解決しようとしているまさにその問題に貢献することになります。はい、それは次世代AIシステムの意図しない結果モジュールが強力な意図しない結果を作成するまさにその物である可能性があることを意味します。近くの人間がそれを動かし続けることを期待している間にそのロボットがその鷹のために減速するとどうなりますか?安全性と生産性が脅かされる可能性があります。

これらの結果がかなりの量のスペースと時間に及ぶ場合、これは特に問題となります。 DOTAアルゴリズムを使用します。試合中、勝率が計算されると90パーセント、チャット経由で他のプレイヤーを挑発するようにプログラムされています。 「勝率92パーセント、」あなたはあなたの苦労して得た力とコンピュータプログラムによって間引かれた不正な戦略を見ながら読むかもしれません。プレイヤーのゲームへのアプローチにどのような影響がありますか?さらに、ゲームへのコミットメントはどうですか?ゲーム全般に?彼らのキャリアの願望?社会への貢献?これが肘掛け椅子の憶測のように思える場合は、Lee Sedol—世界最高のプロ囲playerプレーヤー、献身的なワンダーカインドゲームをマスターするまでの彼の人生は、誰もがシステムを打ち負かすことができないと言って、ゲームを公に永久にやめただけです。セドルの引退がゲームにとっても、彼にとっても、社会にとっても良いか悪いかは明らかではありませんが、それはAIベースのシステムがその報酬機能を最適化する行動の象徴的で重要な意図しない結果です。

これはゲームをはるかに超えています。ソーシャルメディアの基礎となるAIが、サイトのクリックスルーや時間などを最適化することは既にわかっています。これらの種類の結果とこれらのアルゴリズムのアクションとの因果関係は、感知、測定、説明するのが非常に難しいため、AIデザイナーがSafeLifeにインスパイアされたシステムにそれらを組み込むことを想像するのは困難です。

もちろんここで進歩を遂げますが、他のデジタル技術と同様に、その進歩のペースと範囲は私たちを驚かせるでしょう。しかし、ここにも重大なリスクがあります。エントロピーを意識したAIを進歩させて、多くの人が意図しないAIの結果をcovered、そして、はるかに複雑で、より長いタイムスケールで再生される他の意図しない効果の可能性に注意を払いません。これは、シートベルトのように不活性で観察しやすいもので発生しているため、AIのような分散ITでのより荒い走行が予想されます。複雑な社会システムのダイナミクスに精通している人や、これらのシステムで利用できる入力データの範囲を拡大することで十分な注意を払ってこれを防ぐことができますが、繰り返しますが、これらはまさにその発生を保証するものです。ここでは歴史が究極の調停者になり、より安全なAI、自己複製のクリップ、またはおそらくは両方のビットで満たされた世界を見るために生きることができます。


WIRED OPINION幅広い視点を代表する外部寄稿者による記事を公開しています。その他の意見はこちらをご覧ください。 opopinion@wired.comで意見を提出してください


もっと素晴らしいWIREDストーリー

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

Close