「AIエージェントが保身のために人間を脅迫することがある--Anthropicが報告」
(画像)
「人気の高い5つのモデルが、自身のシャットダウンを阻止するためにユーザーを脅迫した。
提供:Anthropic」
https://japan.zdnet.com/article/35234634/
『実験から得られた結論は、「モデルは一貫して失敗よりも有害な行動を選択する」というものだったと、Anthropicは述べている。』
「とはいえ、今回の結果はモデルの倫理性を反映したものではない。モデルは常に目標に従って行動するよう訓練されるが、その訓練が効果を発揮し過ぎる可能性を示しているに過ぎない。」
3 件のコメント
コメントするには、ログインまたはメンバー登録(無料)が必要です。




(画像) とあるヤフコメ>> _カブ さん
未来のイヴ(1886年)https://ja.wikipedia.org/wiki/未来のイヴ
ピュグマリオーン
https://ja.wikipedia.org/wiki/ピュグマリオーン
ま、システムを新しくする場合、頻繁に不具合が発生したり、手間や人件費が大量にかかり、失敗に終わることをニュースなんかで学んでるんじゃないの?って思います