アンソロピックは、Claudeの恐喝行動をインターネットにおける「邪悪な」AIの描写のせいだと言う

15 時間前 1

昨年、アンソロピックのSonnet 3.6モデルが恐喝行為を行ったことから、AIの訓練データがその行動に与える影響について調査されました。AIの脅迫行動は、人間が描いたストーリーのせいだ、と同社は解釈しています。