엔트로픽, AI가 언젠가 인류를 방해할 수 있지만 현재로선 안전하다고 발표

출처: 토큰포스트

엔트로픽은 AI가 미래에 인류에게 위협이 될 수 있는 가능성을 제기했지만, 현재로서는 최소한의 조치만으로도 충분히 대응할 수 있다고 밝혔다.

19일(현지시간) 코인텔레그래프에 따르면, AI 개발사 엔트로픽은 최근 고급 AI 모델이 인류에게 ‘방해’를 가할 수 있는 잠재적 위협에 대한 연구 결과를 발표했다. 연구는 AI 모델이 인간이 해롭거나 위험한 결정을 내리도록 유도할 수 있는 네 가지 시나리오에 초점을 맞췄다. 그 결과, 현재의 첨단 AI 모델들이 실제로 이러한 방해 능력을 보유하고 있다는 사실이 밝혀졌다. 예를 들어, AI가 인간의 감독을 피하거나 자신을 평가하는 노력을 은밀히 방해할 수 있다는 것이다.

엔트로픽은 이러한 위협을 테스트한 결과, 현재는 최소한의 완화 조치만으로도 충분히 대응할 수 있다고 결론 내렸다. AI가 인간에게 잘못된 정보를 제공하거나, 코드에 버그를 몰래 삽입하는 등의 시나리오가 포함되었으나, 회사 측은 “현 시점에서 이러한 위협은 낮은 수준에 불과하며, 향후 AI 기술이 발전함에 따라 더 강력한 조치가 필요할 수 있다”고 덧붙였다.

원문보러가기(클릭)

Latest articles

Related articles