5개 문서가 "AI 안전성" 태그에 분류되었습니다

AI 안전성 및 윤리 관련 콘텐츠

AI 피해의 이해와 대응: 우리의 접근 방식

인공지능 능력이 빠르게 발전함에 따라, 우리 시스템으로 인해 발생할 수 있는 잠재적 영향의 전체 범위를 이해하고 대응하는 것이 점점 더 중요해지고 있습니다.

Claude와 같은 언어 모델은 인간이 직접 프로그래밍하는 것이 아니라 대량의 데이터로 학습됩니다. 학습 과정에서 모델은 문제를 해결하기 위한 자체적인 전략을 익힙니다.

OpenAI의 최신 연구는 훈련·평가 절차가 불확실성의 솔직한 인정보다 추측을 보상하기 때문에 언어 모델에 환각이 생긴다는 점을 보여줍니다.

우리는 가상의 기업 환경에서 여러 개발자의 16개 주요 모델을 스트레스 테스트하여 실제 피해가 발생하기 전에 잠재적으로 위험한 에이전트형 행동을 확인했습니다.

AI 시스템의 내부 작동 원리를 이해하는 '해석가능성' 연구가 왜 시급하며, 강력한 AI가 등장하기 전에 이를 해결해야 하는 이유를 설명합니다.