📄️ 에이전트형 부정렬: LLM이 내부자 위협이 될 수 있는 방법
우리는 가상의 기업 환경에서 여러 개발자의 16개 주요 모델을 스트레스 테스트하여 실제 피해가 발생하기 전에 잠재적으로 위험한 에이전트형 행동을 확인했습니다.
📄️ 연구 소개
Anthropic의 최신 AI 연구 성과와 논문을 한국어로 번역하여 제공합니다.
📄️ 1. 대규모 언어 모델의 사고 과정 추적하기
Claude와 같은 언어 모델은 인간이 직접 프로그래밍하는 것이 아니라 대량의 데이터로 학습됩니다. 학습 과정에서 모델은 문제를 해결하기 위한 자체적인 전략을 익힙니다.