1개 문서가 "벤치마크" 태그에 분류되었습니다

성능 벤치마크 및 평가

Claude의 SWE-bench 성능: 최신 모델의 소프트웨어 엔지니어링 능력

우리의 최신 모델인 업그레이드된 Claude 3.5 Sonnet은 소프트웨어 엔지니어링 평가인 SWE-bench Verified에서 49%를 달성하여 이전 최고 성능 모델의 45%를 능가했습니다.