Claude의 SWE-bench 성능: 최신 모델의 소프트웨어 엔지니어링 능력
우리의 최신 모델인 업그레이드된 Claude 3.5 Sonnet은 소프트웨어 엔지니어링 평가인 SWE-bench Verified에서 49%를 달성하여 이전 최고 성능 모델의 45%를 능가했습니다.
성능 벤치마크 및 평가
모든 태그 보기우리의 최신 모델인 업그레이드된 Claude 3.5 Sonnet은 소프트웨어 엔지니어링 평가인 SWE-bench Verified에서 49%를 달성하여 이전 최고 성능 모델의 45%를 능가했습니다.