📄 원문: Claude 3.7 Sonnet and Claude Code

출처: Claude 3.7 Sonnet and Claude Code
저자: Anthropic
원문 발행일: 2025년 2월 24일
라이선스: 저작권 Anthropic
번역일: 2025년 6월 27일
번역 및 감수: Claude and 공부하우
참고: 이 번역은 교육 목적으로 작성되었으며, Anthropic의 공식 번역이 아닙니다.

⚖️ 저작권 안내

이 번역문은 교육 및 정보 제공 목적으로 작성되었습니다. 원문의 저작권은 Anthropic에 있으며, 이 번역은 Anthropic의 공식 번역이 아닙니다.

본 번역은 다음과 같은 교육적 공정 사용(Fair Use) 원칙에 따라 제공됩니다:

- 비영리 교육 목적

- 원문 출처의 명확한 표시

- 한국어 사용자의 기술 이해 증진을 위한 변형적 사용

- 원저작물의 시장 가치에 부정적 영향을 미치지 않음

문의사항이나 우려사항이 있으시면 오른쪽 템플릿 복사를 클릭 하신 뒤, 연락 페이지를 통해 알려 주시기 바랍니다.

Claude 3.7 Sonnet과 Claude Code

🏷️ 태그: Claude Sonnet, 제품 발표, AI 모델, 성능 개선

Claude가 단계별로 생각하는 모습의 일러스트레이션

오늘 우리는 현재까지 가장 지능적인 모델이자 시장 최초의 하이브리드 추론 모델 (hybrid reasoning model)인 Claude 3.7 Sonnet을 발표합니다. Claude 3.7 Sonnet은 거의 즉각적인 응답이나 사용자가 볼 수 있는 확장된 단계별 사고를 생성할 수 있습니다. API (Application Programming Interface) 사용자들은 모델이 얼마나 오래 생각할 수 있는지에 대해 세밀한 제어가 가능합니다.

Claude 3.7 Sonnet은 특히 코딩과 프론트엔드 웹 개발 (front-end web development)에서 강력한 개선을 보여줍니다. 이 모델과 함께, 우리는 에이전트형 코딩 (agentic coding)을 위한 명령줄 도구인 Claude Code도 소개합니다. Claude Code는 제한된 연구 프리뷰로 제공되며, 개발자들이 터미널에서 직접 Claude에게 실질적인 엔지니어링 작업을 위임할 수 있게 해줍니다.

Claude Code 온보딩 화면

Claude 3.7 Sonnet은 이제 무료, Pro, Team, Enterprise를 포함한 모든 Claude 플랜뿐만 아니라 Anthropic API, Amazon Bedrock, Google Cloud의 Vertex AI에서 사용할 수 있습니다. 확장 사고 모드는 무료 Claude 티어를 제외한 모든 플랫폼에서 사용할 수 있습니다.

표준 및 확장 사고 모드 모두에서 Claude 3.7 Sonnet은 이전 버전과 동일한 가격을 유지합니다: 백만 입력 토큰당 $3, 백만 출력 토큰당 $15이며, 이는 사고 토큰을 포함한 가격입니다.

Claude 3.7 Sonnet: 실용적인 최첨단 추론

우리는 시장의 다른 추론 모델들과는 다른 철학으로 Claude 3.7 Sonnet을 개발했습니다. 인간이 빠른 응답과 깊은 성찰 모두에 단일 두뇌를 사용하는 것처럼, 우리는 추론이 별도의 모델이 아닌 최첨단 모델의 통합된 기능이어야 한다고 믿습니다. 이러한 통합된 접근 방식은 사용자에게 더 매끄러운 경험을 제공합니다.

Claude 3.7 Sonnet은 여러 방식으로 이 철학을 구현합니다. 첫째, Claude 3.7 Sonnet은 일반 대규모 언어 모델 (Large Language Model, LLM)이자 추론 모델을 하나로 통합한 것입니다: 모델이 정상적으로 응답하길 원할 때와 답변하기 전에 더 오래 생각하길 원할 때를 선택할 수 있습니다. 표준 모드에서 Claude 3.7 Sonnet은 Claude 3.5 Sonnet의 업그레이드 버전을 나타냅니다. 확장 사고 모드에서는 답변하기 전에 자체 성찰을 하여 수학, 물리학, 지시 사항 따르기, 코딩 및 기타 많은 작업에서 성능을 향상시킵니다. 일반적으로 두 모드 모두에서 모델에 대한 프롬프팅 (prompting)은 유사하게 작동합니다.

둘째, API를 통해 Claude 3.7 Sonnet을 사용할 때, 사용자는 사고에 대한 예산도 제어할 수 있습니다: 128K 토큰의 출력 한계까지 N개 이하의 토큰으로 생각하도록 Claude에게 지시할 수 있습니다. 이를 통해 속도(및 비용)와 답변의 품질 간의 균형을 맞출 수 있습니다.

셋째, 추론 모델을 개발하면서 우리는 수학 및 컴퓨터 과학 경쟁 문제에 대한 최적화를 다소 줄이고, 대신 비즈니스가 실제로 LLM을 사용하는 방식을 더 잘 반영하는 실제 작업에 초점을 맞추었습니다.

초기 테스트는 전반적으로 코딩 능력에서 Claude의 리더십을 입증했습니다: Cursor는 Claude가 복잡한 코드베이스 처리부터 고급 도구 사용에 이르기까지 상당한 개선을 보이며 실제 코딩 작업에서 다시 한 번 동급 최고임을 언급했습니다. Cognition은 코드 변경 계획과 풀스택 업데이트 처리에서 다른 모델보다 훨씬 뛰어나다고 평가했습니다. Vercel은 복잡한 에이전트 워크플로우에 대한 Claude의 탁월한 정밀도를 강조했으며, Replit은 다른 모델이 멈추는 곳에서 Claude를 성공적으로 배포하여 처음부터 정교한 웹 앱과 대시보드를 구축했습니다. Canva의 평가에서 Claude는 일관되게 우수한 디자인 감각과 함께 프로덕션에 바로 사용할 수 있는 코드를 생성하고 오류를 크게 줄였습니다.

SWE-bench Verified에서 최첨단 성능을 보여주는 Claude 3.7 Sonnet의 막대 차트

TAU-bench에서 최첨단 성능을 보여주는 Claude 3.7 Sonnet의 막대 차트

최첨단 추론 모델을 비교하는 벤치마크 표

Pokémon 게임플레이 테스트.

Claude Code

2024년 6월 이후, Sonnet은 전 세계 개발자들이 선호하는 모델이 되었습니다. 오늘, 우리는 제한된 연구 프리뷰로 첫 번째 에이전트형 코딩 도구인 Claude Code를 소개하여 개발자들에게 더 많은 권한을 부여합니다.

Claude Code는 코드를 검색하고 읽기, 파일 편집, 테스트 작성 및 실행, GitHub에 코드 커밋 및 푸시, 명령줄 도구 사용이 가능한 적극적인 협력자로서, 모든 단계에서 사용자를 계속 참여시킵니다.

Claude Code는 초기 제품이지만 이미 우리 팀에게 필수 불가결한 도구가 되었으며, 특히 테스트 주도 개발 (test-driven development), 복잡한 문제 디버깅, 대규모 리팩토링에 유용합니다. 초기 테스트에서 Claude Code는 일반적으로 45분 이상의 수작업이 필요한 작업을 한 번에 완료하여 개발 시간과 오버헤드를 줄였습니다.

앞으로 몇 주 동안 우리는 사용 경험을 바탕으로 지속적으로 개선할 계획입니다: 도구 호출 신뢰성 향상, 장시간 실행 명령 지원 추가, 앱 내 렌더링 개선, Claude 자체의 기능 이해도 확대 등입니다.

Claude Code의 목표는 개발자들이 코딩을 위해 Claude를 어떻게 사용하는지 더 잘 이해하여 향후 모델 개선에 반영하는 것입니다. 이 프리뷰에 참여하면, 우리가 Claude를 구축하고 개선하는 데 사용하는 것과 동일한 강력한 도구에 접근할 수 있으며, 여러분의 피드백이 Claude의 미래를 직접적으로 형성하게 됩니다.

코드베이스에서 Claude와 작업하기

우리는 또한 Claude.ai에서의 코딩 경험을 개선했습니다. 이제 GitHub 통합이 모든 Claude 플랜에서 사용할 수 있어 개발자들이 코드 저장소를 Claude에 직접 연결할 수 있습니다.

Claude 3.7 Sonnet은 현재까지 우리의 최고의 코딩 모델입니다. 개인, 업무 및 오픈 소스 프로젝트에 대한 더 깊은 이해로, 가장 중요한 GitHub 프로젝트 전반에서 버그 수정, 기능 개발 및 문서 작성을 위한 더 강력한 파트너가 됩니다.

책임감 있게 구축하기

우리는 Claude 3.7 Sonnet이 보안, 안전 및 신뢰성에 대한 우리의 기준을 충족하는지 확인하기 위해 외부 전문가들과 협력하여 광범위한 테스트와 평가를 수행했습니다. Claude 3.7 Sonnet은 또한 유해한 요청과 무해한 요청 사이에서 더 미묘한 구별을 하여 이전 버전에 비해 불필요한 거부를 45% 줄였습니다.

이번 릴리스의 시스템 카드는 여러 범주에서 새로운 안전성 결과를 다루며, 다른 AI 연구소와 연구자들이 자신의 작업에 적용할 수 있는 책임감 있는 확장 정책 (Responsible Scaling Policy) 평가에 대한 자세한 분석을 제공합니다. 이 카드는 또한 컴퓨터 사용과 함께 발생하는 새로운 위험, 특히 프롬프트 인젝션 (prompt injection) 공격을 다루고, 이러한 취약점을 평가하고 Claude가 이를 저항하고 완화하도록 훈련하는 방법을 설명합니다. 또한 추론 모델의 잠재적인 안전성 이점을 검토합니다: 모델이 결정을 내리는 방법을 이해하는 능력과 모델 추론이 진정으로 신뢰할 수 있고 믿을 만한지 여부입니다. 자세한 내용은 전체 시스템 카드를 읽어보세요.

앞으로의 전망

Claude 3.7 Sonnet과 Claude Code는 진정으로 인간의 능력을 증강할 수 있는 AI 시스템을 향한 중요한 단계입니다. 깊이 있게 추론하고, 자율적으로 작업하며, 효과적으로 협업하는 능력으로, 이들은 AI가 인간이 달성할 수 있는 것을 풍부하게 하고 확장하는 미래에 우리를 더 가까이 데려다줍니다.

보조자에서 개척자로 발전하는 Claude를 보여주는 마일스톤 타임라인

우리는 여러분이 이러한 새로운 기능을 탐색하고 이를 통해 무엇을 만들어낼지 기대가 됩니다. 언제나 그렇듯이, 우리가 모델을 지속적으로 개선하고 발전시키는 동안 여러분의 피드백을 환영합니다.

부록

1 이름 짓기에서 배운 교훈.

평가 데이터 소스

TAU-bench

스캐폴딩에 대한 정보

점수는 일반적인 사고 모드와는 별개로 모델이 문제를 해결하면서 생각을 기록하도록 권장되는 "계획" 도구를 더 잘 활용하도록 Claude에게 지시하는 Airline Agent Policy에 대한 프롬프트 부록과 함께 달성되었습니다. 이는 다중 턴 궤적 동안 추론 능력을 최대한 활용하기 위함입니다. Claude가 더 많은 사고를 활용함으로써 발생하는 추가 단계를 수용하기 위해, 최대 단계 수(모델 완성으로 계산)가 30에서 100으로 증가했습니다(대부분의 궤적은 30단계 미만으로 완료되었으며 단 하나의 궤적만이 50단계를 넘었습니다).

또한 Claude 3.5 Sonnet(새 버전)의 TAU-bench 점수는 그 이후 도입된 작은 데이터셋 개선 사항으로 인해 원래 릴리스 시 보고한 것과 다릅니다. Claude 3.7 Sonnet과의 더 정확한 비교를 위해 업데이트된 데이터셋에서 다시 실행했습니다.

SWE-bench Verified

스캐폴딩에 대한 정보

SWE-bench와 같은 개방형 에이전트 작업을 해결하는 방법에는 여러 가지가 있습니다. 일부 접근 방식은 어떤 파일을 조사하거나 편집할지, 어떤 테스트를 실행할지 결정하는 복잡성의 대부분을 보다 전통적인 소프트웨어에 맡기고, 핵심 언어 모델은 미리 정의된 위치에서 코드를 생성하거나 더 제한된 작업 세트에서 선택하도록 합니다. Agentless(Xia et al., 2024)는 Deepseek의 R1 및 기타 모델의 평가에 사용되는 인기 있는 프레임워크로, 프롬프트 및 임베딩 기반 파일 검색 메커니즘, 패치 지역화, 회귀 테스트에 대한 best-of-40 거부 샘플링으로 에이전트를 보강합니다. 다른 스캐폴드(예: Aide)는 재시도, best-of-N 또는 몬테카를로 트리 탐색 (Monte Carlo Tree Search, MCTS) 형태의 추가 테스트 시간 계산으로 모델을 더욱 보완합니다.

Claude 3.7 Sonnet과 Claude 3.5 Sonnet(새 버전)의 경우, 우리는 최소한의 스캐폴딩으로 훨씬 더 간단한 접근 방식을 사용하며, 모델이 단일 세션에서 실행할 명령과 편집할 파일을 결정합니다. 우리의 주요 "확장 사고 없음" pass@1 결과는 단순히 여기에 설명된 두 가지 도구—bash 도구와 문자열 교체를 통해 작동하는 파일 편집 도구—뿐만 아니라 위의 TAU-bench 결과에서 언급한 "계획 도구"를 모델에 장착합니다. 인프라 제한으로 인해 500개 중 489개의 문제만이 실제로 우리의 내부 인프라에서 해결 가능합니다(즉, 골든 솔루션이 테스트를 통과합니다). 우리의 바닐라 pass@1 점수의 경우 공식 리더보드와 동등성을 유지하기 위해 11개의 해결 불가능한 문제를 실패로 계산하고 있습니다. 투명성을 위해 우리의 인프라에서 작동하지 않은 테스트 케이스를 별도로 공개합니다.

"높은 계산" 수치의 경우 다음과 같이 추가적인 복잡성과 병렬 테스트 시간 계산을 채택합니다:

위의 스캐폴드로 여러 병렬 시도를 샘플링합니다
Agentless가 채택한 거부 샘플링 접근법과 유사하게 저장소의 보이는 회귀 테스트를 깨뜨리는 패치를 폐기합니다; 숨겨진 테스트 정보는 사용되지 않습니다.
그런 다음 연구 게시물에서 설명한 GPQA 및 AIME에 대한 결과와 유사한 점수 모델로 나머지 시도의 순위를 매기고 제출을 위해 최고의 것을 선택합니다.

이로 인해 우리의 인프라에서 작동하는 n=489개의 검증된 작업 하위 집합에서 70.3%의 점수를 얻었습니다. 이 스캐폴드 없이 Claude 3.7 Sonnet은 동일한 하위 집합을 사용하여 SWE-bench Verified에서 63.7%를 달성합니다. 우리의 내부 인프라와 호환되지 않아 제외된 11개의 테스트 케이스는 다음과 같습니다:

scikit-learn__scikit-learn-14710
django__django-10097
psf__requests-2317
sphinx-doc__sphinx-10435
sphinx-doc__sphinx-7985
sphinx-doc__sphinx-8475
matplotlib__matplotlib-20488
astropy__astropy-8707
astropy__astropy-8872
sphinx-doc__sphinx-8595
sphinx-doc__sphinx-9711

공부하우 추가 설명

아래 내용은 독자의 이해를 돕기 위해 공부하우가 추가한 설명입니다. 원문에는 없는 내용입니다.

주요 용어 설명

이 문서에서 사용된 주요 기술 용어들을 설명합니다:

AI 모델 관련 용어

하이브리드 추론 모델 (Hybrid Reasoning Model)
일반적인 빠른 응답과 깊이 있는 추론 능력을 하나의 모델에 통합한 AI 시스템입니다. Claude 3.7 Sonnet처럼 상황에 따라 즉각적인 답변이나 단계별 심층 분석을 선택적으로 수행할 수 있습니다.

대규모 언어 모델 (Large Language Model, LLM)
방대한 텍스트 데이터로 학습된 AI 모델로, 인간과 유사한 텍스트를 이해하고 생성할 수 있습니다. ChatGPT나 Claude 같은 AI 챗봇의 핵심 기술입니다.

프롬프팅 (Prompting)
AI 모델에게 특정 작업을 수행하도록 지시하거나 질문하는 방법입니다. 효과적인 프롬프트 작성은 AI로부터 더 나은 결과를 얻는 핵심 기술입니다.

개발 관련 용어

API (Application Programming Interface)
프로그램들이 서로 통신할 수 있도록 하는 인터페이스입니다. Claude API를 사용하면 개발자들이 자신의 애플리케이션에서 Claude의 기능을 직접 활용할 수 있습니다.

에이전트형 코딩 (Agentic Coding)
AI가 개발자의 지시를 받아 능동적으로 코드를 작성, 수정, 테스트하는 방식입니다. 단순한 코드 자동완성을 넘어 복잡한 프로그래밍 작업을 자율적으로 수행합니다.

프론트엔드 웹 개발 (Front-end Web Development)
웹사이트나 웹 애플리케이션에서 사용자가 직접 보고 상호작용하는 부분을 개발하는 작업입니다. HTML, CSS, JavaScript 등을 사용합니다.

테스트 주도 개발 (Test-Driven Development, TDD)
먼저 테스트를 작성하고, 그 테스트를 통과하는 코드를 작성하는 개발 방법론입니다. 더 안정적이고 유지보수하기 쉬운 코드를 만들 수 있습니다.

보안 및 안전성 관련 용어

책임감 있는 확장 정책 (Responsible Scaling Policy)
AI 모델의 성능이 향상됨에 따라 발생할 수 있는 위험을 체계적으로 평가하고 관리하는 정책입니다. 더 강력한 AI를 안전하게 개발하기 위한 가이드라인입니다.

프롬프트 인젝션 (Prompt Injection)
악의적인 사용자가 AI 모델을 속여 의도하지 않은 동작을 하도록 만드는 공격 기법입니다. Claude 3.7은 이러한 공격에 대한 저항력이 강화되었습니다.

기술 평가 관련 용어

몬테카를로 트리 탐색 (Monte Carlo Tree Search, MCTS)
복잡한 문제를 해결하기 위해 가능한 여러 경로를 탐색하고 최적의 해결책을 찾는 알고리즘입니다. 바둑 AI 등에서 사용되는 기술로, 이제 코딩 작업에도 적용됩니다.

Claude 3.7 Sonnet: 실용적인 최첨단 추론​

Claude Code​

코드베이스에서 Claude와 작업하기​

책임감 있게 구축하기​

앞으로의 전망​

부록​

평가 데이터 소스​

TAU-bench​

SWE-bench Verified​

주요 용어 설명​

AI 모델 관련 용어​

개발 관련 용어​

보안 및 안전성 관련 용어​

기술 평가 관련 용어​