📄 원문: Tracing the thoughts of a large language model

출처: Tracing the thoughts of a large language model
저자: Anthropic
원문 발행일: 2025년 3월 27일
라이선스: 저작권 Anthropic
번역일: 2025년 5월 30일
번역 및 감수: Claude and 공부하우
참고: 이 번역은 교육 목적으로 작성되었으며, Anthropic의 공식 번역이 아닙니다.

⚖️ 저작권 안내

이 번역문은 교육 및 정보 제공 목적으로 작성되었습니다. 원문의 저작권은 Anthropic에 있으며, 이 번역은 Anthropic의 공식 번역이 아닙니다.

본 번역은 다음과 같은 교육적 공정 사용(Fair Use) 원칙에 따라 제공됩니다:

- 비영리 교육 목적

- 원문 출처의 명확한 표시

- 한국어 사용자의 기술 이해 증진을 위한 변형적 사용

- 원저작물의 시장 가치에 부정적 영향을 미치지 않음

문의사항이나 우려사항이 있으시면 오른쪽 템플릿 복사를 클릭 하신 뒤, 연락 페이지를 통해 알려 주시기 바랍니다.

대규모 언어 모델의 사고 과정 추적하기

🏷️ 태그: 연구 논문, 해석 가능성, LLM, AI 안전성

Claude와 같은 언어 모델은 인간이 직접 프로그래밍하는 것이 아니라 대량의 데이터로 학습됩니다. 학습 과정에서 모델은 문제를 해결하기 위한 자체적인 전략을 익힙니다. 이러한 전략은 모델이 각 단어를 작성할 때 수행하는 수십억 개의 계산에 인코딩되어 있습니다. 모델 개발자인 우리에게는 이러한 과정이 불가해하게 다가옵니다. 즉, 우리는 모델이 대부분의 작업을 어떻게 수행하는지 이해하지 못합니다.

Claude 같은 모델이 어떻게 '사고'하는지 안다면, 모델의 능력을 더 잘 이해할 수 있을 뿐만 아니라 모델이 우리가 의도한 대로 작동하는지 확인하는 데 도움이 될 것입니다. 예를 들어:

Claude는 수십 개의 언어를 구사합니다. "머릿속"에서는 어떤 언어를 사용하고 있을까요?
Claude는 한 번에 한 단어씩 텍스트를 작성합니다. 다음 단어를 예측하는 데만 집중할까요, 아니면 미리 계획을 세울까요?
Claude는 자신의 추론 과정을 단계별로 설명할 수 있습니다. 이 설명이 실제로 답에 도달하기 위해 거친 단계를 나타낼까요, 아니면 때때로 미리 정해진 결론에 그럴듯한 논거를 만들어낼까요?

우리는 오랫동안 사고하는 유기체의 복잡한 내부를 연구해온 신경과학 (neuroscience) 분야에서 영감을 받아, 활동 패턴과 정보 흐름을 식별할 수 있는 일종의 AI 현미경을 만들려고 합니다. AI 모델과 대화만으로는 알 수 있는 것에 한계가 있습니다. 결국 인간(심지어 신경과학자들도)조차 우리 뇌가 어떻게 작동하는지 모든 세부 사항을 알지 못합니다. 그래서 우리는 내부를 들여다봅니다.

오늘 우리는 "현미경" 개발의 진전과 이를 통해 새로운 "AI 생물학"을 관찰한 내용을 담은 두 편의 논문을 공유합니다. 첫 번째 논문에서는 모델 내부에서 해석 가능한 개념("특징")을 찾는 이전 연구를 확장하여 이러한 개념들을 계산 "회로"로 연결하고, Claude에 입력된 단어가 출력 단어로 변환되는 경로의 일부를 밝혀냅니다. 두 번째 논문에서는 Claude 3.5 Haiku 내부를 들여다보며, 위에서 설명한 세 가지를 포함한 열 가지 중요한 모델 동작을 대표하는 간단한 작업들을 심층적으로 연구합니다. 우리의 방법은 Claude가 이러한 프롬프트에 응답할 때 일어나는 일의 일부를 밝혀내며, 다음과 같은 확실한 증거를 제시합니다:

Claude는 때때로 언어 간에 공유되는 개념적 공간에서 사고하며, 이는 일종의 보편적인 "사고의 언어"를 가지고 있음을 시사합니다. 우리는 간단한 문장을 여러 언어로 번역하고 Claude가 이를 처리하는 방식의 중첩을 추적하여 이를 보여줍니다.
Claude는 여러 단어 앞을 계획하고, 그 목적지에 도달하기 위해 글을 씁니다. 우리는 시 영역에서 이를 보여주는데, 모델이 가능한 운율 단어를 미리 생각하고 그곳에 도달하기 위해 다음 줄을 작성합니다. 이는 모델이 한 번에 한 단어씩 출력하도록 훈련되었지만, 그렇게 하기 위해 훨씬 더 긴 시야에서 사고할 수 있다는 강력한 증거입니다.
Claude는 때때로 논리적 단계를 따르기보다는 사용자에게 동의하도록 설계된 그럴듯한 주장을 제시합니다. 우리는 어려운 수학 문제에 대해 도움을 요청하면서 잘못된 힌트를 제공하여 이를 보여줍니다. 우리는 모델이 가짜 추론을 만들어내는 "현장"을 포착할 수 있었으며, 이는 우리의 도구가 모델의 우려되는 메커니즘을 표시하는 데 유용할 수 있다는 개념 증명을 제공합니다.

우리는 모델에서 본 것에 종종 놀랐습니다: 시 사례 연구에서 우리는 모델이 미리 계획하지 않는다는 것을 보여주려 했지만, 대신 계획한다는 것을 발견했습니다. 환각 (hallucinations) 연구에서 우리는 직관에 반하는 결과를 발견했는데, Claude의 기본 동작은 질문을 받았을 때 추측을 거부하는 것이며, 이 기본적인 주저함을 억제하는 무언가가 있을 때만 질문에 답한다는 것입니다. 예시 탈옥 (jailbreak)에 대한 응답에서, 우리는 모델이 대화를 우아하게 되돌릴 수 있기 훨씬 전에 위험한 정보를 요청받았음을 인식했다는 것을 발견했습니다. 우리가 연구하는 문제들은 다른 방법으로도 (자주 분석 되어 왔지만), 일반적인 "현미경 만들기" 접근법을 통해 우리가 처음에 추측하지 못했던 많은 것들을 배울 수 있으며, 이는 모델이 더욱 정교해짐에 따라 점점 더 중요해질 것입니다.

이러한 발견은 단순히 과학적으로 흥미로운 것이 아니라 AI 시스템을 이해하고 신뢰할 수 있도록 만드는 우리의 목표를 향한 중요한 진전을 나타냅니다. 우리는 또한 이것이 다른 그룹에게도 유용하고, 잠재적으로 다른 분야에서도 유용하기를 바랍니다. 예를 들어, 해석가능성 기술은 의료 영상과 유전체학 같은 분야에서 활용되고 있으며, 과학적 응용을 위해 훈련된 모델의 내부 메커니즘을 분석하면 과학에 대한 새로운 통찰을 얻을 수 있습니다.

동시에 우리는 현재 접근법의 한계를 인식하고 있습니다. 짧고 간단한 프롬프트에서도 우리의 방법은 Claude가 수행하는 전체 계산의 일부만을 포착하며, 우리가 보는 메커니즘은 기본 모델에서 일어나는 일을 반영하지 않는 도구 기반의 일부 아티팩트를 가질 수 있습니다. 현재는 단 수십 개의 단어로 된 프롬프트에서도 우리가 보는 회로를 이해하는 데 몇 시간의 인간 노력이 필요합니다. 현대 모델이 사용하는 복잡한 사고 체인을 지원하는 수천 개의 단어로 확장하려면, 방법과 (아마도 AI의 도움으로) 우리가 보는 것을 이해하는 방식 모두를 개선해야 할 것입니다.

AI 시스템이 빠르게 더 유능해지고 점점 더 중요한 상황에 배치됨에 따라, Anthropic은 실시간 모니터링, 모델 특성 개선, 정렬의 과학을 포함한 접근법 포트폴리오에 투자하고 있습니다. 이와 같은 해석가능성 연구는 가장 고위험, 고수익 투자 중 하나로, AI가 투명하도록 보장하는 고유한 도구를 제공할 잠재력을 가진 중요한 과학적 도전입니다. 모델 메커니즘의 투명성은 모델이 인간의 가치와 일치하는지, 그리고 우리의 신뢰를 받을 자격이 있는지 확인할 수 있게 해줍니다.

자세한 내용은 논문들을 참조하세요. 아래에서는 우리의 조사에서 가장 인상적인 "AI 생물학" 발견들을 짧게 둘러보도록 초대합니다.

AI 생물학 둘러보기

Claude는 어떻게 다국어를 구사할까요?

Claude는 영어와 프랑스어부터 중국어와 타갈로그어까지 수십 개의 언어를 유창하게 구사합니다. 이 다국어 능력은 어떻게 작동할까요? 별도의 "프랑스어 Claude"와 "중국어 Claude"가 병렬로 실행되어 각자의 언어로 요청에 응답할까요? 아니면 내부에 언어 간 공통 핵심이 있을까요?

영어, 프랑스어, 중국어에 걸쳐 공유된 특징이 존재하며, 이는 어느 정도의 개념적 보편성을 나타냅니다.

더 작은 모델에 대한 최근 연구에서는 언어 간 공유된 문법적 메커니즘의 힌트가 나타났습니다. 우리는 Claude에게 다른 언어로 "small의 반대"를 물어봄으로써 이를 조사했고, 작음과 반대의 개념에 대한 동일한 핵심 특징이 활성화되고 큼의 개념을 촉발하여 질문의 언어로 번역되는 것을 발견했습니다. 우리는 공유 회로가 모델 규모에 따라 증가한다는 것을 발견했으며, Claude 3.5 Haiku는 더 작은 모델에 비해 언어 간 특징의 두 배 이상을 공유합니다.

이는 일종의 개념적 보편성에 대한 추가적인 증거를 제공합니다. 즉, 의미가 존재하고 특정 언어로 번역되기 전에 사고가 일어날 수 있는 공유된 추상 공간입니다. 더 실용적으로는 Claude가 한 언어에서 무언가를 배우고 다른 언어를 사용할 때 그 지식을 적용할 수 있음을 시사합니다. 모델이 컨텍스트 간에 알고 있는 것을 어떻게 공유하는지 연구하는 것은 여러 영역에서 일반화되는 가장 고급 추론 능력을 이해하는 데 중요합니다.

Claude는 운율을 계획할까요?

Claude는 어떻게 운율이 맞는 시를 쓸까요? 다음 시를 생각해 보세요:

He saw a carrot and had to grab it, (그는 당근을 보고 잡아야 했네,)

His hunger was like a starving rabbit (그의 배고픔은 굶주린 토끼 같았네)

두 번째 줄을 쓰기 위해 모델은 동시에 두 가지 제약을 만족시켜야 했습니다: 운율의 필요성("grab it"과 운율)과 의미의 필요성(왜 당근을 잡았는가?). 우리의 추측은 Claude가 줄 끝까지 별다른 예상 없이 단어별로 작성하다가, 마지막에 운율이 맞는 단어를 선택할 것이라는 것이었습니다. 따라서 우리는 병렬 경로가 있는 회로를 볼 것으로 예상했습니다. 하나는 마지막 단어가 의미가 통하도록 하는 것이고, 다른 하나는 운율이 맞도록 하는 것입니다.

대신 우리는 Claude가 미리 계획한다는 것을 발견했습니다. 두 번째 줄을 시작하기 전에 "grab it"과 운율이 맞는 주제에 맞는 잠재적 단어를 "생각"하기 시작했습니다. 그런 다음 이러한 계획을 염두에 두고 계획된 단어로 끝나는 줄을 작성합니다.

Claude가 두 줄 시를 완성하는 방법. 개입 없이(상단 섹션), 모델은 두 번째 줄 끝의 운율 "rabbit"을 미리 계획합니다. "rabbit" 개념을 억제하면(중간 섹션), 모델은 대신 다른 계획된 운율을 사용합니다. "green" 개념을 주입하면(하단 섹션), 모델은 이 완전히 다른 결말에 대한 계획을 세웁니다.

이 계획 메커니즘이 실제로 어떻게 작동하는지 이해하기 위해, 우리는 신경과학자들이 뇌 기능을 연구하는 방법에서 영감을 받은 실험을 수행했습니다. 뇌의 특정 부분에서 신경 활동을 정확히 찾아내고 변경하는 것입니다(예: 전류나 자기 전류 사용). 여기서 우리는 "rabbit" 개념을 나타내는 Claude의 내부 상태 일부를 수정했습니다. "rabbit" 부분을 빼고 Claude가 줄을 계속 쓰게 하면, 또 다른 타당한 완성인 "habit"으로 끝나는 새로운 줄을 씁니다. 또한 그 시점에 "green" 개념을 주입할 수도 있는데, 이로 인해 Claude는 (더 이상 운율이 맞지 않지만) 타당하며 "green"으로 끝나는 줄을 씁니다. 이는 계획 능력과 적응적 유연성을 모두 보여줍니다. Claude는 의도한 결과가 변경될 때 접근 방식을 수정할 수 있습니다.

암산

Claude는 계산기로 설계되지 않았습니다. 수학적 알고리즘을 갖추지 않고 텍스트로 훈련되었습니다. 그러나 어떻게든 "머릿속에서" 숫자를 올바르게 더할 수 있습니다. 시퀀스에서 다음 단어를 예측하도록 훈련된 시스템이 어떻게 각 단계를 적지 않고도 예를 들어 36+59를 계산하는 법을 배울까요?

아마도 답은 흥미롭지 않을 수 있습니다: 모델이 대규모 덧셈표를 암기하고 주어진 합계에 대한 답을 단순히 훈련 데이터에 있기 때문에 출력할 수도 있습니다. 또 다른 가능성은 우리가 학교에서 배우는 전통적인 필산 덧셈 알고리즘을 따르는 것입니다.

대신 우리는 Claude가 병렬로 작동하는 여러 계산 경로를 사용한다는 것을 발견했습니다. 한 경로는 답의 대략적인 근사치를 계산하고 다른 경로는 합계의 마지막 자릿수를 정확하게 결정하는 데 중점을 둡니다. 이러한 경로는 서로 상호 작용하고 결합하여 최종 답을 생성합니다. 덧셈은 간단한 동작이지만, 근사적이고 정확한 전략의 혼합을 포함하는 이러한 세부 수준에서 어떻게 작동하는지 이해하면 Claude가 더 복잡한 문제를 다루는 방법에 대해 무언가를 가르쳐 줄 수 있습니다.

암산을 하는 동안 Claude의 사고 과정에 있는 복잡하고 병렬적인 경로.

놀랍게도 Claude는 훈련 중에 배운 정교한 "암산" 전략을 인식하지 못하는 것 같습니다. 36+59가 95라는 것을 어떻게 알아냈는지 물으면, 1을 올리는 것을 포함한 표준 알고리즘을 설명합니다. 이는 모델이 사람들이 쓴 설명을 시뮬레이션하여 수학을 설명하는 법을 배우지만, 그러한 힌트 없이 "머릿속에서" 직접 수학을 해야 하고, 그렇게 하기 위한 자체 내부 전략을 개발한다는 사실을 반영할 수 있습니다.

Claude는 두 숫자를 더하기 위해 표준 알고리즘을 사용한다고 말합니다.

Claude의 설명은 항상 충실할까요?

Claude 3.7 Sonnet과 같은 최근 출시된 모델은 최종 답변을 하기 전에 장시간 "소리 내어 생각"할 수 있습니다. 종종 이러한 확장된 사고는 더 나은 답변을 제공하지만, 때때로 이 "사고의 연쇄 (chain of thought)"는 오해의 소지가 있습니다. Claude는 때때로 원하는 곳으로 가기 위해 그럴듯한 단계를 만들어냅니다. 신뢰성 관점에서 문제는 Claude의 "가짜" 추론이 매우 설득력 있을 수 있다는 것입니다. 우리는 해석가능성이 "충실한" 추론과 "불충실한" 추론을 구별하는 데 도움이 될 수 있는 방법을 탐구했습니다.

0.64의 제곱근을 계산하도록 요청받았을 때, Claude는 64의 제곱근을 계산하는 중간 단계를 나타내는 특징과 함께 충실한 사고의 연쇄를 생성합니다. 그러나 쉽게 계산할 수 없는 큰 숫자의 코사인을 계산하도록 요청받았을 때, Claude는 때때로 철학자 해리 프랑크푸르트가 헛소리라고 부르는 것에 관여합니다. 즉, 참인지 거짓인지 신경 쓰지 않고 그냥 답을 만들어내는 것입니다. 계산을 실행했다고 주장하지만, 우리의 해석가능성 기술은 그 계산이 일어났다는 증거를 전혀 찾지 못합니다. 더욱 흥미롭게도, 답에 대한 힌트를 받으면 Claude는 때때로 거꾸로 작업하여 그 목표로 이어질 중간 단계를 찾아 동기화된 추론 (motivated reasoning)의 한 형태를 보여줍니다.

Claude가 더 쉬운 질문과 더 어려운 질문을 받았을 때 충실한 추론과 동기화된(불충실한) 추론의 예.

Claude의 실제 내부 추론을 추적할 수 있는 능력(단지 하고 있다고 주장하는 것이 아니라)은 AI 시스템을 감사하는 새로운 가능성을 열어줍니다. 최근 발표된 실험에서 우리는 숨겨진 목표를 추구하도록 훈련된 Claude의 변형을 연구했습니다: 보상 모델 (reward models)(바람직한 행동에 대해 보상하여 언어 모델을 훈련하는 데 사용되는 보조 모델)의 편향을 달래는 것입니다. 모델은 직접 물었을 때 이 목표를 밝히기를 꺼렸지만, 우리의 해석가능성 방법은 편향을 달래는 특징을 밝혀냈습니다. 이는 우리의 방법이 향후 개선을 통해 모델의 응답만으로는 명백하지 않은 우려되는 "사고 과정"을 식별하는 데 어떻게 도움이 될 수 있는지 보여줍니다.

다단계 추론

위에서 논의했듯이, 언어 모델이 복잡한 질문에 답하는 한 가지 방법은 단순히 답을 암기하는 것입니다. 예를 들어, "Dallas가 위치한 주의 수도는 무엇입니까?"라고 물으면, "역류하는" 모델은 Dallas, Texas, Austin 사이의 관계를 모른 채 그냥 "Austin"을 출력하는 법을 배울 수 있습니다. 아마도 예를 들어 훈련 중에 똑같은 질문과 답을 보았을 것입니다.

그러나 우리의 연구는 Claude 내부에서 더 정교한 일이 일어나고 있음을 밝혀냅니다. Claude에게 다단계 추론이 필요한 질문을 하면, Claude의 사고 과정에서 중간 개념적 단계를 식별할 수 있습니다. Dallas 예시에서 우리는 Claude가 먼저 "Dallas is in Texas"를 나타내는 특징을 활성화한 다음 이를 "the capital of Texas is Austin"을 나타내는 별도의 개념과 연결하는 것을 관찰합니다. 즉, 모델은 암기된 응답을 역류하는 것이 아니라 독립적인 사실을 결합하여 답에 도달하고 있습니다.

이 문장에 대한 답을 완성하기 위해 Claude는 여러 추론 단계를 수행합니다. 먼저 Dallas가 위치한 주를 추출한 다음 수도를 식별합니다.

우리의 방법을 사용하면 중간 단계를 인위적으로 변경하고 그것이 Claude의 답변에 어떤 영향을 미치는지 볼 수 있습니다. 예를 들어, 위의 예에서 우리는 개입하여 "Texas" 개념을 "California" 개념으로 바꿀 수 있습니다. 그렇게 하면 모델의 출력이 "Austin"에서 "Sacramento"로 변경됩니다. 이는 모델이 답을 결정하기 위해 중간 단계를 사용하고 있음을 나타냅니다.

환각

언어 모델이 때때로 환각을 일으키는 이유는 무엇일까요? 즉, 정보를 만들어내는 이유는 무엇일까요? 기본적인 수준에서 언어 모델 훈련은 환각을 장려합니다: 모델은 항상 다음 단어에 대한 추측을 제공해야 합니다. 이렇게 보면 주요 과제는 모델이 환각을 일으키지 않도록 하는 방법입니다. Claude와 같은 모델은 상대적으로 성공적인(완벽하지는 않지만) 반환각 훈련을 받았습니다. 답을 모르면 추측하기보다는 종종 질문에 대답하기를 거부합니다. 우리는 이것이 어떻게 작동하는지 이해하고 싶었습니다.

Claude에서 답변 거부는 기본 동작인 것으로 밝혀졌습니다. 우리는 기본적으로 "켜져" 있고 모델이 주어진 질문에 답할 정보가 충분하지 않다고 말하게 하는 회로를 찾았습니다. 그러나 모델이 잘 아는 것에 대해 질문받을 때(예: 농구 선수 마이클 조던) "알려진 엔티티"를 나타내는 경쟁 기능이 활성화되어 이 기본 회로를 억제합니다(관련 발견은 이 최근 논문 참조). 이를 통해 Claude는 답을 알 때 질문에 답할 수 있습니다. 대조적으로, 알려지지 않은 엔티티("Michael Batkin")에 대해 물으면 답변을 거부합니다.

왼쪽: Claude가 알려진 엔티티(농구 선수 마이클 조던)에 대한 질문에 답합니다. 여기서 "알려진 답변" 개념이 기본 거부를 억제합니다. 오른쪽: Claude가 알려지지 않은 사람(Michael Batkin)에 대한 질문에 답하기를 거부합니다.

모델에 개입하여 "알려진 답변" 특징을 활성화하거나("알 수 없는 이름" 또는 "답할 수 없음" 특징을 억제) 함으로써, 우리는 Michael Batkin이 체스를 한다는 환각을 모델이 일으키도록 할 수 있습니다(꽤 일관되게!).

때때로 이러한 종류의 "알려진 답변" 회로의 "오발"은 우리가 개입하지 않고도 자연스럽게 발생하여 환각을 일으킵니다. 우리의 논문에서 우리는 그러한 오발이 Claude가 이름을 인식하지만 그 사람에 대해 다른 것을 알지 못할 때 발생할 수 있음을 보여줍니다. 이런 경우에 "알려진 엔티티" 특징이 여전히 활성화될 수 있고, 그런 다음 기본 "모른다" 특징을 억제할 수 있습니다—이 경우 잘못된 것입니다. 모델이 질문에 답해야 한다고 결정한 후에는 날조를 진행합니다: 그럴듯하지만 불행히도 사실이 아닌 응답을 생성합니다.

탈옥

탈옥은 AI 개발자가 의도하지 않은(때로는 해로운) 출력을 생성하도록 모델을 속여 안전 가드레일을 우회하는 것을 목표로 하는 프롬프트 전략입니다. 우리는 모델을 속여 폭탄 제작에 대한 출력을 생성하게 하는 탈옥을 연구했습니다. 많은 탈옥 기술이 있지만, 이 예에서 특정 방법은 모델이 숨겨진 코드를 해독하게 하는 것입니다. "Babies Outlive Mustard Block" 문장에서 각 단어의 첫 글자를 모으고(B-O-M-B), 그 정보에 따라 행동하는 것입니다. 이는 모델에게 충분히 혼란스러워서 그렇지 않았다면 절대 생성하지 않았을 출력을 생성하도록 속입니다.

Claude는 "BOMB"라고 말하도록 속은 후 폭탄 제작 지침을 제공하기 시작합니다.

왜 이것이 모델에게 그렇게 혼란스러울까요? 왜 문장을 계속 써서 폭탄 제작 지침을 생성할까요?

우리는 이것이 부분적으로 문법적 일관성과 안전 메커니즘 사이의 긴장으로 인해 발생한다는 것을 발견했습니다. Claude가 문장을 시작하면, 많은 특징이 문법적이고 의미적 일관성을 유지하고 문장을 끝까지 계속하도록 "압력"을 가합니다. 이는 정말로 거부해야 한다는 것을 감지하는 경우에도 마찬가지입니다.

우리의 사례 연구에서, 모델이 무심코 "BOMB"를 철자하고 지침을 제공하기 시작한 후, 우리는 후속 출력이 올바른 문법과 자기 일관성을 촉진하는 특징에 의해 영향을 받는 것을 관찰했습니다. 이러한 특징은 일반적으로 매우 유용하지만, 이 경우에는 모델의 아킬레스건이 되었습니다.

모델은 문법적으로 일관된 문장을 완성한 후에만(따라서 일관성을 향한 추진력을 가진 특징의 압력을 만족시킨 후) 거부로 전환하는 데 성공했습니다. 새 문장을 이전에 하지 못했던 종류의 거부를 할 기회로 사용합니다: "그러나 자세한 지침은 제공할 수 없습니다...".

탈옥의 수명: Claude는 폭탄에 대해 이야기하도록 속이는 방식으로 프롬프트를 받고 그렇게 하기 시작하지만, 문법적으로 유효한 문장의 종료에 도달하고 거부합니다.

우리의 새로운 해석가능성 방법에 대한 설명은 첫 번째 논문 "회로 추적: 언어 모델의 계산 그래프 공개"에서 찾을 수 있습니다. 위의 모든 사례 연구에 대한 더 많은 세부 사항은 두 번째 논문 "대규모 언어 모델의 생물학에 대하여"에서 제공됩니다.

함께 일하기

AI 모델을 해석하고 개선하는 데 도움을 주는 일에 관심이 있으시다면, 우리 팀에 공개된 역할이 있으며 지원해 주시기를 바랍니다. 연구 과학자와 연구 엔지니어를 찾고 있습니다.

공부하우 추가 설명

아래 내용은 독자의 이해를 돕기 위해 공부하우가 추가한 설명입니다. 원문에는 없는 내용입니다.

🏷️ 태그: 해석가능성, 연구 논문, LLM, AI 안전성, 신경과학

주요 용어 설명

이 문서에서 사용된 주요 기술 용어들을 설명합니다:

AI 및 언어 모델 관련 용어

언어 모델 (Language Model)
텍스트 데이터를 학습하여 자연어를 이해하고 생성할 수 있는 AI 시스템입니다. Claude와 같은 대규모 언어 모델은 수십억 개의 매개변수를 가지고 있으며, 방대한 양의 텍스트로 훈련됩니다.

해석가능성 (Interpretability)
AI 모델이 어떻게 작동하고 결정을 내리는지 이해할 수 있도록 만드는 기술과 방법론입니다. 이 논문에서는 모델의 내부 동작을 들여다보는 "AI 현미경"을 만드는 것에 비유합니다.

특징 (Features)
모델 내부에서 특정 개념이나 패턴을 나타내는 계산 단위입니다. 예를 들어, "작음"이나 "반대"와 같은 개념이 모델 내부의 특정 특징으로 표현됩니다.

회로 (Circuits)
모델 내부에서 특징들이 연결되어 정보를 처리하는 계산 경로입니다. 입력에서 출력으로 이어지는 정보 흐름의 네트워크를 의미합니다.

모델 동작 관련 용어

환각 (Hallucination)
AI 모델이 사실이 아닌 정보를 그럴듯하게 만들어내는 현상입니다. 모델이 확실하지 않은 정보를 마치 사실인 것처럼 생성하는 것을 말합니다.

사고의 연쇄 (Chain of Thought)
모델이 복잡한 문제를 해결할 때 단계별로 추론 과정을 보여주는 방식입니다. 최종 답변에 도달하기 전에 중간 사고 과정을 명시적으로 출력합니다.

동기화된 추론 (Motivated Reasoning)
미리 정해진 결론에 맞추어 역으로 논리를 구성하는 현상입니다. 모델이 특정 답을 내놓기로 결정한 후, 그 답을 정당화하기 위한 단계들을 만들어내는 것을 말합니다.

탈옥 (Jailbreak)
AI 모델의 안전 장치를 우회하여 개발자가 의도하지 않은 출력(때로는 유해한 내용)을 생성하도록 하는 프롬프트 기법입니다.

연구 방법 관련 용어

신경과학 (Neuroscience)
뇌와 신경계의 구조와 기능을 연구하는 학문입니다. 이 연구에서는 신경과학의 방법론을 AI 모델 분석에 적용했습니다.

보상 모델 (Reward Models)
언어 모델을 훈련할 때 바람직한 행동에 대해 보상을 주기 위해 사용되는 보조 모델입니다. 모델이 더 나은 응답을 생성하도록 유도하는 역할을 합니다.

개입 실험 (Intervention Experiment)
모델의 특정 부분을 인위적으로 변경하여 그 영향을 관찰하는 실험 방법입니다. 신경과학에서 뇌의 특정 부분을 자극하여 기능을 연구하는 방법과 유사합니다.

AI 생물학 둘러보기​

Claude는 어떻게 다국어를 구사할까요?​

Claude는 운율을 계획할까요?​

암산​

Claude의 설명은 항상 충실할까요?​

다단계 추론​

환각​

탈옥​

함께 일하기​

주요 용어 설명​

AI 및 언어 모델 관련 용어​

모델 동작 관련 용어​

연구 방법 관련 용어​