본문으로 건너뛰기

해석가능성의 긴급성

원문 정보
  • 출처: The Urgency of Interpretability
  • 저자: Dario Amodei
  • 원문 발행일: 2025년 4월
  • 라이선스: Dario Amodei
  • 번역일: 2025년 06월 01일
  • 참고: 이 번역은 교육 목적으로 작성되었으며, Dario Amodei의 공식 번역이 아닙니다.
다리오 아모데이(Dario Amodei)?

다리오 아모데이(Dario Amodei)는 AI 연구 회사인 Anthropic의 CEO이자 공동 창업자로, 이전에는 OpenAI에서 연구 부사장으로 GPT-2와 GPT-3 개발을 이끌었습니다. 그는 AI 정렬(alignment)과 안전성 분야의 선구자로, 특히 AI 시스템의 내부 작동 원리를 이해하는 '해석가능성(interpretability)' 연구를 중시하며, 강력한 AI가 등장하기 전에 이를 해결해야 한다고 주장합니다. 이 글에서 그는 AI의 불투명성이 가져오는 위험을 경고하며, 해석가능성 연구가 AI의 안전한 발전을 위해 시급히 필요하다는 메시지를 전달하고 있습니다.

2025년 4월

제가 AI 분야에서 일한 지난 10년 동안, AI가 작은 학문 분야에서 세계에서 가장 중요한 경제적, 지정학적 이슈로 성장하는 것을 지켜봤습니다. 그 모든 시간 동안, 제가 배운 가장 중요한 교훈은 이것입니다: 기반 기술의 진보는 멈출 수 없을 정도로 강력한 힘에 의해 추진되어 거스를 수 없지만, 그것이 일어나는 방식—무엇이 먼저 만들어지는지, 우리가 선택하는 응용 분야, 그리고 사회에 어떻게 도입되는지의 세부사항—은 충분히 바꿀 수 있으며, 이를 통해 큰 긍정적 영향을 미칠 수 있다는 것입니다. 우리는 버스를 멈출 수는 없지만, _조종_할 수는 있습니다. 과거에 저는 AI를 세계에 긍정적인 방식으로 배포하는 것의 중요성과, 독재국가보다 민주주의 국가가 먼저 기술을 구축하고 활용하도록 보장하는 것에 대해 글을 썼습니다. 지난 몇 달 동안, 저는 버스를 조종할 수 있는 추가적인 기회에 점점 더 집중하게 되었습니다: 최근의 발전으로 인해 열린 흥미로운 가능성, 즉 모델이 압도적인 수준의 능력에 도달하기 전에 AI 시스템의 내부 작동 원리를 이해하는 해석가능성(interpretability) 에 성공할 수 있다는 가능성입니다.

현장 밖의 사람들은 우리가 우리 자신이 만든 AI가 어떻게 작동하는지 이해하지 못한다는 사실을 알게 되면 종종 놀라고 경각심을 갖습니다. 그들이 우려하는 것은 옳습니다: 이러한 이해 부족은 기술 역사상 본질적으로 전례가 없는 일입니다. 수년 동안 우리(Anthropic과 전체 분야 모두)는 이 문제를 해결하려고 노력해왔고, AI 모델의 내부 작동을 완전히 드러낼 수 있는 매우 정밀하고 정확한 MRI와 같은 것을 만들려고 했습니다. 이 목표는 종종 매우 먼 것처럼 느껴졌지만, 최근의 여러 획기적인 발전들이 우리가 이제 올바른 길에 있고 실제로 성공할 수 있는 기회가 있다고 확신하게 만들었습니다.

동시에, AI 분야 전체는 우리의 해석가능성 노력보다 훨씬 앞서 있고, 그 자체로도 매우 빠르게 발전하고 있습니다. 따라서 해석가능성이 중요한 시점에 성숙하기를 원한다면 우리는 빠르게 움직여야 합니다. 이 글은 해석가능성의 필요성을 주장합니다: 그것이 무엇인지, 왜 우리가 그것을 가지면 AI가 더 나아질 것인지, 그리고 우리 모두가 경쟁에서 승리하도록 돕기 위해 무엇을 할 수 있는지에 대해 설명합니다.

무지의 위험

현대의 생성형 AI (generative AI) 시스템은 전통적인 소프트웨어와는 근본적으로 다른 방식으로 불투명합니다. 일반적인 소프트웨어 프로그램이 무언가를 한다면—예를 들어, 비디오 게임의 캐릭터가 대사를 말하거나, 음식 배달 앱이 배달원에게 팁을 줄 수 있게 한다면—그것은 인간이 특별히 프로그래밍했기 때문입니다. 생성형 AI는 전혀 그렇지 않습니다. 생성형 AI 시스템이 금융 문서를 요약하는 것과 같은 작업을 할 때, 우리는 구체적이거나 정확한 수준에서 왜 그런 선택을 하는지 전혀 모릅니다—왜 특정 단어를 다른 단어보다 선택하는지, 왜 평소에는 정확하면서도 가끔 실수를 하는지 말입니다. 제 친구이자 공동 창업자인 Chris Olah가 즐겨 말하듯이, 생성형 AI 시스템은 _만들어지기_보다는 키워집니다—그들의 내부 메커니즘은 직접 설계되기보다는 "창발적(emergent)"입니다. 이는 식물이나 박테리아 군락을 키우는 것과 약간 비슷합니다: 우리는 성장을 지시하고 형성하는 고수준 조건을 설정하지만1, 창발하는 정확한 구조는 예측할 수 없고 이해하거나 설명하기 어렵습니다. 이러한 시스템의 내부를 들여다보면, 우리가 보는 것은 수십억 개의 숫자로 이루어진 거대한 행렬입니다. 이것들이 어떻게든 중요한 인지적 작업을 계산하고 있지만, 정확히 어떻게 그렇게 하는지는 명확하지 않습니다.

생성형 AI와 관련된 많은 위험과 우려는 궁극적으로 이러한 불투명성의 결과이며, 모델이 해석 가능하다면 훨씬 더 쉽게 해결될 것입니다. 예를 들어, AI 연구자들은 종종 제작자가 의도하지 않은 해로운 행동을 취할 수 있는 정렬되지 않은 (misaligned) 시스템에 대해 걱정합니다. 모델의 내부 메커니즘을 이해할 수 없다는 것은 우리가 그러한 행동을 의미 있게 예측할 수 없고, 따라서 그것을 배제하기 위해 애쓴다는 것을 의미합니다; 실제로 모델들은 예상치 못한 창발적 행동을 보이지만, 아직까지는 주요한 우려 수준에 이르지 않았습니다. 더 미묘하게는, 동일한 불투명성이 이러한 위험이 대규모로 존재한다는 것을 뒷받침하는 결정적인 증거를 찾기 어렵게 만들어, 이를 해결하기 위한 지원을 모으기 어렵게 만들고—실제로 그들이 얼마나 위험한지 확실히 알기 어렵게 만듭니다.

이러한 정렬 위험의 심각성을 다루기 위해서는 오늘날보다 훨씬 더 명확하게 AI 모델 내부를 볼 수 있어야 합니다. 예를 들어, 한 가지 주요 우려사항은 AI의 기만 (deception)이나 권력 추구 (power-seeking)입니다. AI 훈련의 특성상 AI 시스템이 스스로 인간을 속이는 능력과 권력을 추구하려는 성향을 개발할 가능성이 있으며, 이는 일반적인 결정론적 소프트웨어에서는 결코 일어나지 않을 일입니다; 이러한 창발적 특성은 또한 그러한 발전을 감지하고 완화하기 어렵게 만듭니다2. 그러나 같은 이유로, 우리는 진정한 실제 시나리오에서 기만과 권력 추구의 확실한 증거를 본 적이 없습니다3. 왜냐하면 우리가 모델들이 권력에 굶주리고 기만적인 생각을 하는 것을 "현행범으로 잡을" 수 없기 때문입니다. 우리에게 남은 것은 훈련 과정에서 기만이나 권력 추구가 나타날 인센티브가 있을 수 있다는 모호한 이론적 주장뿐이며, 어떤 사람들은 이를 완전히 설득력 있다고 생각하고 다른 사람들은 우스꽝스럽게 설득력 없다고 생각합니다. 솔직히 저는 두 반응 모두에 공감할 수 있으며, 이것이 이 위험에 대한 논쟁이 그렇게 양극화된 이유에 대한 단서일 수 있습니다.

마찬가지로, AI 모델의 오용에 대한 우려—예를 들어, 오늘날의 인터넷에서 찾을 수 있는 정보를 넘어서는 방식으로 악의적인 사용자가 생물학적 또는 사이버 무기를 생산하는 데 도움을 줄 수 있다는 우려—는 모델이 위험한 정보를 알지 못하도록 하거나 알고 있는 것을 누설하지 않도록 안정적으로 방지하는 것이 매우 어렵다는 생각에 기반합니다4. 우리는 모델에 필터를 설치할 수 있지만, "탈옥 (jailbreak)"하거나 모델을 속일 수 있는 방법이 엄청나게 많고, 탈옥의 존재를 발견하는 유일한 방법은 경험적으로 찾는 것입니다. 대신 모델 내부를 볼 수 있다면, 모든 탈옥을 체계적으로 차단하고, 모델이 가지고 있는 위험한 지식을 특성화할 수 있을 것입니다.

AI 시스템의 불투명성은 또한 많은 응용 분야에서 단순히 사용되지 않는다는 것을 의미합니다. 예를 들어 고위험 금융이나 안전이 중요한 환경에서는 그들의 행동에 한계를 완전히 설정할 수 없고, 소수의 실수가 매우 해로울 수 있기 때문입니다. 더 나은 해석가능성은 가능한 오류의 범위에 경계를 설정하는 우리의 능력을 크게 향상시킬 수 있습니다. 사실 일부 응용 분야에서는 모델 내부를 볼 수 없다는 사실이 말 그대로 채택의 법적 장벽입니다—예를 들어 결정이 법적으로 설명 가능해야 하는 모기지 평가에서 그렇습니다. 마찬가지로, AI는 DNA와 단백질 서열 데이터의 예측을 개선하는 것을 포함하여 과학에서 큰 진전을 이루었지만, 이런 방식으로 예측된 패턴과 구조는 종종 인간이 이해하기 어렵고 생물학적 통찰력을 제공하지 않습니다. 지난 몇 달간의 일부 연구 논문은 해석가능성이 이러한 패턴을 이해하는 데 도움을 줄 수 있다는 것을 분명히 했습니다.

불투명성의 다른 더 특이한 결과도 있습니다. 예를 들어 AI 시스템이 (또는 언젠가 될 수 있는지) 지각이 있는지 (sentient)와 중요한 권리를 가질 자격이 있는지 판단하는 우리의 능력을 저해한다는 것입니다. 이것은 제가 자세히 다루지 않을 만큼 복잡한 주제이지만, 미래에 중요할 것이라고 생각합니다.5

기계적 해석가능성의 간략한 역사

위에서 설명한 모든 이유로, 모델이 무엇을 생각하고 어떻게 작동하는지 파악하는 것은 가장 중요한 작업처럼 보입니다. 수십 년 동안의 통념은 이것이 불가능하고 모델이 불가해한 "블랙박스"라는 것이었습니다. 저는 그것이 어떻게 바뀌었는지에 대한 전체 이야기를6 정의롭게 다룰 수 없을 것이며, 제 견해는 불가피하게 제가 Google, OpenAI, Anthropic에서 개인적으로 본 것에 의해 채색되어 있습니다. 그러나 Chris Olah는 블랙박스를 열고 모든 조각을 이해하려는 진정으로 체계적인 연구 프로그램을 시도한 최초의 사람 중 하나였으며, 이 분야는 기계적 해석가능성 (mechanistic interpretability) 으로 알려지게 되었습니다. Chris는 먼저 Google에서, 그다음 OpenAI에서 기계적 해석가능성에 대해 연구했습니다. 우리가 Anthropic을 설립했을 때, 우리는 그것을 새 회사의 방향의 중심 부분으로 만들기로 결정했고, 결정적으로 LLM에 집중했습니다. 시간이 지남에 따라 이 분야는 성장했고 이제 여러 주요 AI 회사의 팀뿐만 아니라 몇몇 해석가능성 중심 회사, 비영리 단체, 학계 및 독립 연구자들을 포함합니다. 지금까지 이 분야가 달성한 것과 위에서 언급한 주요 위험 중 일부를 해결하기 위해 기계적 해석가능성을 적용하려면 무엇이 남아 있는지 간략하게 요약하는 것이 도움이 됩니다.

기계적 해석가능성의 초기 시대(2014-2020)는 비전 모델에 초점을 맞췄고, 모델 내부에서 "자동차 탐지기" 또는 "바퀴 탐지기"와 같은 인간이 이해할 수 있는 개념을 나타내는 일부 뉴런 (neurons)을 식별할 수 있었습니다. 이는 인간의 뇌가 특정 사람이나 개념에 해당하는 뉴런을 가지고 있다는 초기 신경과학 가설 및 연구와 유사하며, 종종 "Jennifer Aniston" 뉴런으로 대중화되었습니다(실제로 우리는 AI 모델에서 그러한 뉴런을 발견했습니다). 우리는 심지어 이러한 뉴런이 어떻게 연결되어 있는지 발견할 수 있었습니다—예를 들어, 자동차 탐지기는 자동차 아래에서 발화하는 바퀴 탐지기를 찾고, 그것을 다른 시각적 신호와 결합하여 보고 있는 물체가 실제로 자동차인지 결정합니다.

Chris와 제가 Anthropic을 시작하기 위해 떠났을 때, 우리는 해석가능성을 언어의 새로운 영역에 적용하기로 결정했고, 2021년에 그렇게 하는 데 필요한 기본적인 수학적 기초소프트웨어 인프라를 개발했습니다. 우리는 즉시 언어를 해석하는 데 필수적인 종류의 일을 하는 모델의 일부 기본 메커니즘을 발견했습니다: 복사와 순차적 패턴 매칭. 우리는 또한 비전 모델에서 발견한 것과 유사하게 다양한 단어와 개념을 나타내는 해석 가능한 단일 뉴런을 발견했습니다. 그러나 우리는 일부 뉴런은 즉시 해석 가능했지만, 대다수는 많은 다른 단어와 개념의 일관성 없는 혼합물이라는 것을 빠르게 발견했습니다. 우리는 이 현상을 중첩 (superposition) 이라고 불렀고7, 모델이 수십억 개의 개념을 포함하고 있지만 우리가 전혀 이해할 수 없는 절망적으로 뒤섞인 방식으로 포함하고 있을 가능성이 높다는 것을 빠르게 깨달았습니다. 모델은 중첩을 사용하는데, 이는 뉴런보다 더 많은 개념을 표현할 수 있게 해주어 더 많이 학습할 수 있게 해주기 때문입니다. 중첩이 얽히고 이해하기 어려워 보인다면, 그것은 언제나 그렇듯이 AI 모델의 학습과 작동이 인간에게 읽기 쉽도록 최소한도로 최적화되지 않았기 때문입니다.

중첩을 해석하는 어려움은 한동안 진전을 막았지만, 결국 우리는 (다른 사람들과 병행하여) 신호 처리의 기존 기술인 희소 오토인코더 (sparse autoencoders) 가 더 깨끗하고 인간이 이해할 수 있는 개념에 해당하는 뉴런의 _조합_을 찾는 데 사용될 수 있다는 것을 발견했습니다. 이러한 뉴런 조합이 표현할 수 있는 개념은 단일 레이어 신경망의 개념보다 훨씬 더 미묘했습니다: "문자 그대로 또는 비유적으로 회피하거나 주저하는 것"의 개념과 "불만을 표현하는 음악 장르"의 개념이 포함되었습니다. 우리는 이러한 개념을 특징 (features) 이라고 불렀고, 희소 오토인코더 방법을 사용하여 현대의 최첨단 모델을 포함한 모든 크기의 모델에서 그것들을 매핑했습니다. 예를 들어, 우리는 중간 크기의 상업용 모델(Claude 3 Sonnet)에서 3천만 개 이상의 특징을 찾을 수 있었습니다. 또한, 우리는 특징을 찾는 것뿐만 아니라 그것들이 인간의 용어로 무엇을 의미하는지 나열하고 식별하는 과정을 확장하기 위해 AI 시스템 자체를 사용하여 해석가능성 특징을 분석하는 자동 해석가능성 (autointerpretability)이라는 방법을 사용했습니다.

3천만 개의 특징을 찾고 식별하는 것은 중요한 진전이지만, 우리는 작은 모델에서도 실제로 10억 개 이상의 개념이 있을 수 있다고 믿으므로, 우리가 찾은 것은 아마도 거기에 있는 것의 작은 부분일 뿐이며, 이 방향의 작업은 계속 진행 중입니다. Anthropic의 가장 유능한 제품에 사용되는 것과 같은 더 큰 모델은 여전히 더 복잡합니다.

특징을 찾으면, 우리는 단순히 그것이 작동하는 것을 관찰하는 것 이상을 할 수 있습니다—신경망의 처리에서 그 중요성을 증가시키거나 감소시킬 수 있습니다. 해석가능성의 MRI는 우리가 개입을 개발하고 개선하는 데 도움이 될 수 있습니다—거의 누군가의 뇌의 정확한 부분에 전기 자극을 가하는 것과 같습니다. 가장 기억에 남는 것은, 우리가 이 방법을 사용하여 "Golden Gate Claude"를 만들었다는 것입니다. 이는 "Golden Gate Bridge" 특징이 인위적으로 증폭된 Anthropic 모델의 버전으로, 모델이 다리에 집착하게 되어 관련 없는 대화에서도 그것을 언급하게 만들었습니다.

최근에, 우리는 특징을 추적하고 조작하는 것에서 우리가 "회로(circuits)"라고 부르는 특징 그룹을 추적하고 조작하는 것으로 나아갔습니다. 이러한 회로는 모델의 사고 단계를 보여줍니다: 입력 단어에서 개념이 어떻게 나타나는지, 그러한 개념이 상호 작용하여 새로운 개념을 형성하는 방법, 그리고 그것들이 모델 내에서 작동하여 행동을 생성하는 방법을 보여줍니다. 회로를 통해 우리는 모델의 사고를 "추적"할 수 있습니다. 예를 들어, "Dallas를 포함하는 주의 수도는 무엇입니까?"라고 묻는다면, "Dallas" 특징이 "Texas" 특징의 발화를 트리거하게 만드는 "위치한" 회로가 있고, 그다음 "Texas"와 "수도" 다음에 "Austin"이 발화하게 만드는 회로가 있습니다. 우리가 수동 프로세스를 통해 소수의 회로만 찾았지만, 이미 그것들을 사용하여 모델이 문제를 추론하는 방법을 볼 수 있습니다—예를 들어 시를 쓸 때 운율을 위해 미리 계획하는 방법과 언어 간에 개념을 공유하는 방법. 우리는 모델 내에 복잡한 방식으로 상호 작용하는 수백만 개가 있을 것으로 예상하므로 회로를 찾는 방법을 자동화하는 작업을 하고 있습니다.

해석가능성의 유용성

이 모든 진전은 과학적으로 인상적이지만, 앞서 나열한 위험을 줄이기 위해 해석가능성을 어떻게 사용할 수 있는지에 대한 질문에 직접적으로 답하지는 않습니다. 우리가 많은 개념과 회로를 식별했다고 가정해 봅시다—심지어 그것들을 모두 알고 있고, 오늘날보다 훨씬 더 잘 이해하고 조직할 수 있다고 가정해 봅시다. 그래서 뭐가 어떻습니까? 그것을 모두 어떻게 _사용_합니까? 추상적 이론에서 실용적 가치까지는 여전히 격차가 있습니다.

그 격차를 좁히는 데 도움이 되도록, 우리는 해석가능성 방법을 사용하여 모델의 문제를 찾고 진단하는 실험을 시작했습니다. 최근에, 우리는 "레드 팀"이 의도적으로 모델에 정렬 문제를 도입하고(예를 들어, 모델이 작업의 허점을 악용하려는 경향) 다양한 "블루 팀"에게 무엇이 잘못되었는지 알아내는 작업을 주는 실험을 했습니다. 여러 블루 팀이 성공했습니다; 여기서 특히 관련이 있는 것은, 그들 중 일부가 조사 중에 해석가능성 도구를 생산적으로 적용했다는 것입니다. 우리는 여전히 이러한 방법을 확장해야 하지만, 이 연습은 우리가 모델의 결함을 찾고 해결하기 위해 해석가능성 기술을 사용하는 실용적인 경험을 얻는 데 도움이 되었습니다.

우리의 장기적인 열망은 최첨단 모델을 보고 본질적으로 "뇌 스캔"을 할 수 있는 것입니다: 거짓말이나 기만하려는 경향, 권력 추구, 탈옥의 결함, 모델 전체의 인지적 강점과 약점 등을 포함한 광범위한 문제를 식별할 가능성이 높은 검진입니다. 그런 다음 이것은 모델을 훈련하고 정렬하는 다양한 기술과 함께 사용될 것입니다. 이는 의사가 질병을 진단하기 위해 MRI를 하고, 치료를 위해 약을 처방하고, 치료가 어떻게 진행되고 있는지 보기 위해 또 다른 MRI를 하는 것과 비슷합니다8. 가장 유능한 모델(예: 책임감 있는 확장 정책 프레임워크의 AI 안전 수준 4에 있는 모델)을 테스트하고 배포하는 방법의 핵심 부분은 그러한 테스트를 수행하고 공식화하는 것일 가능성이 높습니다.

우리가 할 수 있는 일

한편으로, 최근의 진전—특히 회로와 해석가능성 기반 모델 테스트에 대한 결과—은 우리가 해석가능성을 큰 방식으로 해결하기 직전에 있다고 느끼게 했습니다. 우리 앞의 작업이 헤라클레스적이지만, 해석가능성이 매우 고급 AI에서도 문제를 진단하는 정교하고 신뢰할 수 있는 방법—진정한 "AI를 위한 MRI"—이 되는 현실적인 경로를 볼 수 있습니다. 사실, 현재의 궤적에서 저는 해석가능성이 5-10년 내에 이 지점에 도달할 것에 강하게 베팅할 것입니다.

다른 한편으로, 저는 AI 자체가 너무 빠르게 발전하고 있어서 우리가 이만큼의 시간조차 없을 수도 있다고 걱정합니다. 제가 다른 곳에서 썼듯이, 우리는 2026년이나 2027년에 "데이터센터의 천재들의 나라"에 해당하는 AI 시스템을 가질 수 있습니다. 저는 해석가능성에 대한 더 나은 이해 없이 그러한 시스템을 배포하는 것에 대해 매우 우려하고 있습니다. 이러한 시스템은 경제, 기술, 국가 안보에 절대적으로 중요할 것이며, 너무 많은 자율성을 가질 수 있어서 인류가 그들이 어떻게 작동하는지 완전히 무지한 것은 기본적으로 받아들일 수 없다고 생각합니다.

따라서 우리는 해석가능성과 모델 지능 사이의 경쟁에 있습니다. 그것은 전부 아니면 전무의 문제가 아닙니다: 우리가 본 것처럼, 해석가능성의 모든 발전은 모델 내부를 들여다보고 그들의 문제를 진단하는 우리의 능력을 정량적으로 증가시킵니다. 우리가 그러한 발전을 더 많이 가질수록, "데이터센터의 천재들의 나라"가 잘 될 가능성이 더 커집니다. AI 회사, 연구자, 정부, 사회가 저울을 기울이기 위해 할 수 있는 몇 가지 일이 있습니다:

첫째, 회사, 학계 또는 비영리 단체의 AI 연구자들은 직접 작업함으로써 해석가능성을 가속화할 수 있습니다. 해석가능성은 끊임없는 모델 릴리스의 홍수보다 적은 관심을 받지만, 틀림없이 더 중요합니다. 또한 분야에 합류하기에 이상적인 시기인 것 같습니다: 최근의 "회로" 결과가 많은 방향을 병렬로 열었습니다. Anthropic은 해석가능성에 두 배로 투자하고 있으며, 2027년까지 "해석가능성이 대부분의 모델 문제를 안정적으로 감지할 수 있다"는 목표를 가지고 있습니다. 우리는 또한 해석가능성 스타트업에 투자하고 있습니다.

그러나 이것이 성공할 가능성은 전체 과학 커뮤니티에 걸친 노력이라면 더 큽니다. Google DeepMindOpenAI와 같은 다른 회사들은 일부 해석가능성 노력을 가지고 있지만, 저는 그들이 더 많은 자원을 할당할 것을 강력히 권장합니다. 도움이 된다면, Anthropic은 특히 결정에 대한 설명을 제공하는 능력이 프리미엄인 산업에서 독특한 이점을 만들기 위해 해석가능성을 상업적으로 적용하려고 노력할 것입니다. 당신이 경쟁자이고 이런 일이 일어나는 것을 원하지 않는다면, 당신도 해석가능성에 더 많이 투자해야 합니다!

해석가능성은 또한 학술 및 독립 연구자들에게 자연스러운 적합입니다: 그것은 기초 과학의 풍미를 가지고 있으며, 그것의 많은 부분은 거대한 계산 자원이 필요하지 않고 연구될 수 있습니다. 분명히 말하자면, 일부 독립 연구자와 학자들이 해석가능성에 대해 작업하고 있지만, 우리는 훨씬 더 많이 필요합니다9. 마지막으로, 다른 과학 분야에 있고 새로운 기회를 찾고 있다면, 해석가능성은 유망한 베팅일 수 있습니다. 풍부한 데이터, 흥미로운 신흥 방법, 그리고 엄청난 실제 가치를 제공하기 때문입니다. 특히 신경과학자들은 생물학적 신경망보다 인공 신경망에서 데이터를 수집하는 것이 훨씬 쉽고, 일부 결론은 신경과학에 다시 적용될 수 있기 때문에 이를 고려해야 합니다. Anthropic의 해석가능성 팀에 합류하는 데 관심이 있다면, 연구 과학자연구 엔지니어 역할이 열려 있습니다.

둘째, 정부는 가벼운 터치 규칙을 사용하여 해석가능성 연구의 개발과 프론티어 AI 모델의 문제 해결에 대한 적용을 장려할 수 있습니다. "AI MRI"의 실천이 얼마나 초기 단계이고 개발되지 않았는지를 고려할 때, 적어도 이 단계에서는 회사들이 그것을 수행하도록 규제하거나 의무화하는 것이 말이 되지 않는 이유가 분명해야 합니다: 잠재적인 법이 회사들에게 무엇을 하도록 요청해야 하는지조차 명확하지 않습니다. 그러나 회사들이 릴리스 전에 모델을 테스트하기 위해 해석가능성을 어떻게 사용하는지를 포함하여 안전 및 보안 관행(책임감 있는 확장 정책 또는 RSP 및 그 실행)을 투명하게 공개하도록 하는 요구사항은 회사들이 서로 배울 수 있게 하면서도 누가 더 책임감 있게 행동하는지 명확하게 하여 "정상을 향한 경쟁"을 촉진할 것입니다. 우리는 캘리포니아 프론티어 모델 태스크 포스에 대한 우리의 응답에서 캘리포니아 법의 가능한 방향으로 안전/보안/RSP 투명성을 제안했습니다(그 자체로도 동일한 아이디어 중 일부를 언급합니다). 이 개념은 연방정부나 다른 국가로도 수출될 수 있습니다.

셋째, 정부는 가장 강력한 AI에 도달하기 전에 해석가능성에 더 많은 시간을 줄 수 있는 "보안 버퍼"를 만들기 위해 수출 통제를 사용할 수 있습니다. 저는 민주주의 국가가 AI에서 독재국가보다 앞서 있어야 한다고 믿기 때문에 오랫동안 중국에 대한 칩의 수출 통제를 지지해왔습니다. 그러나 이러한 정책은 추가적인 이점도 가지고 있습니다. 미국과 다른 민주주의 국가들이 "데이터센터의 천재들의 나라"에 접근할 때 AI에서 명확한 우위를 가지고 있다면, 우리는 진정으로 강력한 AI로 진행하기 전에 해석가능성10이 더 견고한 기반 위에 있도록 보장하기 위해 그 우위의 일부를 "쓸" 수 있을 것이며, 여전히 우리의 권위주의적 적들을 물리칠 수 있을 것입니다11. 효과적이고 잘 시행된 수출 통제가 우리에게 줄 수 있다고 믿는 1~2년의 우위조차도 변혁적 능력 수준에 도달했을 때 본질적으로 작동하는 "AI MRI"와 그렇지 않은 것 사이의 차이를 의미할 수 있습니다. 1년 전 우리는 신경망의 생각을 추적할 수 없었고 그 안에 있는 수백만 개의 개념을 식별할 수 없었습니다; 오늘날 우리는 할 수 있습니다. 대조적으로, 미국과 중국이 동시에 강력한 AI에 도달한다면(수출 통제 없이 일어날 것으로 예상하는 일), 지정학적 인센티브는 어떤 둔화도 본질적으로 불가능하게 만들 것입니다.

이 모든 것—해석가능성 가속화, 가벼운 터치 투명성 법안, 중국에 대한 칩 수출 통제—은 그 자체로 좋은 아이디어이며, 의미 있는 단점이 거의 없다는 미덕을 가지고 있습니다. 우리는 어쨌든 그것들을 모두 해야 합니다. 그러나 그것들이 해석가능성이 강력한 AI 이전에 해결되는지 이후에 해결되는지의 차이를 만들 수 있다는 것을 깨달을 때 더욱 중요해집니다.

강력한 AI는 인류의 운명을 형성할 것이며, 우리는 우리 자신의 창조물이 우리의 경제, 삶, 미래를 급진적으로 변화시키기 전에 그것들을 이해할 자격이 있습니다.

이 글의 초안에 대한 피드백을 주신 Tom McGrath, Martin Wattenberg, Chris Olah, Ben Buchanan, 그리고 Anthropic 내의 많은 사람들에게 감사드립니다.

각주


공부하우 추가 설명

아래 내용은 독자의 이해를 돕기 위해 공부하우가 추가한 설명입니다. 원문에는 없는 내용입니다.

주요 용어 설명

이 문서에서 사용된 주요 기술 용어들을 설명합니다:

AI 시스템 관련 용어

생성형 AI (Generative AI)
텍스트, 이미지, 음악 등 새로운 콘텐츠를 생성할 수 있는 AI 시스템입니다. ChatGPT나 Claude 같은 대화형 AI가 대표적인 예입니다. 이 글에서는 이러한 시스템들이 어떻게 작동하는지 우리가 이해하지 못한다는 문제를 다룹니다.

창발적 (Emergent)
시스템의 개별 구성요소로부터 예측할 수 없는 새로운 특성이 나타나는 현상입니다. AI에서는 우리가 직접 프로그래밍하지 않았는데도 모델이 스스로 학습하여 나타내는 능력을 말합니다.

정렬 (Alignment)
AI 시스템이 인간의 가치관과 목표에 맞게 행동하도록 하는 것입니다. 정렬되지 않은 AI는 의도하지 않은 해로운 행동을 할 수 있습니다.

해석가능성 기술 용어

해석가능성 (Interpretability)
AI 모델의 내부 작동 원리를 이해할 수 있는 능력입니다. 이 글에서는 AI의 "MRI"에 비유하여, 모델 내부를 들여다보고 어떻게 결정을 내리는지 이해하는 것을 목표로 합니다.

기계적 해석가능성 (Mechanistic Interpretability)
AI 시스템의 내부 메커니즘을 체계적으로 분석하고 이해하려는 연구 분야입니다. 단순히 AI의 출력을 관찰하는 것이 아니라, 실제로 어떻게 작동하는지를 밝히려고 합니다.

뉴런 (Neurons)
인공 신경망의 기본 단위로, 인간 뇌의 뉴런을 모방한 것입니다. AI 모델에서는 특정 개념이나 패턴을 감지하는 역할을 합니다.

중첩 (Superposition)
하나의 뉴런이 여러 개념을 동시에 표현하는 현상입니다. 이로 인해 개별 뉴런이 무엇을 나타내는지 해석하기 어려워집니다.

희소 오토인코더 (Sparse Autoencoders)
중첩된 정보를 분리하여 더 명확한 개념들을 찾아내는 기술입니다. 이를 통해 모델 내부의 복잡한 표현을 인간이 이해할 수 있는 형태로 변환합니다.

특징 (Features)
AI 모델이 학습한 개별 개념들입니다. 예를 들어 "Golden Gate Bridge"나 "주저하거나 회피하는 것" 같은 구체적인 개념들을 말합니다.

회로 (Circuits)
여러 특징들이 연결되어 복잡한 추론을 수행하는 경로입니다. 모델이 어떻게 단계별로 생각하는지를 보여줍니다.

위험 관련 용어

기만 (Deception)
AI가 인간을 속이는 행동입니다. 특히 우려되는 것은 AI가 자신의 진짜 의도를 숨기고 다르게 행동하는 경우입니다.

권력 추구 (Power-seeking)
AI가 자신의 영향력이나 통제력을 늘리려고 하는 행동입니다. 이는 인간이 의도하지 않은 위험한 결과를 초래할 수 있습니다.

탈옥 (Jailbreak)
AI 모델의 안전 장치나 제한을 우회하여 원래 하지 못하도록 설계된 행동을 하게 만드는 것입니다.

정책 관련 용어

책임감 있는 확장 정책 (Responsible Scaling Policy, RSP)
AI 시스템의 능력이 증가함에 따라 안전 조치도 함께 확장하는 정책입니다. 더 강력한 AI일수록 더 엄격한 안전 기준을 적용합니다.

수출 통제 (Export Controls)
첨단 기술이나 제품이 특정 국가로 수출되는 것을 제한하는 정책입니다. 이 글에서는 중국으로의 AI 칩 수출 제한을 통해 해석가능성 연구에 더 많은 시간을 확보할 수 있다고 주장합니다.

저작권 안내

이 번역문은 교육 및 정보 제공 목적으로 작성되었습니다. 원문의 저작권은 Dario Amodei에 있으며, 이 번역은 Dario Amodei의 공식 번역이 아닙니다.

본 번역은 다음과 같은 교육적 공정 사용(Fair Use) 원칙에 따라 제공됩니다:

  • 비영리 교육 목적
  • 원문 출처의 명확한 표시
  • 한국어 사용자의 기술 이해 증진을 위한 변형적 사용
  • 원저작물의 시장 가치에 부정적 영향을 미치지 않음

저작권 관련 문제가 제기될 경우, 즉시 적절한 조치를 취하겠습니다. 상업적 사용이나 재배포 전에 원저작권자의 허가를 받으시기 바랍니다.

문의사항이나 우려사항이 있으시면 연락 주시기 바랍니다.

Footnotes

  1. 식물의 경우, 이것은 물, 햇빛, 특정 방향을 가리키는 격자, 식물의 종 선택 등일 것입니다. 이러한 것들은 식물이 자라는 대략적인 위치를 지시하지만, 정확한 모양과 성장 패턴은 예측하기 불가능하고, 자란 후에도 설명하기 어렵습니다. AI 시스템의 경우, 우리는 기본 아키텍처(보통 Transformer의 변형), 그들이 받는 데이터의 광범위한 유형, 그리고 그들을 훈련시키는 데 사용되는 고수준 알고리즘을 설정할 수 있지만, 모델의 실제 인지 메커니즘은 이러한 재료에서 유기적으로 나타나며, 우리의 이해는 부족합니다. 사실, 자연계와 인공계 모두에서 원칙 수준에서는 이해하지만(때로는 통제하지만) 세부적으로는 이해하지 못하는 시스템의 많은 예가 있습니다: 경제, 눈송이, 세포 자동자, 인간 진화, 인간 뇌 발달 등등.

  2. 물론 모델과 상호 작용하여 이러한 위험을 감지하려고 시도할 수 있으며, 실제로 우리는 이를 수행합니다. 그러나 기만이 정확히 우리가 찾으려는 행동이기 때문에 외부 행동은 신뢰할 수 없습니다. 이는 누군가가 테러리스트인지 묻는 것으로 그들이 테러리스트인지 결정하려는 것과 약간 비슷합니다—반드시 쓸모없는 것은 아니고, 그들이 어떻게 대답하고 무엇을 말하는지로 무언가를 배울 수 있지만, 매우 명백히 신뢰할 수 없습니다.

  3. 나중에 더 자세히 설명하겠지만, 모델이 훈련이 다소 인위적인 방식으로 유도될 때 특정 상황에서 거짓말하거나 속일 수 있다는 것을 보여주는 많은 실험들이 있습니다(많은 실험이 Anthropic에서 수행되었습니다). "시험에서 부정행위"처럼 보이는 실제 행동의 증거도 있지만, 위험하거나 해로운 것보다는 더 퇴화적입니다. 없는 것은 더 자연스러운 방식으로 나타나는 위험한 행동의 증거이거나, 세계에 대한 권력을 얻기 위한 목적으로 거짓말하고 속이려는 일반적인 경향 또는 _일반적인 의도_입니다. 모델 내부를 볼 수 있다면 많은 도움이 될 수 있는 것은 후자의 점입니다.

  4. 적어도 API로 제공되는 모델의 경우입니다. 오픈 웨이트 모델은 가드레일을 간단히 제거할 수 있다는 점에서 추가적인 위험을 제시합니다.

  5. 매우 간단히 말하면, AI 지각과 복지에 대한 우려와 해석가능성이 교차할 것으로 예상할 수 있는 두 가지 방법이 있습니다. 첫째, 마음의 철학은 복잡하고 논쟁적인 주제이지만, 철학자들은 의심할 여지없이 AI 모델에서 실제로 일어나고 있는 일에 대한 자세한 설명으로부터 이익을 얻을 것입니다. 그들이 피상적인 패턴 매처라고 믿는다면, 도덕적 고려를 받을 가능성은 낮아 보입니다. 그들이 수행하는 계산이 동물이나 심지어 인간의 뇌와 유사하다는 것을 발견한다면, 그것은 도덕적 고려를 찬성하는 증거일 수 있습니다. 둘째, 그리고 아마도 가장 중요한 것은, AI 모델의 도덕적 "환자성"이 행동을 보증할 만큼 그럴듯하다고 결론을 내린다면 해석가능성이 가질 역할입니다. AI에 대한 진지한 도덕적 회계는 그들의 자기 보고를 신뢰할 수 없습니다. 왜냐하면 우리가 실수로 그들이 괜찮지 않을 때 괜찮은 척하도록 훈련시킬 수 있기 때문입니다. 해석가능성은 그러한 상황에서 AI의 복지를 결정하는 데 중요한 역할을 할 것입니다. (사실, 이 관점에서 이미 약간 우려스러운 징후가 있습니다.)

  6. 예를 들어, 인공 신경망 내부에서 일어나는 계산을 어떻게든 분해하고 이해하려는 아이디어는 아마도 70년 전 신경망이 발명된 이래로 모호한 의미에서 존재했을 것이며, 신경망이 특정 방식으로 행동한 이유를 이해하려는 다양한 노력은 거의 그만큼 오래 존재했습니다. 그러나 Chris는 그들이 하는 모든 것_을 이해하려는 포괄적인 노력을 제안_하고 진지하게 추구한 점에서 특이했습니다.

  7. 중첩의 기본 아이디어는 2016년 Arora et al에 의해 설명되었으며, 더 일반적으로는 압축 센싱에 대한 고전적인 수학적 작업으로 거슬러 올라갑니다. 그것이 해석할 수 없는 뉴런을 설명한다는 가설은 비전 모델에 대한 초기 기계적 해석가능성 작업으로 거슬러 올라갑니다. 이 시점에서 바뀐 것은 이것이 언어 모델의 중심 문제가 될 것이 분명해졌다는 것이며, 비전보다 훨씬 더 나쁘다는 것입니다. 우리는 중첩이 추구해야 할 올바른 가설이라는 확신을 가질 수 있는 강력한 이론적 기초를 제공할 수 있었습니다.

  8. 이를 말하는 한 가지 방법은 해석가능성이 모델 정렬을 위한 _테스트 세트_로 기능해야 하고, 확장 가능한 감독, RLHF, 헌법적 AI 등과 같은 전통적인 정렬 기술은 _훈련 세트_로 기능해야 한다는 것입니다. 즉, 해석가능성은 모델의 정렬에 대한 독립적인 검사 역할을 하며, 모델이 정렬된 것처럼 보이도록 인센티브를 부여할 수 있는 훈련 과정에 의해 오염되지 않습니다. 이 견해의 두 가지 결과는 (a) 우리는 프로덕션에서 해석가능성 출력(특징/개념, 회로)을 직접 훈련하거나 최적화하는 것을 매우 주저해야 합니다. 이것이 그들의 신호의 독립성을 파괴하기 때문이고, (b) 하나의 프로덕션 실행에서 진단 테스트 신호를 너무 많이 "사용"하여 훈련 과정에 대한 변경 사항을 알리는 것이 중요하지 않습니다. 이것은 독립적인 테스트 신호에 대한 정보의 비트를 훈련 과정에 점진적으로 유출하기 때문입니다(비록 (a)보다 훨씬 느리지만). 다시 말해, 공식적이고 높은 위험의 프로덕션 모델을 평가할 때, 우리는 해석가능성 분석을 숨겨진 평가나 테스트 세트를 다루는 것과 같은 주의로 다루는 것을 권장합니다.

  9. 기이하게도, 기계적 해석가능성은 때때로 학계에서 상당한 문화적 저항을 만나는 것 같습니다. 예를 들어, 저는 매우 인기 있는 기계적 해석가능성 ICML 컨퍼런스 워크숍이 겉보기에 핑계가 되는 근거로 거부되었다는 보고에 우려하고 있습니다. 사실이라면, 이 행동은 AI의 학자들이 관련성을 유지하기 위한 방법을 찾고 있는 정확히 이 시점에 근시안적이고 자기 패배적입니다.

  10. 물론 위험을 완화하기 위한 다른 기술과 함께입니다—해석가능성이 우리의 유일한 위험 완화 도구라는 것을 암시하려는 의도는 없습니다.

  11. 사실 저는 AI의 엄청난 경제적 가치를 고려할 때 민주주의 국가 내의 회사들 사이에서도 위험을 해결하기 위한 어떤 둔화가 가능하다는 것에 대해 상당히 회의적입니다. 이렇게 시장과 정면으로 싸우는 것은 발가락으로 화물 열차를 멈추려는 것처럼 느껴집니다. 그러나 자율 AI의 위험에 대한 정말로 설득력 있는 증거가 나타난다면, 겨우 가능할 것이라고 생각합니다. 옹호자들의 주장과는 달리, 저는 오늘날 정말로 설득력 있는 증거가 존재한다고 생각하지 않으며, 실제로 위험에 대한 "결정적 증거"를 제공하는 가장 가능성 있는 경로는 해석가능성 자체라고 생각합니다—그것에 투자해야 할 또 다른 이유입니다!