📄 원문: Introducing ChatGPT agent: bridging research and action
- 출처: Introducing ChatGPT agent: bridging research and action
- 저자: OpenAI
- 원문 발행일: 2025년 7월 17일
- 라이선스: 저작권 OpenAI
- 번역일: 2025년 7월 17일
- 번역 및 감수: Claude and 공부하우
⚖️ 저작권 안내
이 번역문은 교육 및 정보 제공 목적으로 작성되었습니다. 원문의 저작권은 OpenAI에 있으며, 이 번역은 OpenAI의 공식 번역이 아닙니다.
본 번역은 다음과 같은 교육적 공정 사용(Fair Use) 원칙에 따라 제공됩니다:
- 비영리 교육 목적
- 원문 출처의 명확한 표시
- 한국어 사용자의 기술 이해 증진을 위한 변형적 사용
- 원저작물의 시장 가치에 부정적 영향을 미치지 않음
저작권 관련 문제가 제기될 경우, 즉시 적절한 조치를 취하겠습니다. 상업적 사용이나 재배포 전에 원저작권자의 허가를 받으시기 바랍니다.
문의사항이나 우려사항이 있으시면 오른쪽 템플릿 복사를 클릭 하신 뒤, 연락 페이지를 통해 알려 주시기 바랍니다.
ChatGPT 에이전트 소개: 연구와 실행의 연결
ChatGPT는 이제 자체 컴퓨터를 사용하여 사용자를 위해 작업을 수행할 수 있으며, 에이전틱 기술 (agentic skills)의 도구 상자에서 능동적으로 선택하여 복잡한 작업을 처음부터 끝까지 처리합니다.
2025년 7월 17일
자체 컴퓨터로 작업을 수행하는 ChatGPT
ChatGPT는 이제 자체 컴퓨터를 사용하여 복잡한 작업을 처음부터 끝까지 처리할 수 있습니다.
이제 ChatGPT에게 다음과 같은 요청을 할 수 있습니다: "내 캘린더를 보고 최근 뉴스를 바탕으로 다가오는 고객 미팅에 대해 브리핑해줘", "4인 가족을 위한 일본식 아침 식사를 계획하고 재료를 구매해줘", "세 개의 경쟁사를 분석하고 슬라이드 덱을 만들어줘". ChatGPT는 웹사이트를 지능적으로 탐색하고, 결과를 필터링하며, 필요할 때 안전하게 로그인하도록 안내하고, 코드를 실행하고, 분석을 수행하며, 심지어 연구 결과를 요약한 편집 가능한 슬라이드쇼와 스프레드시트를 제공합니다.
통합 에이전트 시스템의 핵심
이 새로운 기능의 핵심은 통합된 에이전틱 시스템 (agentic system)입니다. 이는 이전 혁신의 세 가지 강점을 결합합니다:
- Operator의 웹사이트와 상호작용하는 능력
- deep research의 정보 종합 기술
- ChatGPT의 지능과 대화 유창성
ChatGPT는 자체 가상 컴퓨터를 사용하여 이러한 작업을 수행하며, 사용자의 지시에 따라 추론과 행동 사이를 유연하게 전환하여 복잡한 워크플로우를 처음부터 끝까지 처리합니다.
가장 중요한 것은 사용자가 항상 통제권을 가진다는 점입니다. ChatGPT는 중요한 행동을 취하기 전에 권한을 요청하며, 사용자는 언제든지 쉽게 중단하거나 브라우저를 인수하거나 작업을 중지할 수 있습니다.
오늘부터 Pro, Plus, Team 사용자는 대화 중 언제든지 작성기의 도구 드롭다운에서 '에이전트 모드'를 선택하여 ChatGPT의 새로운 에이전틱 기능을 직접 활성화할 수 있습니다.
ChatGPT 에이전트는 이미 복잡한 작업을 처리하는 강력한 도구이지만, 오늘의 출시는 시작에 불과합니다. 우리는 정기적으로 중요한 개선 사항을 반복적으로 추가하여 시간이 지남에 따라 더 많은 사람들에게 더 유능하고 유용하게 만들 것입니다.
Operator와 deep research의 자연스러운 진화
이전에 Operator와 deep research는 각각 고유한 강점을 가지고 있었습니다. Operator는 웹에서 스크롤, 클릭, 입력할 수 있었고, deep research는 정보 분석과 요약에 뛰어났습니다. 하지만 이들은 서로 다른 상황에서 가장 잘 작동했습니다. Operator는 심층 분석이나 상세한 보고서 작성을 할 수 없었고, deep research는 웹사이트와 상호작용하여 결과를 개선하거나 사용자 인증이 필요한 콘텐츠에 액세스할 수 없었습니다. 실제로 사용자들이 Operator로 시도한 많은 쿼리가 실제로는 deep research에 더 적합하다는 것을 발견했기 때문에, 우리는 두 가지의 장점을 하나로 결합했습니다.
ChatGPT에서 이러한 보완적인 강점을 통합하고 추가 도구를 도입함으로써, 우리는 하나의 모델 내에서 완전히 새로운 기능을 잠금 해제했습니다. 이제 웹사이트에 적극적으로 참여하여 클릭, 필터링, 더 정확하고 효율적인 결과 수집이 가능합니다. 또한 동일한 채팅 내에서 간단한 대화에서 직접 작업 요청으로 자연스럽게 전환할 수 있습니다.
당신을 위해, 당신과 함께 일하는 에이전트
우리는 ChatGPT 에이전트에 다음과 같은 도구 모음을 장착했습니다:
- 그래픽 사용자 인터페이스를 통해 웹과 상호작용하는 시각적 브라우저
- 더 간단한 추론 기반 웹 쿼리를 위한 텍스트 기반 브라우저
- 터미널
- 직접 API 액세스
에이전트는 또한 ChatGPT 커넥터를 활용할 수 있어 Gmail과 Github 같은 앱을 연결하여 ChatGPT가 프롬프트와 관련된 정보를 찾아 응답에 사용할 수 있습니다. 브라우저를 인수하여 모든 웹사이트에 로그인할 수도 있어 연구와 작업 실행에서 더 깊고 광범위하게 작업할 수 있습니다.
ChatGPT에 웹 정보에 액세스하고 상호작용하는 다양한 방법을 제공한다는 것은 작업을 가장 효율적으로 수행하기 위한 최적의 경로를 선택할 수 있다는 것을 의미합니다. 예를 들어, API를 통해 캘린더 정보를 수집하고, 텍스트 기반 브라우저를 사용하여 많은 양의 텍스트를 효율적으로 추론하는 동시에, 주로 인간을 위해 설계된 웹사이트와 시각적으로 상호작용할 수 있는 능력을 갖추고 있습니다.
이 모든 것은 자체 가상 컴퓨터를 사용하여 수행되며, 여러 도구가 사용되더라도 작업에 필요한 컨텍스트를 보존합니다. 모델은 텍스트 브라우저나 시각적 브라우저를 사용하여 페이지를 열고, 웹에서 파일을 다운로드하고, 터미널에서 명령을 실행하여 조작하고, 다시 시각적 브라우저에서 출력을 볼 수 있습니다. 모델은 속도, 정확성, 효율성으로 작업을 수행하기 위해 접근 방식을 적응시킵니다.
ChatGPT 에이전트는 반복적이고 협업적인 워크플로우를 위해 설계되어 이전 모델보다 훨씬 더 대화형이고 유연합니다. ChatGPT가 작업하는 동안 언제든지 중단하여 지시사항을 명확히 하거나, 원하는 결과로 유도하거나, 작업을 완전히 변경할 수 있습니다. 이전 진행 상황을 잃지 않고 새로운 정보로 중단된 지점부터 계속합니다. 마찬가지로 ChatGPT 자체도 작업이 목표에 맞게 유지되도록 필요할 때 사용자로부터 추가 세부 정보를 능동적으로 찾을 수 있습니다. 작업이 예상보다 오래 걸리거나 막힌 것 같으면 일시 중지하고 진행 상황 요약을 요청하거나 완전히 중지하고 부분 결과를 받을 수 있습니다. 휴대폰에 ChatGPT 앱이 있으면 작업이 완료되면 알림을 보냅니다.
실제 유용성 확대
이러한 통합된 에이전틱 기능은 일상과 업무 맥락 모두에서 ChatGPT의 유용성을 크게 향상시킵니다. 직장에서는 편집 가능한 벡터 요소로 구성된 프레젠테이션으로 스크린샷이나 대시보드를 변환하고, 회의를 재배치하고, 오프사이트를 계획 및 예약하고, 동일한 형식을 유지하면서 새로운 재무 데이터로 스프레드시트를 업데이트하는 것과 같은 반복적인 작업을 자동화할 수 있습니다. 개인 생활에서는 여행 일정을 쉽게 계획하고 예약하거나, 전체 디너 파티를 설계하고 예약하거나, 전문가를 찾고 약속을 잡는 데 사용할 수 있습니다.
모델의 향상된 기능은 웹 브라우징 및 실제 작업 완료 기능을 측정하는 평가에서 최첨단(SOTA) 성능에 반영됩니다.
벤치마크 성능
Humanity's Last Exam(HLE)은 전문가 수준의 어려운 문제들로 구성된 AI 성능 평가 벤치마크입니다.
Humanity's Last Exam: 전문가 수준의 질문에서 광범위한 주제에 대한 AI의 성능을 측정하는 평가에서 ChatGPT 에이전트를 구동하는 모델은 41.6의 새로운 pass@1 SOTA를 기록했습니다. 에이전트가 동적으로 계획하고 자체 도구를 선택하기 때문에 실행마다 다른 방식으로 동일한 작업에 접근할 수 있습니다. 간단한 병렬 롤아웃 전략(한 번에 최대 8번의 시도를 실행하고 자체 보고된 신뢰도가 가장 높은 것을 선택)으로 확장했을 때, 에이전트의 HLE 점수는 44.4로 증가합니다.
FrontierMath: 전문 수학자들도 해결하는 데 몇 시간 또는 며칠이 걸리는 신규 미발표 문제들을 포함하는 가장 어려운 수학 벤치마크입니다. 터미널에서 코드 실행을 위한 액세스와 같은 도구 사용으로 ChatGPT 에이전트는 27.4%의 정확도를 달성하여 이전 모델들을 큰 차이로 능가합니다.
복잡한 경제적 가치가 있는 지식 작업 과제: 내부 벤치마크에서 ChatGPT 에이전트의 출력은 다양한 작업 완료 시간에 걸쳐 약 절반의 경우에서 인간과 비슷하거나 더 나은 성능을 보이며, o3와 o4-mini를 크게 능가합니다. 모델 출력은 각 분야의 최고 성과자가 만든 고품질 인간 기준선과 비교하여 전문가들에 의해 평가됩니다. 이러한 작업은 다양한 직업과 산업의 전문가들로부터 제공받은 것으로, 주문형 긴급 진료 제공업체의 경쟁 분석 준비, 상세한 상각 일정 작성, 새로운 녹색 수소 시설을 위한 실행 가능한 우물 식별과 같은 실제 전문 작업을 반영합니다.
DSBench: 데이터 분석 및 모델링에 걸친 현실적인 데이터 과학 작업에서 에이전트를 평가하도록 설계된 벤치마크에서 ChatGPT 에이전트는 인간 성능을 상당한 차이로 능가합니다.
SpreadsheetBench: 실제 시나리오에서 파생된 스프레드시트를 편집하는 능력을 평가하는 벤치마크에서 ChatGPT 에이전트는 기존 모델을 상당한 차이로 능가합니다. 스프레드시트를 직접 편집할 수 있는 능력이 주어졌을 때, ChatGPT 에이전트는 Excel의 Copilot의 20.0%에 비해 45.5%로 더 높은 점수를 기록했습니다.
방법론: SpreadsheetBench 저자들은 Microsoft Excel을 사용하여 Windows 환경에서 스프레드시트를 평가했습니다. 우리는 OSX 환경과 LibreOffice를 사용했으며, 이로 인해 작은 채점 차이가 발생할 수 있습니다. 예를 들어, 저자들은 GPT-4o의 Overall Hard 제한을 15.02%로 발견했지만, 우리는 13.38%를 얻었습니다. 우리는 완전한 912문항 벤치마크를 사용했습니다.
모델의 투자 은행 애널리스트 모델링 업무 수행 능력을 측정하는 내부 벤치마크에서 - Fortune 500 기업을 위한 적절한 서식과 인용이 포함된 3단계 재무 모델 작성이나 비상장화를 위한 레버리지드 바이아웃 모델 구축과 같은 1년차부터 3년차 업무 - ChatGPT 에이전트를 구동하는 모델은 deep research와 o3를 크게 능가합니다. 각 업무는 정확성과 공식 사용과 관련된 수백 가지 기준으로 채점됩니다.
BrowseComp: 올해 초 우리가 발표한 벤치마크로 브라우징 에이전트가 웹에서 찾기 어려운 정보를 찾는 능력을 측정하는 벤치마크에서 ChatGPT 에이전트는 68.9%로 새로운 SOTA를 기록하여 deep research보다 17.4% 포인트 높은 성과를 보였습니다. 이 모델은 68.9%로 새로운 SOTA를 기록하여 deep research보다 17.4% 포인트 높은 성과를 보였습니다.
WebArena: 현실적인 웹 작업 완료에서 웹 브라우징 에이전트의 성능을 평가하도록 설계된 벤치마크에서 이 모델은 o3 기반 CUA(Operator를 구동하는 모델)보다 향상된 성능을 보였습니다.
사용 방법
대화 중 언제든지 작성기의 도구 드롭다운에서 '에이전트 모드'를 선택하여 ChatGPT의 새로운 에이전틱 기능을 직접 활성화할 수 있습니다. 심층 연구 수행, 슬라이드쇼 작성 또는 비용 제출 등 원하는 작업을 간단히 설명하세요. 작업을 수행하는 동안 화면 내레이션이 ChatGPT가 정확히 무엇을 하고 있는지 가시성을 제공합니다. 필요할 때마다 브라우저를 중단하고 제어할 수 있어 작업이 목표에 맞게 유지됩니다.
ChatGPT 에이전트는 커넥터에 액세스할 수 있어 워크플로우와 통합하고 관련성 있고 실행 가능한 정보에 액세스할 수 있습니다. 인증되면 이러한 커넥터를 통해 ChatGPT가 하루의 받은 편지함을 요약하거나 회의 가능한 시간대를 찾는 것과 같은 정보를 볼 수 있습니다. 그러나 이러한 사이트에서 조치를 취하려면 여전히 브라우저를 인수하여 로그인하라는 메시지가 표시됩니다.
또한 매주 월요일 아침에 주간 지표 보고서를 생성하는 것과 같이 완료된 작업이 자동으로 반복되도록 예약할 수 있습니다.
새로운 기능, 새로운 위험
이번 릴리스는 사용자가 처음으로 ChatGPT에게 웹에서 조치를 취하도록 요청할 수 있게 된 것을 의미합니다. 이는 특히 ChatGPT 에이전트가 커넥터를 통해 액세스된 정보든 인수 모드를 통해 로그인한 웹사이트든 사용자의 데이터와 직접 작업할 수 있기 때문에 새로운 위험을 도입합니다. 우리는 Operator의 연구 미리보기에서 강력한 제어를 강화하고 실시간 웹에서 민감한 정보 처리, 더 넓은 사용자 도달 범위 및 (제한된) 터미널 네트워크 액세스와 같은 문제에 대한 보호 장치를 추가했습니다. 이러한 완화 조치가 위험을 크게 줄이지만, ChatGPT 에이전트의 확장된 도구와 더 넓은 사용자 도달 범위는 전반적인 위험 프로필이 더 높다는 것을 의미합니다.
프롬프트 인젝션에 대한 보호
우리는 특히 프롬프트 인젝션 (prompt injection)을 통한 적대적 조작으로부터 ChatGPT 에이전트를 보호하는 데 중점을 두었습니다. 이는 일반적으로 에이전틱 시스템의 위험이며, 그에 따라 더 광범위한 완화 조치를 준비했습니다. 프롬프트 인젝션은 제3자가 ChatGPT 에이전트가 작업을 완료하는 동안 웹에서 마주칠 수 있는 악의적인 지시를 통해 동작을 조작하려는 시도입니다. 예를 들어, 보이지 않는 요소나 메타데이터와 같은 웹페이지에 숨겨진 악의적인 프롬프트는 에이전트를 속여 커넥터의 개인 데이터를 공격자와 공유하거나 사용자가 로그인한 사이트에서 유해한 조치를 취하는 것과 같은 의도하지 않은 조치를 취하도록 할 수 있습니다. ChatGPT 에이전트가 직접적인 조치를 취할 수 있기 때문에 성공적인 공격은 더 큰 영향을 미치고 더 높은 위험을 초래할 수 있습니다.
우리는 프롬프트 인젝션 공격을 빠르게 감지하고 대응하기 위한 모니터링을 사용하는 것 외에도 프롬프트 인젝션을 식별하고 저항하도록 에이전트를 훈련하고 테스트했습니다. 중요한 조치 전에 명시적인 사용자 확인을 요구하면 이러한 공격으로 인한 피해 위험이 더욱 줄어들고, 사용자는 필요에 따라 인수하거나 일시 중지하여 작업에 개입할 수 있습니다. 사용자는 에이전트에 제공할 정보를 결정할 때 이러한 장단점을 고려해야 하며, 작업에 필요하지 않을 때 커넥터를 비활성화하는 등 이러한 위험에 대한 노출을 최소화하기 위한 조치를 취해야 합니다.
모델 실수에 대한 완화 조치
우리는 또한 특히 모델이 이제 실제 세계에 영향을 미치는 작업을 수행할 수 있기 때문에 모델 실수에 대한 완화 조치를 구현했습니다:
- 명시적 사용자 확인: ChatGPT는 구매와 같이 실제 결과를 초래하는 조치를 취하기 전에 명시적으로 권한을 요청하도록 훈련되었습니다.
- 적극적 감독 ("감시 모드"): 이메일 전송과 같은 특정 중요 작업에는 적극적인 감독이 필요합니다.
- 사전 예방적 위험 완화: ChatGPT는 은행 송금과 같은 고위험 작업을 적극적으로 거부하도록 훈련되었습니다.
데이터 접근 제한
마지막으로 모델이 액세스할 수 있는 데이터를 제한하는 추가 제어를 도입했습니다:
- 개인정보 보호 제어: ChatGPT 설정에서 한 번의 클릭으로 모든 브라우징 데이터를 삭제하고 모든 활성 웹사이트 세션에서 즉시 로그아웃할 수 있습니다. 그렇지 않으면 쿠키는 각 방문한 웹사이트의 쿠키 정책에 따라 유지되어 사이트 재방문을 더 효율적으로 만들 수 있습니다.
- 안전한 브라우저 인수 모드: ChatGPT의 브라우저("인수 모드")를 사용하여 웹과 상호작용할 때 입력 내용은 비공개로 유지됩니다. ChatGPT는 비밀번호와 같이 이러한 세션 중에 입력하는 데이터를 수집하거나 저장하지 않습니다. 모델이 필요하지 않고 절대 보지 않는 것이 더 안전하기 때문입니다.
생물학적 위험에 대한 가장 강력한 안전 스택
모델의 향상된 기능으로 인해 우리는 ChatGPT 에이전트를 준비 프레임워크에 따라 높은 생물학적 및 화학적 기능으로 취급하여 관련 보호 장치를 활성화하기로 결정했습니다. 모델이 초보자가 심각한 생물학적 피해를 만드는 데 의미 있게 도움을 줄 수 있다는 확실한 증거는 없지만(높은 기능에 대한 우리의 임계값), 우리는 주의를 기울이고 필요한 보호 장치를 지금 구현하고 있습니다. 결과적으로 이 모델은 생물학을 위한 향상된 보호 장치와 함께 현재까지 가장 포괄적인 안전 스택을 갖추고 있습니다: 포괄적인 위협 모델링, 이중 용도 거부 훈련, 상시 분류기 및 추론 모니터, 명확한 시행 파이프라인.
ChatGPT 에이전트를 보호하기 위한 우리의 작업 외에도, 우리는 계층화된 생물 안전이 어느 한 연구소를 넘어 보호 장치가 확장될 때 가장 잘 작동한다는 것을 알고 있으므로 생태계 전반에 걸쳐 협력하여 방어를 강화합니다. 첫날부터 우리는 외부 생물 보안 전문가, 안전 기관 및 학술 연구자들과 협력하여 위협 모델, 평가 및 정책을 형성했습니다. 생물학 교육을 받은 검토자들이 평가 데이터를 검증했고, 도메인 전문가 레드 팀이 현실적인 시나리오에서 보호 장치를 스트레스 테스트했습니다. 이달 초 우리는 정부, 학계, 국립 연구소 및 NGO의 전문가들과 함께 AI로 구동되는 생물 방어 연구를 가속화하고 협력을 촉진하기 위한 생물 방어 워크숍을 개최했습니다. 우리는 새로운 위험보다 앞서 나가기 위해 전 세계적으로 계속 파트너십을 맺을 것입니다.
통합 에이전틱 모델에 대한 우리의 강력한 안전 접근 방식에 대한 자세한 내용은 시스템 카드에서 확인하세요. 또한 실제 위험을 찾고 해결할 수 있도록 버그 바운티 프로그램을 시작합니다.
이용 가능성
ChatGPT 에이전트는 오늘부터 Pro, Plus, Team에 출시되기 시작합니다. Pro는 오늘 중으로 액세스할 수 있고, Plus 및 Team 사용자는 며칠 내에 액세스할 수 있습니다. Enterprise 및 Education 사용자는 앞으로 몇 주 내에 액세스할 수 있습니다. Pro 사용자는 월 400개의 메시지를 사용할 수 있고, 다른 유료 사용자는 월 40개의 메시지를 사용할 수 있으며, 유연한 크레딧 기반 옵션을 통해 추가 사용이 가능합니다.
우리는 여전히 유럽 경제 지역과 스위스에 대한 액세스를 가능하게 하기 위해 노력하고 있습니다.
Operator 연구 미리보기 사이트는 몇 주 더 기능을 유지한 후 종료됩니다. Deep research는 ChatGPT 에이전트 기능의 일부입니다. 기본적으로 더 자세하고 심층적인 응답을 제공하는 데 더 오래 걸릴 수 있는 원래의 deep research 기능을 선호한다면 메시지 작성기의 드롭다운에서 "deep research"를 선택하여 계속 액세스할 수 있습니다.
한계와 미래 전망
ChatGPT 에이전트는 아직 초기 단계에 있습니다. 다양한 복잡한 작업을 수행할 수 있지만 여전히 실수를 할 수 있습니다.
슬라이드쇼 생성 능력에서 상당한 잠재력을 보고 있지만, 이 기능은 현재 베타 버전입니다. 현재 출력은 특히 기존 문서 없이 시작할 때 형식과 세련미가 초보적으로 느껴질 수 있습니다. 우리는 모델의 초기 기능을 프레젠테이션에 적합한 흐름과 형식으로 정보를 구성하는 아티팩트 생성에 집중했으며, 구조와 유연성을 최적화하여 내보내기 후 기본적으로 쉽게 편집할 수 있는 텍스트, 차트, 이미지 및 도형과 같은 요소를 사용했습니다. 현재 뷰어의 슬라이드와 내보낸 파워포인트 사이에 가끔 불일치가 있으며 이를 줄이기 위해 노력하고 있습니다. 또한 현재 ChatGPT가 편집하거나 템플릿으로 사용할 기존 스프레드시트를 업로드할 수 있지만, 이 기능은 아직 슬라이드쇼에는 사용할 수 없습니다. 우리는 이미 더 광범위한 기능과 개선된 형식으로 더 세련되고 정교한 출력을 생성하기 위해 ChatGPT의 슬라이드쇼 생성의 다음 반복을 훈련하고 있습니다.
전반적으로 우리는 시간이 지남에 따라 ChatGPT 에이전트의 효율성, 깊이 및 다양성이 지속적으로 개선될 것으로 기대하며, 사용자에게 더 유용하면서도 안전하게 사용할 수 있도록 사용자로부터 필요한 감독의 양을 계속 조정함에 따라 더 원활한 상호작용을 포함합니다.
부록
SpreadsheetBench 결과
모델 | 평가 환경 | 소프트 제한 (%): 셀 수준 | 소프트 제한 (%): 시트 수준 | 소프트 제한 (%): 전체 |
---|---|---|---|---|
GPT‑4o | Windows, Excel | 15.03 | 23.65 | 18.35 |
Copilot in Excel | Windows, Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX, LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX, LibreOffice | 22.40 | 24.60 | 23.25 |
ChatGPT agent | OSX, LibreOffice | 38.27 | 30.48 | 35.27 |
ChatGPT agent with .xlsx | OSX, LibreOffice | 50.56 | 37.51 | 45.54 |
Human | - | 75.56 | 65.00 | 71.33 |
라이브스트림 재생
아래 내용은 독자의 이해를 돕기 위해 공부하우가 추가한 설명입니다. 원문에는 없는 내용입니다.
주요 용어 설명
이 문서에서 사용된 주요 기술 용어들을 설명합니다:
AI 에이전트 관련 용어
에이전틱 시스템 (Agentic System)
자율적으로 목표를 설정하고 행동을 취할 수 있는 AI 시스템입니다. ChatGPT 에이전트는 사용자의 지시에 따라 웹 브라우징, 코드 실행, 문서 작성 등 복잡한 작업을 독립적으로 수행할 수 있습니다.
프롬프트 인젝션 (Prompt Injection)
AI 시스템을 속여 의도하지 않은 행동을 하도록 만드는 공격 기법입니다. 웹페이지에 숨겨진 악의적인 지시사항을 통해 AI가 개인정보를 유출하거나 잘못된 행동을 하도록 유도할 수 있습니다.
벤치마크 관련 용어
SOTA (State-of-the-Art)
특정 분야에서 현재 달성 가능한 최고 수준의 성능을 의미합니다. ChatGPT 에이전트는 여러 벤치마크에서 SOTA 성능을 달성했습니다.
pass@1
AI 모델이 첫 번째 시도에서 정답을 맞출 확률을 나타내는 지표입니다. ChatGPT 에이전트는 Humanity's Last Exam에서 41.6%의 pass@1 점수를 기록했습니다.
기능 관련 용어
커넥터 (Connectors)
ChatGPT를 Gmail, GitHub 등 외부 서비스와 연결하는 기능입니다. 이를 통해 ChatGPT가 사용자의 이메일, 캘린더, 코드 저장소 등에 접근하여 더 개인화된 도움을 제공할 수 있습니다.
브라우저 인수 모드 (Browser Takeover Mode)
사용자가 ChatGPT의 브라우저를 직접 제어하여 로그인이나 민감한 정보 입력을 수행할 수 있는 기능입니다. 이 모드에서 입력된 정보는 ChatGPT에 저장되지 않아 보안이 유지됩니다.