KirinNews

메타, 고성능 AI 안전성 확보를 위한 ‘고도화된 AI 스케일링 프레임워크’ 공개

Key Points

  • 1기존 프런티어 AI 프레임워크를 고도화한 'Advanced AI Scaling Framework v2' 발표
  • 2화학·생물학적 위험, 사이버 보안 및 새롭게 추가된 '제어 상실(자율성 리스크)' 평가 도입
  • 3차세대 모델 '뮤즈 스파크(Muse Spark)'의 상세 안전성 평가 및 대비 보고서 공개 예정
  • 4추론 기반 안전 학습 방식을 도입하여 학습되지 않은 새로운 위험 시나리오 대응력 강화
  • 5데이터 필터링, 안전 훈련, 제품 레벨 가드레일 등 다층적 방어 체계 구축
메타(Meta)가 더 강력해진 차세대 모델의 리스크를 관리하기 위해 기존 프레임워크를 대폭 강화한 '고도화된 AI 스케일링 프레임워크(v2)'를 발표했습니다. 특히 새롭게 공개될 '뮤즈 스파크(Muse Spark)' 모델에 대한 상세 안전성 및 대비 보고서를 통해 기술적 투명성을 높일 계획입니다.

메타(Meta)가 AI 모델의 성능 향상에 발맞춰 신뢰성과 보안을 강화하기 위한 새로운 안전 표준인 ‘고도화된 AI 스케일링 프레임워크(Advanced AI Scaling Framework)’를 공개했습니다. 이는 기존의 프런티어 AI 프레임워크를 기반으로 구축되었으며, 모델이 고도화됨에 따라 발생할 수 있는 잠재적 위험을 더욱 정밀하게 식별하고 관리하는 데 중점을 둡니다.

이번 업데이트에서 가장 주목할 점은 평가 대상 리스크의 확장입니다. 메타는 화학 및 생물학적 위협, 사이버 보안 리스크뿐만 아니라 모델의 자율성 증대에 따른 '제어 상실(Loss of Control)' 리스크를 평가하는 섹션을 새롭게 추가했습니다. 엔지니어링 관점에서 이는 모델이 부여된 권한 내에서 의도된 대로 작동하는지, 그리고 에이전트로서의 자율적 행동이 통제 가능한 범위를 벗어나지 않는지를 사전에 검증하겠다는 의지로 풀이됩니다.

메타는 차세대 모델인 ‘뮤즈 스파크(Muse Spark)’에 대한 안전성 및 대비 보고서(Safety & Preparedness Report)도 곧 발행할 예정입니다. 뮤즈 스파크는 강화된 추론 능력을 갖추고 있어, 기존의 시나리오 기반 거절(Refusal) 방식 대신 ‘안전 원칙과 그 이유’를 직접 학습하는 방식을 채택했습니다. 이를 통해 모델은 사전에 정의되지 않은 새로운 상황에서도 안전 가이드라인에 따라 적절히 대응할 수 있는 능력을 갖추게 되었습니다.

또한, 메타는 모델 배포 결정의 투명성을 강조했습니다. 공개되는 보고서에는 리스크 평가 결과, 배포 결정의 근거, 그리고 현재 기술적으로 해결 중인 한계점 등이 포함됩니다. 이는 오픈 소스 및 API 기반 배포 등 다양한 환경에서 메타의 프런티어 모델을 활용하는 개발자와 엔지니어들에게 구체적인 안전 기준을 제시할 것으로 기대됩니다.

다른 소식들

앤스로픽, 차세대 보안 특화 모델 '클로드 미토스(Mythos)' 및 '프로젝트 글래스윙' 공개

앤스로픽이 인간 보안 전문가 수준의 취약점 탐지 능력을 갖춘 미출시 프런티어 모델 '클로드 미토스(Claude Mythos)'를 공개하고, 이를 활용해 전 세계 핵심 소프트웨어를 보호하는 글로벌 이니셔티브 '프로젝트 글래스윙'을 출범했습니다. 이 모델은 리눅스 커널과 주요 브라우저에서 수십 년간 발견되지 않은 제로데이 취약점을 자율적으로 찾아내는 압도적인 성능을 보여주었습니다.

AnthropicLLMCybersecurity

CIA, 양자 자기계와 AI 결합한 '고스트 머머' 실전 투입… 이란 내 조종사 정밀 추적 및 구조 성공

CIA가 양자 자기계(Quantum Magnetometry)와 AI 신호 처리 기술을 결합한 신기술 '고스트 머머(Ghost Murmur)'를 활용해 이란에 추락한 미 공군 조종사를 구조했습니다. 이 기술은 인간 심장박동의 미세한 전자기 지문을 탐지하고 AI로 배경 소음을 제거하여 수십 마일 밖에서도 위치를 특정할 수 있습니다.

Implementation & EvalModels & ResearchQuantum Computing