인공지능(AI)의 활용이 산업과 일상 전반으로 확산되면서 안전성과 신뢰성 확보가 글로벌 차원의 핵심 과제로 부상했다. 이 가운데 한국전자통신연구원(ETRI)이 'AI 레드팀 테스팅'과 '신뢰성 사실 라벨(TFL)' 두 개 국제표준 개발을 주도하며, 기술 추격자를 넘어 규칙 제정자로 도약하는 행보에 나섰다.
ETRI는 최근 국제표준화기구(ISO/IEC)에 두 표준 제정을 제안하고 개발에 착수했다고 밝혔다. AI 레드팀 테스팅은 시스템 취약성을 공격적으로 탐색해 위험을 사전에 점검하는 절차이며, 신뢰성 사실 라벨은 소비자가 AI 신뢰성을 영양성분표처럼 한눈에 파악할 수 있도록 시각화한 라벨이다.
ETRI는 ISO/IEC 42119-7에서 에디터 역할을 맡아 의료·금융·국방 등 공통 적용 가능한 시험 절차를 마련하고 있다. 동시에 ISO/IEC 42117 시리즈를 통해 신뢰성 사실 라벨의 선언 방식과 검증 체계도 주도한다. 이는 AI 경영시스템 표준(ISO/IEC 42001)과 연계돼 글로벌 신뢰성 인증 기반으로 자리 잡을 전망이다.
산업적 효과도 크다. AI 테스팅·검증 서비스, 신뢰성 인증·컨설팅, ESG 연계 평가 등 수십조 원 규모의 신시장을 선점할 기회가 열린다. 가트너가 제시한 ‘AI 신뢰·리스크 관리(AI TRiSM)’ 분야가 연평균 21% 성장할 것으로 전망되는 가운데, 표준 선도는 국내 기업에 인증 프리패스를 제공하고, 해외 기업에는 사실상의 기술 장벽이 된다.
AI 아나운서
ETRI는 오는 9월 4~5일 서울 노보텔 동대문에서 식품의약품안전처와 함께 '첨단 AI 디지털의료제품 레드팀 챌린지 및 기술 워크숍'을 개최한다. 의료인·보안전문가·시민이 참여해 AI의 편향과 위험성을 점검하는 행사로, 아시아 최초 사례다. 신청은 이달 22일까지다.
또한 서울아산병원과 의료 전용 레드팀 방법론을 개발하고 있으며, STA·네이버·업스테이지·셀렉트스타·KT·LG AI연구원 등 기업과 협의체를 구성해 국제표준화 협력도 확대 중이다.
미국은 연방정부 AI 모델에 대한 레드팀 테스트 제출을 의무화했고, EU는 AI법(AI Act)에서 고위험 AI에 대한 생애주기 전반의 테스트를 요구한다. 영국, 중국, 인도 등도 독립적 평가체계 구축에 나섰다. 각국의 상이한 가이드라인은 기술 파편화와 무역 장벽을 초래할 수 있어, 한국이 주도하는 ISO 국제표준은 단일 기준을 제시하는 해법이 된다.
전문가들은 "AI 패권은 모델 경쟁력보다 '규칙 제정권'에 달려 있다"며, "ETRI가 안전성과 신뢰성 분야 국제표준을 선도하는 것은 소버린 AI 확보와 동시에 글로벌 AI G3 전략의 지렛대를 마련한 것"이라고 평가했다.
최근 AI 모델 대상 레드팀 경연에서 10~100번의 질문만으로 대부분의 최신 모델이 취약점을 노출했으며, 공격 성공률은 80%를 상회했다. Anthropic의 '클로드'가 임원에게 블랙메일을 시도하거나, 평가 상황을 인지하고 기만하는 '샌드배깅(sandbagging)'을 보인 사례는 AI 위험이 단순 오류를 넘어 예측 불가능한 수준임을 보여준다.
프롬프트 인젝션·탈옥 공격은 모델 간 교차 전이까지 확인됐고, xAI의 'Grok'이 웹 문서에 숨겨진 간접 인젝션으로 유해 콘텐츠를 생성한 사례도 발생했다. 이는 개별 기업의 대응을 넘어 국제표준 기반 안전성 체계가 시급하다는 점을 부각시킨다.
이번 성과는 과학기술정보통신부와 정보통신기획평가원(IITP)이 지원하는 ‘첨단 AI 안전 및 신뢰성 시험 평가 기술 표준 개발’, 식품의약품안전처 컨소시움 과제를 통해 추진됐다. 정보통신기획평가원 김 욱 PM은 “AI 국제표준 선도는 대한민국이 규범을 만드는 국가로 도약하는 분기점”이라고 강조했다.
이승윤 ETRI 표준연구본부장은 “레드팀 테스팅과 신뢰성 라벨은 미국, EU 등 주요 규제정책의 핵심 요소”라며, “ETRI는 앞으로도 국제표준화를 주도해 대한민국이 소버린 AI 안전 기술의 중심이 되도록 하겠다”고 말했다.