"로그인 기능을 만들어줘" 같은 자연어 명령만으로 실제 실행 가능한 코드를 생성하는 AI가 보안 취약점, 논리 오류 등 품질 문제를 드러내는 가운데, 국내 연구진이 AI가 만든 코드의 '신뢰성'까지 보장하는 핵심 기술을 개발했다.
한국전자통신연구원(ETRI)은 대규모 언어모델(LLM)을 활용해 소스코드를 보다 정확하고 안전하게 생성할 수 있는 'PULSE' 핵심 기술을 개발, 지난달 29일 서울 엘타워에서 열린 'PULSE 코드 자동화 오픈소스 기술 워크샵'을 통해 공개했다고 10일 밝혔다.

ETRI 연구진이 최근 공개한 LLM 기반 신뢰형 코드 생성기술에 대해 논의하고 있다.
기존 코드 생성 기술이 기능 구현에만 집중했다면, 이 기술은 AI, 소프트웨어 엔지니어링(SE), 프로그래밍 언어(PL) 분야를 융합해 시스템의 품질과 신뢰성 등 비기능 요구사항까지 반영한다. 예를 들어 '로그인 기능'을 요청하면 단순 인증 로직뿐 아니라 입력 검증, 예외 처리, 계정 잠금 등 품질 관리 요소가 포함된 코드를 자동으로 생성한다. 파일 처리 요청에도 대용량 데이터 처리 효율과 메모리 관리 등 성능 요소를 고려한다.
ETRI는 기술 개발과 함께 C/C++ 언어에 특화된 대규모 학습 데이터셋을 자체 구축했다. C/C++ 언어는 운영체제, 반도체, 임베디드 시스템 등 산업 핵심 분야에 쓰이지만, AI 학습용 데이터가 부족해 코드 생성 성능이 떨어지는 한계가 있었다.
연구진은 '코드 수집 → 품질 평가 → 명세 생성' 전 과정을 자동화한 데이터 구축 시스템을 개발, 약 4만 건의 고품질 C/C++ 특화 훈련 데이터셋을 확보했다. 이 데이터를 최신 AI 모델 4종에 적용한 결과, 모든 모델의 코드 품질이 향상된 것을 입증했다.

PULSE 오토코딩 차별성: AI·SE·PL 융합을 통한 코드 생성 역량 고도화
ETRI는 워크샵에서 오토코딩 공통 인프라, 프롬프트 최적화 기술, C/C++ 데이터셋 구축 과정, AI 모델 성능 개선 결과 등을 연구진이 직접 소개했다. 또한, 로봇 제어, 차량용 소프트웨어 자동화 등 주요 산업 분야를 대상으로 실증 및 협력 프로젝트를 추진 중이라고 밝혔다. 관련 기술 일부는 연구원 깃허브(GitHub)를 통해 오픈소스로 공개됐다.
이 기술은 코드 품질과 보안성이 중요한 임베디드·자동차·로봇 산업 등에서 개발 속도와 효율성을 동시에 확보할 수 있는 해법으로 평가된다. ETRI는 현재 국내 주요 기업들과 PoC(개념 검증) 협력을 추진 중이며, 향후 3~4년 내 상용화를 목표로 하고 있다.

LLM 기반 신뢰형 코드 생성기술을 개발한 ETRI 개발진(오른쪽부터 마유승, 우예린, 한호재, 이기호, 여상엽, 전형국,김상철 박사)
정영준 ETRI 온디바이스AI연구본부장은 “향후 산업 현장 검증을 거쳐 다양한 프로그래밍 언어와 산업 특화 영역으로 기술을 확대 적용할 계획”이라며 “국내 소프트웨어 개발 생태계의 경쟁력 강화에 크게 기여할 것으로 기대된다”고 말했다.
이 연구는 서울대학교 연구진도 함께 참여했으며, 과제를 통해 SCI급 논문 5편, ACL 등 국제 우수학술대회 논문 20편, 국내외 특허 출원 11건, 기술이전 2건 등의 성과를 달성했다. 연구는 과학기술정보통신부와 정보통신기획평가원(IITP)의 '자연어로 기술된 요구사항에서 전문 개발자 수준의 고품질 코드를 자동 생성하는 기술 개발' 과제의 지원을 받아 수행됐다.