서울대, 한국어 특화 LLM 개발…AI 주권 시대 앞당긴다

국내 연구진이 막대한 비용 없이도 고성능 한국어 거대 언어 모델(LLM)을 개발할 수 있음을 입증했다. 서울대학교 이재진 교수팀이 공개한 연구 성과는 한국어 특화 LLM 개발과 AI 자립을 위한 중요한 전기로 평가된다.

왼쪽부터 손영준(박사과정), 소연경(박사과정), 박찬우(석사과정), 이재진(연구책임자), 김진표(박사과정), 석지헌(박사과정), 조경제(박사과정), 박종원(석사과정), 김종민(박사과정)

한국연구재단은 서울대 이재진 교수 연구팀이 영어 기반 Llama 모델을 개량해 한국어 특화 LLM ‘Llama-Thunder-LLM’과 전용 토크나이저 ‘Thunder-Tok’, 한국어 LLM 성능 평가 벤치마크 ‘Thunder-LLM’을 개발해 온라인에 공개했다고 밝혔다.

LLM은 방대한 텍스트 데이터를 학습해 인간의 언어를 이해하고 생성하는 인공지능 모델이다. 하지만 학습 데이터 확보와 개발 비용 부담으로 인해 대학이나 중소 연구기관에서는 독자 개발이 어려웠다.

연구팀은 3TB 규모의 한국어 웹 데이터를 수집·전처리한 뒤, 기존 영어 Llama 모델에 연속 학습과 사후 학습을 결합해 한국어 성능을 대폭 강화했다. Thunder-Tok 토크나이저는 한국어 문법 특성을 반영해 토큰 수를 기존 대비 44% 절감, 추론 속도와 학습 효율을 높였다.

또한 한국어 벤치마크 데이터셋을 구축해 한국어 LLM 성능을 객관적으로 평가할 수 있는 기반도 마련했다. Thunder-LLM 벤치마크는 영어 벤치마크를 기계 번역 후 전문가 검수와 현지화를 거쳐 완성됐으며, 문학적 문맥 이해 평가용 Ko-LAMBADA 데이터셋은 한국어 특성에 맞춰 새롭게 설계했다.

이재진 교수는 “학계도 자주적인 LLM 개발이 가능함을 보여준 연구”라며, “모델과 토크나이저, 벤치마크를 모두 공개해 후속 연구와 기술 자립 기반을 제공했다”고 말했다.

Llama-Thunder-LLM은 한국어 벤치마크에서 기존 동급 모델 대비 가장 높은 성능(평균 65.0점)을 기록했으며, 영어 성능도 동급 모델과 유사한 수준을 달성해 한국어·영어 이중 언어 모델로서의 경쟁력을 입증했다.

서울대 연구팀의 성과는 대규모 자본 없이도 한국어 LLM을 개발·활용할 수 있는 기술적 토대를 제공했으며, 향후 중소기업과 대학의 한국어 AI 응용 프로그램 개발 활성화에 기여할 것으로 기대된다.

조준상 기자

june251@industryjournal.co.kr

목록으로

불 끄는 전해액, 전기차 배터리 열폭주 제어 기술 확보

전기차 배터리 화재의 주요 원인으로 지목되는 열폭주를 제어할 수 있는 난연성 전해액 기술이 국내 연구진에 의해 확인됐다. 전해액 발화를 막기 위해 소화 원리를 접목한 접근으로, 리튬이온배터리의 구조적 안전성을 높이는 방식이다. 한국연구재단에 따르면, 충남대학교 송승완 교수 연구팀은

국내 연구진, 박막 탠덤 태양전지 세계 최고 효율 달성

차세대 태양광 발전의 핵심 기술로 꼽히는 박막 탠덤 태양전지 분야에서 국내 연구진이 세계 최고 효율을 달성하며 기술 주도권 확보의 전환점을 마련했다. 서울대와 한국과학기술연구원(KIST) 공동연구팀은 페로브스카이트/CIGS 탠덤 태양전지에서 26.3%의 광발전성능을 구현해, 미국 국립재생에너

세계 최초 고압 분사 방식 2리터급 친환경 암모니아 엔진 개발 성공

온실가스 발생이 없는 재생 가능한 에너지원인 암모니아를 연료로 사용하는 2리터급 엔진이 개발됐다. 이 기술은 향후 차량, 선박, 항공용 모빌리티의 동력원과 산업용 발전기 등 다양한 분야에서 핵심 기술로 활용될 전망이다. 한국기계연구원(기계연) 친환경에너지연구본부 박철웅 책임연구원

"AI가 만든 코드, 보안·품질까지 잡았다"… ETRI, '신뢰형 코드 생성 기술' 공개

"로그인 기능을 만들어줘" 같은 자연어 명령만으로 실제 실행 가능한 코드를 생성하는 AI가 보안 취약점, 논리 오류 등 품질 문제를 드러내는 가운데, 국내 연구진이 AI가 만든 코드의 '신뢰성'까지 보장하는 핵심 기술을 개발했다. 한국전자통신연구원(ETRI)은 대규모 언어모델(LLM)을 활

"정보 탈취형 악성코드 이메일 84% 급증"

2024년 한 해 동안 인포스틸러 악성코드를 이용한 이메일 공격이 전년 대비 84% 급증했다. IBM이 24일 발표한 ‘2025 엑스포스 위협 인텔리전스 인덱스’에 따르면, 사이버 공격자들은 AI를 활용해 피싱 수법을 정교화하고, 주요 기반시설과 제조업을 중심으로 공격을 집중시키고 있는 것으로

서울대, 한국어 특화 LLM 개발…AI 주권 시대 앞당긴다

관련뉴스

많이 본 뉴스

불 끄는 전해액, 전기차 배터리 열폭주 제어 기술 확보

국내 연구진, 박막 탠덤 태양전지 세계 최고 효율 달성

세계 최초 고압 분사 방식 2리터급 친환경 암모니아 엔진 개발 성공

"AI가 만든 코드, 보안·품질까지 잡았다"… ETRI, '신뢰형 코드 생성 기술' 공개

"정보 탈취형 악성코드 이메일 84% 급증"

신제품

온세미, 데이터센터 에너지 효율 향상 위한 전력 솔루션 공개

기업
소식

현대위아, 세계 최초 '데카 밸브' 열관리 모듈 공개... "글로벌 톱티어 도약"

산업전시회 일정

미리가보는 전시회

서울대, 한국어 특화 LLM 개발…AI 주권 시대 앞당긴다

관련뉴스

많이 본 뉴스

불 끄는 전해액, 전기차 배터리 열폭주 제어 기술 확보

국내 연구진, 박막 탠덤 태양전지 세계 최고 효율 달성

세계 최초 고압 분사 방식 2리터급 친환경 암모니아 엔진 개발 성공

"AI가 만든 코드, 보안·품질까지 잡았다"… ETRI, '신뢰형 코드 생성 기술' 공개

"정보 탈취형 악성코드 이메일 84% 급증"

신제품

온세미, 데이터센터 에너지 효율 향상 위한 전력 솔루션 공개

기업소식

현대위아, 세계 최초 '데카 밸브' 열관리 모듈 공개... "글로벌 톱티어 도약"

산업전시회 일정

미리가보는 전시회

기업
소식