[NAACL 2025 Best Paper Award] BiGGen Bench: 정밀한 사람의 평가 기준을 반영한 LLM 평가 프레임워크

이미지 1. NAACL 25에서 Best Paper로 선정된 LG AI연구원의 BiGGen Bench 연구[1]

AI의 시대, 언어모델의 역할은 더욱 중요해지고 있습니다. 이를 증명하듯 수많은 언어모델이 발표됐고 이들의 성능을 측정하기 위한 다양한 평가 벤치마크가 개발되었습니다. 하지만 대부분의 벤치마크들은 선호도, 유용성, 무해성 등 추상적인 평가 기준을 활용하고 있어 언어모델 성능을 정밀하게 구분하기는 쉽지 않았습니다[2,3,4]

이런 상황에서 우리는 “우리에게 가장 필요하고 활용도가 높은 언어모델을 어떻게 식별할 수 있을까?”라는 질문에 초점을 맞추고, 언어모델의 성능을 정밀하게 평가할 수 있는 새로운 기준을 세우는 데 집중했습니다. LG AI연구원 Super Intelligence Lab은 서민준 KAIST 교수 연구팀과 함께 생성형 AI 모델 성능을 평가하는 벤치마크인 ‘빅젠(BiGGen) Bench’를 개발하고 연세대학교, 카네기 멜런 대학교, 코넬 대학교, 매사추세츠 공과 대학교(MIT), 워싱턴 대학교, 일리노이 대학교의 글로벌 연구진과 함께 공동 연구를 수행했습니다. BiGGen Bench 개발을 위해 우리는 언어모델의 9가지 핵심 능력과 77개의 세부 과제를 정의하고, 총 775개의 문항과 채점 기준을 마련했습니다. 

우리가 공개한 “The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models[1]” 연구는 자연어 처리 분야에서 최고 권위 있는 학회 중 하나인 NAACL 2025를 통해 발표됐고, 그 해 최고 논문 한 편에게만 주어지는 Best Paper Award에 선정되었습니다. 

Best Paper 수상의 의미는 남다릅니다.  NAACL-25에 총 2,000여편이 넘는 논문이 제출됐고, 그 중 1,400여편의 논문이 Accept 됐습니다. 단 한 편의 논문만 선정하는 Best Paper에 우리 연구가 선정됐다는 점은 BiGGen Bench의 연구적 가치와 활용도를 입증했다고 볼 수 있습니다. 또한 AI 연구자라면 익히 알고 있는 ELMo(2018)와 BERT(2019)가 과거 NAACL에서 Best Paper로 선정되었던 것을 떠올려보면, 이번 수상은 더욱 의미를 더합니다. 

BiGGen Bench를 통해 LG AI연구원이 지난 12월 공개한 EXAONE 3.5 모델에 대한 평가도 진행했습니다. 추론 모델을 제외하고 최신의 Non-Thinking 모델들과 비교한 결과, EXAONE 3.5 모델은 평균 점수 4.189점으로 최신 모델 중 상위권 성능을 보였습니다. 권위 있는 학회인 NAACL-25가 인정한 BiGGen Bench, 그리고 BiGGen Bech 기준 우수한 성능을 인정 받은 EXAONE 3.5 모델은 우리가 자신 있게 선보이는 성과입니다. 

우리는 NAACL-25 현장에서 BiGGen Bench 연구에 대한 Oral 발표를 진행하고, 글로벌 연구자들과 만나 여러 인사이트를 나눴습니다. 이번 글에서는 BiGGen Bench 연구를 자세히 짚어봅니다. 


The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models[1]
연구의 계기 
언어모델(Large Language Model, LLM)을 지속적으로 발전시키기 위해서는, 현재 모델의 상태를 정확히 진단하고 부족한 부분을 식별해 개선 방향을 제시할 수 있는 체계적인 평가가 필수적입니다. 기계학습(Machine Learning, ML) 분야에는 다양한 평가지표가 존재하지만, 생성형 AI 분야 —특히 장문 텍스트를 생성하는 LLM— 에 있어 공정하고 정밀한 평가 지표를 설계하는 것은 여전히 풀어야 하는 과제입니다.

LG AI연구원에서는 LLM의 자가개선(Self-improvement) 메커니즘을 연구하고 있습니다. 우리가 특히 중요하게 여기는 연구적 질문은 다음과 같습니다. 

“언어모델이 생성한 결과를 어떻게 정밀하게 평가할 수 있을까?
또한, 피드백을 통해 언어모델은 지속적으로 발전할 수 있는가?”

이런 문제의식을 바탕으로, 우리는 데이터 생성-평가-피드백의 자동화 루프를 통해 모델이 스스로 개선해 나갈 수 있는 프레임워크를 설계하고 실험해왔습니다. 하지만 이 과정에서 평가에 대한 본질적 한계에 직면했습니다. 사람 전문가는 정밀하고 신뢰도 높은 평가를 수행할 수 있지만, 평가 과정이 노동 집약적이며 대규모 확장이 어렵다는 단점이 있습니다. 반면 LLM을 평가자로 활용하면 평가 프로세스의 자동화는 가능해지지만, 평가의 정확성과 신뢰도 면에서는 여전히 많은 제약이 존재합니다.

이 간극을 해소하고자, 우리는 몇 가지 도메인 및 태스크에 따라 사람이 세밀한 평가 기준을 설계하고, 이에 기반해 LLM이 자동 평가를 수행하는 평가 프레임워크를 제안했습니다. 이 프레임워크는 자동 평가의 신뢰성과 실효성을 높이기 위한 정량적 분석 체계를 제공하며, 나아가 LLM의 지속적인 자가개선을 가능하게 하는 기반 연구라고 볼 수 있습니다.


주요 연구 내용
언어 모델이 점점 더 다양한 태스크를 수행할 수 있게 되면서, 이를 정밀하게 평가하는 기술 중요성 또한 함께 커지고 있습니다. 그러나 기존 벤치마크는 종종 평가 기준이 추상적이라는 지적을 받은 것도 사실입니다[2,3,4]. 보다 구체적인 대안으로, 도메인에 특화된 기준을 도입한 벤치마크도 발표됐지만[5] 개별 문항의 세밀한 지침을 반영하기 어렵다는 점에서 여전히 한계를 노출했습니다.

이를 해결하기 위해, 우리는 언어 모델의 9가지의 다양한 능력을 종합적으로 진단할 수 있도록 설계한 새로운 벤치마크, BiGGen Bench를 제안했습니다. BiGGen Bench의 가장 큰 특징은 질문 유형에 따라 평가 기준을 세분화하고, 인간 평가의 미묘한 판단 기준까지 반영하고자 한 점입니다. 예컨대, 수학 문제에 대한 응답 평가를 기준으로,  BiGGen Bench는 단순한 선호도 척도(혹은 Helpfulness)보단, 논리적 전개가 타당한지 혹은 연산 결과가 정확한지와 같은 세밀한 판단 기준에 활용도가 더 큽니다.

구체적으로, BiGGen Bench는 언어 모델의 다음과 같은 9가지 핵심 능력을 체계적으로 평가합니다: Instruction Following, Grounding, Planning, Reasoning, Refinement, Safety, Theory of Mind, Tool Usage, Multilingualism. 각 능력은 총 77개의 세부 태스크와 765개의 문항들을 통해 다각도로 검증하며, 이는 아래의 이미지 2에서 볼 수 있습니다.
 

이미지 2. BiGGen Bench의 77개 태스크[1]

1) BiGGen Bench의 구성 요소 및 평가 방법
BiGGen Bench의 각 사례들은 System Message, Input Prompt, Reference Answer, Scoring Rubric으로 구성됩니다. System Message는 언어 모델의 역할을 정의하고, Input Prompt는 모델이 수행해야 할 태스크(혹은 질의)에 대한 지시를 의미합니다. Reference Answer는 평가에 필요한 이상적 답변을 제공하고, Scoring Rubric은 각 점수(5점 척도)에 대한 구체적인 평가 기준을 제시합니다. 여기서 각 사람 전문가가 벤치마크를 구축할 때, 5점 척도에 따른 구체적 Scoring Rubric을 모두 작성하도록 합니다. 아래 이미지 3는 하나의 예시입니다. 이러한 템플릿을 구성하고 GPT-4와 같은 SOTA LLM 평가자에게 세부 Scoring Rubric에 따라 주어진 답변에 대한 피드백과 최종 점수(1~5점)을 예측하게 합니다. 우리는 이 과정에서 GPT-4, Claude-3-Opus, Prometheus-2와 같은 LLM평가자와 사람의 판단 간의 상관관계를 테스트했으며, GPT-4-Turbo 모델은 Pearson 상관관계 0.623의 결과를 확인했습니다. 


이미지 3. BiGGen Bench 예시. 해당 수학문제에 대해 사람 주석가는 5점 척도에 따른 구체적인 평가지침을 작성합니다.[1]


2) BiGGen Bench 구축 프로토콜
BiGGen Bench는 아래의 4단계 프로세스에 따라 구축됐습니다. 

(a) 문항(인스턴스) 수작업 제작: 프로젝트는 18명의 공동 저자가 각기 다른 능력을 맡아 직접 데이터를 제작했습니다. 또한, 총 10개 언어를 커버하는 원어민 평가자들이 다국어 작업에 참여해 언어적 다양성을 확보했습니다. 문법 오류 수정, 표현 유창성 향상, 난이도 조정 등을 거쳐 불필요한 태스크 및 인스턴스들은 제외했으며, 이 과정을 통해 총 385개의 고품질 인스턴스가 선별되었습니다.

(b) In-context Learning를 통한 데이터 증강: 이전 단계에서 사람이 제작한 인스턴스를 바탕으로 GPT-4를 활용해 데이터를 증강했습니다. 각 태스크에 대해 모델이 다양한 표현을 생성할 수 있도록 In-context 예시를 제공하고, 의미적으로 가장 덜 유사한 응답을 반복 선택함으로써 표현의 다양성을 극대화했습니다. 생성된 인스턴스는 최종적으로 인간 평가자가 직접 검토 후 품질 검증을 했으며, 이 과정을 통해 770개의 신규 인스턴스가 추가되었습니다.

(c) 교차 검증: 데이터의 일관성과 신뢰도 확보를 위해, 공동 저자들은 자신이 작성하지 않은 인스턴스를 상호 검토했습니다. 평가자 간 의견 불일치가 확인되거나 기준이 모호한 경우 해당 인스턴스는 제거했으며, 이 과정을 통해 최종적으로 765개의 인스턴스를 확정했습니다.

(d) 사람의 판단(Judgments) 수집: 모델의 자동 평가 결과가 실제로 신뢰할 수 있는지를 검증하기 위해, 사람 평가자의 판단을 수집했습니다. 대표적인 언어모델의 응답을 선별해 인간이 직접 채점한 결과, 특히 다국어 작업에서 사람의 정성적 판단이 중요한 역할을 했습니다. 이로써 자동화된 평가 지표의 정확성을 보완하고, 평가 프레임워크의 신뢰도를 높일 수 있었습니다.


3) BiGGen Bench를 통한 기존 언어모델 성능 분석 
본 연구에서 제안된 BiGGen Bench를 통해 103개의 프론티어 LLM들을 평가 및 분석한 결과, 우리는 몇 가지 흥미로운 사실을 발견했습니다.

  1. 모델 파라미터 수에 따른 성능 변화: 모델의 사이즈가 커질수록 전반적인 성능이 향상되는 경향을 보였습니다. 이는 기존 연구들에서 모델 사이즈의 스케일링(Scaling)이 성능 향상으로 이어진다는 결과와 일치합니다.



이미지 4. Base LM들의 모델 사이즈에 따른 성능 트렌드[1]

  1. Pre-trained LM과 Post-trained LM의 성능 격차: Instruction Following 능력에서는 Post-trained LM이 Pre-trained LM보다 우수한 성능을 보였지만, Reasoning 및 Tool Usage 능력에서는 그 격차가 크지 않았습니다. 이는 사후학습(Post-training)이 Instruction Following 능력 향상에 효과적이지만, 다른 능력에는 제한적인 영향을 미칠 수 있음을 시사합니다.
  2. Open-source LM과 Proprietary LM의 성능 격차: Multilingual, Reasoning, Theory of Mind, Planning, Tool Usage 능력에서 Open-source LM과 Proprietary LM 간의 성능 격차가 컸습니다. 이는 Open-source LM이 앞서 소개한 능력을 향상시키는 데 더 많은 노력이 필요함을 의미합니다.


이미지 5. (왼쪽) Pre-trained LM과 Post-trained LM의 성능 격차. (오른쪽) Open-source LM과 Proprietary LM의 성능 격차[1]


새로운 패러다임 실현 계획 
BiGGen Bench 연구와 더불어, LG AI연구원은 지난 해 GPT-4 수준에 필적하는 자동평가 모델인 Prometheus-2를 오픈소스 형태로 공개했습니다[6, 7]. 이를 통해 사용자는 자신이 다루는 도메인이나 태스크의 특성에 맞춰 평가 기준을 유연하게 수정할 수 있을 뿐만 아니라, 보안에 민감한 데이터에 대해서도 자체 평가를 수행할 수 있습니다.

우리는 여기서 한 걸음 더 나아가, 언어모델의 성능을 보다 정밀하게 진단하고 개선 방향성을 체계적으로 도출할 수 있는 평가 기술 고도화 작업을 지속적으로 추진 중입니다. 특히, 산업계의 다양한 도메인 특화 분야에 대한 심층적인 평가 프로토콜을 개발하고 있습니다. 이를 통해 모델에 대한 빠른 피드백 루프를 구축하여, 모델 개선에 소요되는 시간을 획기적으로 단축하는 데 주력하고 있습니다. 이 과정에서는 단순한 정답 일치 여부를 넘어, 추론 과정의 논리성, 사실성, 포괄성 등을 종합적으로 검증할 수 있는 평가 체계를 지향합니다.

향후에도 LG AI연구원은 언어모델이 생성한 결과를 자동으로 평가하고, 그 평가 결과를 바탕으로 자가개선(Self-Improvement)을 이뤄나가는 새로운 패러다임을 실현하기 위해 연구개발을 지속할 것입니다. 평가 정확도와 신뢰도를 높이는 새로운 기술을 개발하는 한편, 다양한 도메인과 복합 과업에 대한 확장성을 고려한 평가 프레임워크를 구축하여, 언어모델의 진화 속도를 가속화하는 데 기여하겠습니다. 

참고

[1] Kim, Seungone, et al. "The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models." In NAACL (2025).

[2] Zheng, Lianmin, et al. "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena." Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track (2023)

[3] Li, Xuechen, et al. "Alpacaeval: an Automatic Evaluator of Instruction-following Models." URL https://github. com/tatsu-lab/alpaca_eval (2023).

[4] Chan, Chi-Min, et al. "ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate." The Twelfth International Conference on Learning Representations (2024).

[5] Ye, Seonghyeon, et al. "FLASK: Fine-grained Language Model Evaluation Based on Alignment Skill Sets." The Twelfth International Conference on Learning Representations (2024).

[6] Kim, Seungone, et al. "Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models." In EMNLP (2024).

[7] URL https://github.com/prometheus-eval/prometheus-eval