논문/LLMs

[논문 리뷰] AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Large Language Models

khseon7 2026. 2. 20. 08:32

 

 

AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Large Language Models

Existing language model evaluations primarily measure general capabilities, yet reliable use of these models across a range of domains demands factual accuracy and recognition of knowledge gaps. We introduce AA-Omniscience, a benchmark designed to measure

arxiv.org

 

 

ArtificialAnalysis/AA-Omniscience-Public · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

1. 데이터셋 구성 의의

기존 벤치마크들은 코딩, 언어 이해, 도구 사용 등 일반적인 능력을 측정하는 데 집중해 왔다. 또한 대부분 정답률(Accuracy)을 기준으로 평가하기 때문에, 모델은 불확실한 상황에서도 점수를 얻기 위해 추측(Guessing)을 하도록 유도된다. 이는 모델이 모르는 것을 모른다고 인정하지 않고 환각을 일으키게 만드는 주된 원인이다.

 

AA-Omniscience는 다음과 같은 배경에서 탄생했다.

  • 지식 보정 측정: 단순히 사실을 얼마나 많이 아는지뿐 아니라, 자신의 지식 한계를 얼마나 잘 인지하고 있는지를 평가한다.
  • 실무적 필요성: 실제 경제적 가치가 있는 업무에서는 잘못된 정보보다 '답변 보류'가 낫기에, 오답에 패널티를 부여하여, 확실하지 않을 때 침묵하는 것이 점수에 유리하도록 설계되었다.
  • 도구 없는 순수 지식 평가: 검색 도구나 문맥 없이 모델 내제 지식(Embedded Knowledge)만으로 얼마나 정확히 답변할 수 있는지를 측정한다.
  •  

2. 데이터셋 관련 통계

AA-Omniscience는 대규모·다분야 지식 평가를 목표로 설계된 벤치마크로, 주요 통계는 다음과 같다.

  • 전체규모
    • 총 6,000 문항
    • 생성형 단답식 질문
    • 정답은 단 하나
  • 도메인 구성
    • 6개 상위 도메인
    • 42개 세부 주제

3. 데이터셋 구축 방법론

AA-Omniscience는 사람이 수작업으로 만드는 기존 방식의 한계를 넘어, LLM을 활용한 자동화 파이프라인을 통해 질문을 생성 및 정제하는 방식으로 구축되었다.

  • 데이터 출처: 권위 있는 출판물, 1차 문서, 신뢰할 수 있는 1차 및 2차 소스에서 사실 정보를 추출했다.
  • 자동화된 생성: OpenAI의 GPT-5를 활용하여 질문을 생성하고, 필터링 및 수정 과정을 거쳤다.
  • 후처리 및 필터링 기준
    • 난이도: 전문가만 알 수 있는 수준이어야 하며, 프론티어 모델들을 대상으로 테스트하여 너무 쉬운 문제는 제거했다.
    • 명확성: 정답이 하나로 떨어져야 한다.
    • 소스 독립성: 특정 텍스트를 읽어야만 풀 수 있는 독해 문제가 아니라, 지식 자체를 물어본다.

4. 데이터셋 평가 방법론

모델은 도구 및 외부 검색이 불가하며, 순수 내부 지식만을 사용하여 답변 전 "확신이 없으면 답하지 말라"는 지침을 명시해 기권 행동을 허용한다. 이후 Gemini 2.5 Flash Preview 모델이 답변을 Correct, Partially Correct, Incorrect, Not Attempted 4가지로 분류한다.

평가 지표: Omniscience Index (OI)

  • 점수 범위: -100 ~ 100 점
  • 공식:
    $$100\cdot{(c-i)\over(c+p+i+a)}\\ _{c:\ 정답,\ p:\ 부분\ 정답,\ i:\ 오답,\ a:\ 기권}$$
  • 정답(+1)과 동일한 크기의 패널티(-1)를 오답에 부여한다. 반면, 모른다고 답하면 0점 처리된다. 즉, 찍어서 틀리면 감점이니 모르면 가만히 있는게 유리함

보조 지표

  • $\mathrm{Accuracy} = {c\over c+p+i+a}$
  • $\mathrm{Hallucination\ Rate} = {i\over p+i+a}$
  • Cost to Run = 전체 토큰 비용
    → 동일 입력 조건에서도 모델별 토큰 사용량이 달라 비용 효율성 차이가 발생하기 때문에, 성능-비용 균형을 고려하는 실용적 평가 체계

5.  실험 결과

실험 결과, 최신 모델들도 '지식의 신뢰성' 측면에서는 여전히 큰 약점을 보였다.

  • 처참한 점수: 평가된 모델 중 단 3개(Claude 4.1 Opus, GPT-5.1, Grok 4)만이 0점 이상의 점수를 기록했고, 대부분의 모델은 환각으로 인해 마이너스 점수를 받았다.
  • 최고 성능 모델: Cluade 4.1 Opus가 높은 정답률과 낮은 환각률의 균형을 잘 맞춰 4.8점으로 가장 높은 점수를 기록했다.
  • 지능≠신뢰성: 일반적인 지능이 높은 모델인 GPT-5 High, Grok 4도 환각이 심해 OI(Omniscience Index)가 낮게 나오는 경향이 있었다. 반면, Llama 3.1 405B와 같은 모델은 지능 지수 대비 높은 신뢰성을 보여주었다.
  • 도메인별 성능 편차: 모든 도메인을 압도하는 단일 모델은 없었다.
    • Cluade 4.1 Opus: 법률, 소프트웨어 엔지니어링, 인문사회 분야
    • GPT-5.1: 비즈니스 분야
    • Grok 4: 건강, 과학/공학/수학 분야

  • 모델 크기의 역설: 모델이 클수록 Accuracy는 높아지지만, 반드시 OI가 높아지지는 않았다. 일부 작은 모델이 더 큰 모델보다 높은 신뢰성을 보이기도 했다.

  • 비용 대비 성능 분석
    • 모든 모델은 동일한 입력 길이를 받았음에도, 추론 설정과 출력 길이에 따라 토큰 사용량 차이가 발생하여 결과적으로 총 실행 비용의 차이가 발생했다.
    • 높은 Omniscience Index를 기록한 모델이 항상 비용 효율적인 것은 아니고, 일부 모델은 정확도는 다소 낮지만, 토큰 사용량이 적어 더 경제적이다.
    • 즉, 실제 산업 적용 환경에서는 성능-비용 균형이 가장 적절한 모델을 선택해야 한다.