[논문 리뷰] AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Large Language Models

논문/LLMs

[논문 리뷰] AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Large Language Models

khseon7 2026. 2. 20. 08:32

AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Large Language Models

Existing language model evaluations primarily measure general capabilities, yet reliable use of these models across a range of domains demands factual accuracy and recognition of knowledge gaps. We introduce AA-Omniscience, a benchmark designed to measure

arxiv.org

ArtificialAnalysis/AA-Omniscience-Public · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

1. 데이터셋 구성 의의

기존 벤치마크들은 코딩, 언어 이해, 도구 사용 등 일반적인 능력을 측정하는 데 집중해 왔다. 또한 대부분 정답률(Accuracy)을 기준으로 평가하기 때문에, 모델은 불확실한 상황에서도 점수를 얻기 위해 추측(Guessing)을 하도록 유도된다. 이는 모델이 모르는 것을 모른다고 인정하지 않고 환각을 일으키게 만드는 주된 원인이다.

AA-Omniscience는 다음과 같은 배경에서 탄생했다.

지식 보정 측정: 단순히 사실을 얼마나 많이 아는지뿐 아니라, 자신의 지식 한계를 얼마나 잘 인지하고 있는지를 평가한다.
실무적 필요성: 실제 경제적 가치가 있는 업무에서는 잘못된 정보보다 '답변 보류'가 낫기에, 오답에 패널티를 부여하여, 확실하지 않을 때 침묵하는 것이 점수에 유리하도록 설계되었다.
도구 없는 순수 지식 평가: 검색 도구나 문맥 없이 모델 내제 지식(Embedded Knowledge)만으로 얼마나 정확히 답변할 수 있는지를 측정한다.

2. 데이터셋 관련 통계

AA-Omniscience는 대규모·다분야 지식 평가를 목표로 설계된 벤치마크로, 주요 통계는 다음과 같다.

전체규모
- 총 6,000 문항
- 생성형 단답식 질문
- 정답은 단 하나
도메인 구성
- 6개 상위 도메인
- 42개 세부 주제

3. 데이터셋 구축 방법론

AA-Omniscience는 사람이 수작업으로 만드는 기존 방식의 한계를 넘어, LLM을 활용한 자동화 파이프라인을 통해 질문을 생성 및 정제하는 방식으로 구축되었다.

데이터 출처: 권위 있는 출판물, 1차 문서, 신뢰할 수 있는 1차 및 2차 소스에서 사실 정보를 추출했다.
자동화된 생성: OpenAI의 GPT-5를 활용하여 질문을 생성하고, 필터링 및 수정 과정을 거쳤다.
후처리 및 필터링 기준
- 난이도: 전문가만 알 수 있는 수준이어야 하며, 프론티어 모델들을 대상으로 테스트하여 너무 쉬운 문제는 제거했다.
- 명확성: 정답이 하나로 떨어져야 한다.
- 소스 독립성: 특정 텍스트를 읽어야만 풀 수 있는 독해 문제가 아니라, 지식 자체를 물어본다.

4. 데이터셋 평가 방법론

모델은 도구 및 외부 검색이 불가하며, 순수 내부 지식만을 사용하여 답변 전 "확신이 없으면 답하지 말라"는 지침을 명시해 기권 행동을 허용한다. 이후 Gemini 2.5 Flash Preview 모델이 답변을 Correct, Partially Correct, Incorrect, Not Attempted 4가지로 분류한다.

평가 지표: Omniscience Index (OI)

점수 범위: -100 ~ 100 점
공식:
$$100\cdot{(c-i)\over(c+p+i+a)}\\ _{c:\ 정답,\ p:\ 부분\ 정답,\ i:\ 오답,\ a:\ 기권}$$
정답(+1)과 동일한 크기의 패널티(-1)를 오답에 부여한다. 반면, 모른다고 답하면 0점 처리된다. 즉, 찍어서 틀리면 감점이니 모르면 가만히 있는게 유리함

보조 지표

$\mathrm{Accuracy} = {c\over c+p+i+a}$
$\mathrm{Hallucination\ Rate} = {i\over p+i+a}$
Cost to Run = 전체 토큰 비용
→ 동일 입력 조건에서도 모델별 토큰 사용량이 달라 비용 효율성 차이가 발생하기 때문에, 성능-비용 균형을 고려하는 실용적 평가 체계

5. 실험 결과

실험 결과, 최신 모델들도 '지식의 신뢰성' 측면에서는 여전히 큰 약점을 보였다.

처참한 점수: 평가된 모델 중 단 3개(Claude 4.1 Opus, GPT-5.1, Grok 4)만이 0점 이상의 점수를 기록했고, 대부분의 모델은 환각으로 인해 마이너스 점수를 받았다.
최고 성능 모델: Cluade 4.1 Opus가 높은 정답률과 낮은 환각률의 균형을 잘 맞춰 4.8점으로 가장 높은 점수를 기록했다.
지능≠신뢰성: 일반적인 지능이 높은 모델인 GPT-5 High, Grok 4도 환각이 심해 OI(Omniscience Index)가 낮게 나오는 경향이 있었다. 반면, Llama 3.1 405B와 같은 모델은 지능 지수 대비 높은 신뢰성을 보여주었다.
도메인별 성능 편차: 모든 도메인을 압도하는 단일 모델은 없었다.
- Cluade 4.1 Opus: 법률, 소프트웨어 엔지니어링, 인문사회 분야
- GPT-5.1: 비즈니스 분야
- Grok 4: 건강, 과학/공학/수학 분야

모델 크기의 역설: 모델이 클수록 Accuracy는 높아지지만, 반드시 OI가 높아지지는 않았다. 일부 작은 모델이 더 큰 모델보다 높은 신뢰성을 보이기도 했다.

비용 대비 성능 분석
- 모든 모델은 동일한 입력 길이를 받았음에도, 추론 설정과 출력 길이에 따라 토큰 사용량 차이가 발생하여 결과적으로 총 실행 비용의 차이가 발생했다.
- 높은 Omniscience Index를 기록한 모델이 항상 비용 효율적인 것은 아니고, 일부 모델은 정확도는 다소 낮지만, 토큰 사용량이 적어 더 경제적이다.
- 즉, 실제 산업 적용 환경에서는 성능-비용 균형이 가장 적절한 모델을 선택해야 한다.

'논문 > LLMs' 카테고리의 다른 글

[논문 리뷰] Universal Reasoning Model (0)	2025.12.22
[논문 리뷰] Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation (0)	2025.07.19
[논문 리뷰] Learning to Think: Information-Theoretic Reinforcement Fine-Tuning for LLMs (2)	2025.06.02
[논문 리뷰] Absolute Zero: Reinforced Self-play Reasoning with Zero Data (1)	2025.05.20

현재글[논문 리뷰] AA-Omniscience: Evaluating Cross-Domain Knowledge Reliability in Large Language Models

khseon7 님의 블로그

인공지능과 관련된 이것저것 정리해보는 블로그

TurboQuant, Prometheus, Grafana, 리눅스, Rag, URM, Linux, minikube, AWS, istio, 강화 학습, Terminal-bench, LLM, benchmark, EKS, 강화학습, grpo, Canary Deployment, OOM, k8s,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

khseon7 님의 블로그