메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

AIMO-2 Winning Solution: OpenMathReasoning 데이터셋을 활용한 최첨단 수학적 추론 모델 구축

AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset

 

개발자라면 누구나 한 번쯤은 상상해 봤을 겁니다.
"AI가 수학 올림피아드 수준의 문제를 스스로 풀고, 그 과정까지 논리적으로 설명해줄 수 있다면 어떨까?"
 

 

OpenMath-Nemotron은 바로 그 상상을 연구 수준에서 현실로 끌어내린 프로젝트입니다. 기존의 수학 문제 해결용 대형 언어 모델(LLM)들이 대부분 단순한 Chain-of-Thought(연쇄적 사고) 생성에 초점을 맞춘 것과는 달리, OpenMath-Nemotron은 코드 실행 통합, 대규모 장기 추론 데이터셋, 그리고 생성적 해답 선택(GenSelect)까지 아우르는 혁신적 접근을 지향합니다.

 

 

이 논문이 흥미로운 이유는 단순히 "정확도가 조금 더 높아졌다" 수준을 넘어서, 모델이 실제로 코드를 실행하며 복잡한 수학적 추론을 단계별로 수행하고, 여러 해답 중 최적의 해답을 스스로 선택할 수 있도록 설계되었다는 점입니다. 예를 들어, 모델이 직접 파이썬 코드를 실행해 중간 계산을 검증하거나, 여러 풀이 중에서 가장 신뢰도 높은 해답을 뽑아내는 식입니다. 이제 진짜로 'AI가 수학적 사고를 하고, 검증하며, 스스로 판단하는 시대'가 나타난 거죠.

 

✅ 어떻게 작동하나요? – OpenMath-Nemotron의 핵심 아이디어

 

OpenMath-Nemotron이 도입한 가장 눈에 띄는 개념은 바로 "Tool-Integrated Reasoning (TIR)"입니다. 즉, 모델이 단순히 텍스트로만 추론하는 것이 아니라, 필요할 때 코드(예: 파이썬)를 직접 실행해 계산 결과를 얻고, 그 결과를 추론 과정에 반영하는 방식입니다.
 

 

이러한 코드 실행 통합 추론은 실제로 여러 차례의 모델 파인튜닝, 데이터 생성, 품질 필터링을 반복하는 파이프라인으로 구현되며, 이를 통해 복잡한 수학 문제도 높은 신뢰도로 해결하는 게 OpenMath-Nemotron의 강점입니다.

 

 

이 모델은 총 4단계의 파이프라인을 거쳐 만들어졌습니다:

  • 1. 대규모 문제 데이터셋 구축 – 인터넷(AoPS 등)에서 54만 개의 고품질 수학 문제를 수집하고 정제합니다.
  • 2. 장기 추론(Chain-of-Thought) 해답 생성 – 기존 LLM(DeepSeek-R1, QwQ-32B 등)으로 320만 개의 단계별 해답을 생성합니다.
  • 3. Tool-Integrated Reasoning(TIR) 데이터 구축 – 모델이 코드 실행을 활용해 170만 개의 TIR 해답을 생성하고, 품질 필터링을 거칩니다.
  • 4. 생성적 해답 선택(GenSelect) 파이프라인 – 여러 후보 해답 중 가장 신뢰도 높은 해답을 모델이 직접 선택하도록 학습합니다.

 

✅ 주요 기술적 특징과 혁신점

 

OpenMath-Nemotron의 핵심 기술적 특징은 크게 세 가지 측면에서 살펴볼 수 있습니다.

 

1. 대규모 장기 추론 데이터셋(OpenMathReasoning)
이는 54만 개의 고난도 수학 문제와 320만 개의 Chain-of-Thought 해답으로 구성된 대규모 데이터셋입니다. 기존의 소규모, 단순 문제 위주 데이터셋과 달리, 자동화된 LLM 기반 문제 추출 및 정제 파이프라인을 통해 다양하고 깊이 있는 문제를 대량 확보했습니다. 특히, AoPS 등 커뮤니티에서 실제로 논의된 문제를 활용해 현실성과 난이도를 모두 잡았습니다.

 

2. Tool-Integrated Reasoning(TIR)
TIR의 핵심은 모델이 추론 과정에서 직접 코드를 실행해 중간 계산을 검증하는 능력입니다. 이를 위해 파인튜닝된 LLM에 코드 실행 환경을 연동하고, 여러 번의 생성-학습-필터링 루프를 돌려 170만 개의 고품질 TIR 해답을 구축했습니다. 실제로 모델이 복잡한 계산이나 검증이 필요할 때 파이썬 코드를 실행해 결과를 활용하는 것이 큰 강점입니다.

 

3. 생성적 해답 선택(GenSelect)
마지막으로 주목할 만한 점은 여러 후보 해답 중에서 모델이 스스로 가장 신뢰도 높은 해답을 선택하는 GenSelect 파이프라인입니다. 단순 다수결(majority voting) 대신, 56만 개의 선택 예시로 모델을 학습시켜, 실제 pass@k(여러 번 시도 중 1회 이상 정답률)에 근접한 성능을 달성했습니다. 이는 특히 복잡한 문제에서 오답률을 낮추는 데 효과적입니다.

 

✅ 실험 결과와 성능 분석

 

OpenMath-Nemotron의 성능은 다음과 같은 실험을 통해 검증되었습니다.

 

1. 수학 경진대회(AIME, HMMT) 문제 해결 성능
AIME, HMMT 등 실제 올림피아드 수준의 문제에서 평가한 결과, 14B 모델 기준으로 CoT(연쇄적 사고) 방식에서 56.2%, TIR(코드 통합 추론) 방식에서 74.6%의 정확도를 기록했습니다. 이는 기존 공개 모델(DeepSeek-R1 등) 대비 10~20%p 이상 향상된 수치입니다. 특히 TIR + GenSelect 조합에서 최고 성능을 보였습니다.

 

2. Tool-Integrated Reasoning의 효과
TIR 데이터로 추가 학습한 모델은 기존 CoT 방식만 쓴 모델 대비 복잡한 계산 문제에서 월등한 성능 향상을 보였습니다. 예를 들어, 중간 계산이 필요한 문제에서 오답률이 크게 줄었습니다.

 

3. 실제 응용 시나리오에서의 평가
실제 미공개 수학 경진대회(AIMO-2)에서 50문제 중 34문제를 정확히 풀어내 1위를 차지했습니다. 실용적 관점에서는 복잡한 수학 문제 자동 채점, 교육용 AI 튜터, 과학적 계산 지원 등 다양한 영역에서 활용 가능성이 확인되었습니다. 다만, 일부 극한 난이도 문제나 창의적 풀이가 요구되는 경우에는 여전히 한계가 있음을 드러냈습니다.

 

이러한 실험 결과들은 OpenMath-Nemotron이 고난도 수학 문제 해결이라는 주요 목표를 효과적으로 해결할 수 있음을 보여줍니다. 특히 Tool-Integrated Reasoning과 GenSelect의 조합은 향후 다양한 AI 수학 응용 분야에 중요한 시사점을 제공합니다.

 

✅ 성능은 어떨까요?

 

OpenMath-Nemotron은 AIMEHMMT라는 첨단 벤치마크에서 각각 74.6%, 67.6%의 정확도를 기록했습니다. 이는 DeepSeek-R1, QwQ-32B 등 기존 최상위 오픈 모델과 대등하거나 일부 영역에서는 더 뛰어난 성능입니다.

실제로 수학 경진대회 문제 자동 채점, 수학 교육용 AI 튜터, 과학적 계산 지원 등 실제 사용 시나리오에서도 꽤 자연스러운 반응을 보입니다.
물론 아직 "창의적 문제 해결" 고난도 올림피아드 문제에서 약간의 미흡함이 존재하긴 하지만, 현재 수준만으로도 다양한 서비스에 활용 가능성이 큽니다.

 

✅ 어디에 쓸 수 있을까요?

 

OpenMath-Nemotron은 단지 새로운 모델이 아니라, "AI가 실제로 사고하고 검증하며, 최적의 해답을 스스로 선택하는 수학적 추론의 미래"라는 흥미로운 방향성을 제시합니다.
앞으로는 더 많은 복합적 추론 능력, 예를 들면 과학적 논증, 코드-수학 융합 문제 해결까지 인식하게 될 가능성이 큽니다.

  • 교육용 AI 튜터: 학생이 푼 문제의 풀이 과정을 자동으로 검증하고, 단계별 피드백을 제공하는 AI 수학 선생님
  • 수학 자동 채점 시스템: 대규모 온라인 시험에서 다양한 풀이를 자동으로 채점하고, 오류까지 분석해주는 평가 시스템
  • 과학/엔지니어링 계산 지원: 복잡한 수식 계산, 코드-수학 혼합 문제 해결 등 연구 현장에서의 실시간 지원 도구

이러한 미래가 OpenMath-Nemotron으로 인해 조금 더 가까워졌습니다.

 

✅ 개발자가 지금 할 수 있는 일은?

 

OpenMath-Nemotron에 입문하려면, 기본적인 파이썬 프로그래밍딥러닝 모델 파인튜닝/추론에 대한 이해가 필요합니다.
다행히도 공식 깃허브허깅페이스 모델/데이터셋에 예제 코드와 데이터가 잘 정리되어 있어, 실제로 모델을 다운로드 받아 inference, 파인튜닝, 커스텀 데이터 적용까지 쉽게 실습할 수 있습니다.

실무에 적용하고 싶다면?
공개된 OpenMathReasoning 데이터셋과 파인튜닝된 모델을 확보하고, 다양한 테스트 문제셋을 테스트하면서 모델을 자신의 도메인에 맞게 파인튜닝/적용하는 것이 핵심입니다. 또한, 실제 서비스에 적용하려면 추론 속도 최적화, 코드 실행 환경 보안 등 추가 작업도 병행되어야 합니다.

 

✅ 마치며

 

OpenMath-Nemotron은 단순한 기술적 진보를 넘어, AI의 수학적 추론 능력과 실제 문제 해결력의 패러다임 전환을 향한 중요한 이정표입니다. 이 기술이 제시하는 가능성은 교육, 연구, 산업 전반의 미래를 재정의할 잠재력을 가지고 있습니다.

 

우리는 지금 AI 수학 추론 기술 발전의 중요한 변곡점에 서 있으며, OpenMath-Nemotron은 그 여정의 핵심 동력이 될 것입니다. 당신이 이 혁신적인 기술을 활용하여 미래를 선도하는 개발자가 되어보는 건 어떨까요?

 

▶ 논문 원문 보러가기

댓글

댓글 입력