출처: 토큰포스트
인공지능(AI) 연구의 최전선에서 구글(GOOGL)과 UC 버클리 연구팀이 대형 언어 모델(LLM)의 추론 능력을 크게 향상시키는 간단한 샘플링 기법을 공개했다. 이 새로운 방법은 모델이 여러 개의 응답을 생성한 뒤, 스스로 검증하여 최선의 답을 선택하는 방식이다.
이번 연구는 현재 LLM 테스트 단계에서 활용되는 고비용의 강화학습이나 정교한 아키텍처 없이도 성능을 크게 개선할 수 있음을 입증했다. 연구진은 “단순한 샘플링 기반 검색 기법을 통해 기존 모델들이 달성하지 못한 성능을 실현할 수 있다”고 강조했다.
기존의 LLM 테스트 단계에서는 연산 비용이 높은 강화 학습을 활용하거나 다수의 응답을 생성한 후 가장 빈번한 답변을 채택하는 ‘자기 일관성(self-consistency)’ 기법이 주로 사용됐다. 그러나 이 접근법들은 복잡한 문제를 다룰 때 한계를 보인다. 샘플링 기반 검색은 이를 보완하는 방식으로, 모델이 여러 개의 응답을 만들어 검토한 후 최상의 것을 선택하는 체계를 따른다.
연구진이 발표한 알고리즘은 크게 세 단계로 구성된다. 먼저 언어 모델이 동일한 질문에 대해 다양한 답변을 생성하고, 이어서 여러 번의 검증을 거쳐 응답의 정확도를 평가한다. 마지막으로 가장 높은 신뢰도를 보인 응답을 최종 답변으로 채택하는 방식이다. 이 기법은 LLM이 스스로 출력 결과를 평가하는 ‘자기 검증(self-verification)’ 개념을 이용해 더욱 신뢰성 높은 답변을 도출하도록 설계됐다.
이번 연구는 특히 샘플링 수와 검증 횟수를 조정하여 성능을 극대화할 수 있음을 보여주었다. 이를 통해 구글의 신형 모델인 제미니(Gemini) 1.5 Pro는 기존의 o1-Preview보다도 뛰어난 추론 능력을 발휘했다. 연구진은 “이 방법이 모델 검증 자동화를 위한 새로운 기준점으로 작용할 수 있을 것”이라고 전망했다.
다만 샘플링 기반 검색 방식은 많은 연산량을 요구한다는 점에서 비용 문제가 발생할 수 있다. 예를 들어, 200개의 샘플을 생성하고 각 샘플당 50회 검증을 수행하면 약 1억 3,000만 개의 토큰을 생성하게 되며, 이는 제미니 1.5 Pro 기준으로 약 650달러(약 94만 원)의 비용이 든다. 이에 연구진은 비용을 절감하기 위해 제미니 1.5 Flash 같은 보다 저렴한 모델을 검증 과정에 활용하는 방안을 제안했으며, 이를 통해 비용을 12달러(약 1만 7,000원) 수준으로 낮출 수 있음을 입증했다.
이 연구는 AI 모델이 스스로 응답의 신뢰도를 평가하는 방식으로 개발될 가능성을 열어주는 중요한 진전으로 평가된다. 연구진은 “향후 자기 검증 기능이 더욱 정교해지면서 샘플링 기반 검색의 확장성이 크게 증가할 것”이라며, “이 방식이 향후 AI 연구와 실제 응용 분야에서 중요한 역할을 할 것”이라고 내다봤다.