LLM과 과학자는 동료가 될 수 있을까?

한눈에 보는 핵심요약
- LLM을 활용해 수학 난제를 풀어낸 FunSearch의 핵심 아이디어와 작동 방식을 소개합니다. - 해석 가능성 측면에서 FunSearch의 작동 방식이 유의미한 이유를 소개합니다. - FunSearch와 그 후

안녕하세요, 이번 호부터 새롭게 뉴스레터 에디터로 함께하게 된 에디터 영이입니다!

최근 과학기술정보통신부가 주최한 2026 AI Co-Scientist Challenge(AI 연구동료 경진대회)가 연구 현장을 뜨겁게 달구고 있습니다. 단순한 논문 작성을 넘어, AI가 직접 가설을 세우고 실험을 설계하는 AI 과학자 에이전트를 개발하라는 이 도전적인 과제에 수많은 연구팀이 몰렸다는 소식, 들으셨나요?

불과 몇 년 전만 해도 SF 영화 속 이야기 같았던 AI 동료 연구자가 이제 국가적 아젠다로 부상했다는 사실이 놀랍습니다. 도대체 AI가 어디까지 발전했기에, 우리는 이제 그들을 ‘도구’가 아닌 ‘동료’로 부르게 된 걸까요? 이 거대한 연구 흐름의 진원지를 파악하려면, 시계를 잠시 돌려 Google DeepMind가 던졌던 질문과 그 해답인 FunSearch를 들여다봐야 합니다.

매일 수많은 LLM 기반 탐색 연구들이 쏟아지는 가운데, 왜 굳이 2년 전의 FunSearch를 다시 주목해야 할까요? 여기에는 다른 모델들이 갖지 못한 FunSearch만의 가치가 숨어 있기 때문입니다.

LLM을 사용하여 수학 난제를 해결한 FunSearch

사용자가 문제 상황을 사전에 정의해 두면(Specification), FunSearch는 이를 자동으로 프롬프트 형태로 변환하여 LLM에 입력합니다. LLM이 생성한 코드는 평가되어 데이터베이스에 저장됩니다. 성능이 좋은 코드는 다음 탐색의 출발점이 되며 이 과정을 반복적으로 수행하여 최종 코드를 도출하게 됩니다. 출처: <Mathematical discoveries from program search with large language models> (Romera-Paredes et al., 2024)

FunSearch는 주어진 문제와 데이터가 있을 때, LLM이 직접 이 문제를 해결할 수 있는 새로운 코드(Program) 후보를 작성하고, 그 후보를 LLM이 관여하지 않는 정량적인 평가기(Evaluator)가 검증하는 구조로 이루어진 자동화 프레임워크입니다. LLM의 강력한 코드 생성 능력을 바탕으로 방대한 가설 탐색 공간을 빠르게 탐색하겠다는 아이디어가 돋보이죠.

FunSearch는 한 번 생성된 코드를 버리지 않고, 성능이 좋은 코드를 다음 탐색의 출발점으로 활용하는 구조를 갖고 있습니다. 이를 통해 LLM은 점점 더 나은 코드를 제안하도록 유도되며, 전체 탐색 과정은 여러 후보 코드가 경쟁하고 개선되는 진화적 탐색과 비슷한 흐름으로 진행됩니다.

💡진화적 탐색이란?

여러 후보 해법을 동시에 유지하면서, 성능이 좋은 해법을 중심으로 변형(돌연변이)하거나 해법끼리 조합(교차)하는 과정을 반복해 점점 더 나은 해법을 찾아가는 탐색 방식입니다. 생물의 진화 과정에서 착안한 방법이기 때문에 ‘진화적 탐색’이라고 불립니다.

</aside>

이러한 진화적 탐색 접근법은 기존의 ‘사람이 아이디어를 떠올리고, 실험을 수행하는 방식’과는 반대의 흐름입니다. 기존에는 연구자의 직관이 탐색 공간을 좁히는 데 결정적인 역할을 했다면, FunSearch에서는 LLM이 먼저 방대한 탐색 공간을 빠르게 훑으며 다양한 후보 가설을 제시하고, 인간 연구자는 그중 의미 있는 가설을 해석하고 일반화하는 역할을 맡게 됩니다.

실제로 Google DeepMind 팀은 FunSearch를 활용해 오랫동안 수학계의 난제로 여겨졌던 Cap Set 문제와 Online Bin Packing 문제에서 기존에 알려진 해법보다 더 나은 결과를 발견했습니다.

💡Cap Set 문제와 Online Bin Packing 문제

Cap Set이란 “각 좌표가 0, 1, 2 중 하나인 n차원 격자 공간에서 임의의 세 점을 선택했을 때 한 점이 나머지 두 점의 ‘중간’이 되는 구조를 이루지 않도록 선택된 점들의 집합”을 의미합니다. Cap Set 문제는 이 집합의 최대 크기를 구하는 문제입니다.

Bin Packing 문제는 크기가 다양한 품목을 같은 크기의 여러 상자(bin)에 나눠서 포장할 때, 상자의 개수를 최소화하는 문제입니다. Online Bin Packing 문제는 전체 품목의 크기를 미리 알 수 없고, 품목이 순차적으로 도착하는 즉시 바로 포장을 해야 한다는 차이가 있습니다.

</aside>

이러한 접근은 단순히 ‘수학 문제를 잘 풀었다’라는 성과를 넘어, 과학 연구의 방식 자체를 바꿀 가능성을 보여줍니다. 기존 연구에서는 연구자의 직관과 경험이 새로운 가설을 떠올리는 데 결정적인 역할을 했다면, 이제는 LLM이 방대한 탐색 공간을 빠르게 훑으며 사람이 미처 생각하지 못한 해법을 제시할 수 있게 된 것입니다. 특히 탐색 공간이 매우 넓고, 정답이 명확하지 않은 문제일수록 이러한 방식의 장점이 두드러집니다. 새로운 알고리즘 설계, 조합 최적화 문제, 실험 조건 탐색 등은 모두 시도해 볼 수 있는 경우의 수가 매우 크므로, 인간 연구자 혼자 감당하기에는 한계가 있는 영역이죠.

왜 FunSearch를 주목해야 하는가?

기존에도 LLM을 활용해 가설을 탐색하고자 하는 시도는 있었습니다. 하지만 많은 경우, 모델 내부의 복잡한 연산을 통해 ‘결괏값’만을 내놓거나, 그럴듯해 보이지만 검증이 어려운 텍스트를 생성하는 데 그치는 한계가 있었습니다. 과학자 입장에서는 왜 그런 결과가 나왔는지를 이해하기 어려운 블랙박스에 가까웠던 셈입니다.

FunSearch의 차별점은, 해법을 사람이 읽고 이해할 수 있는 코드 형태로 제안했다는 점에 있습니다. 이 코드는 단순한 실행 결과를 넘어 문제를 푸는 하나의 전략으로 해석될 수 있으며, 실제로 연구자들은 이를 바탕으로 새로운 통찰을 얻고 이론적 분석을 이어갈 수 있었습니다. 실제로 FunSearch의 후속 연구 중 하나인 Discovering Symbolic Cognitive Models from Human and Animal Behavior (Castro et al., 2025)에서는 사람, 쥐, 초파리의 행동 실험 데이터를 바탕으로 FunSearch를 실행했을 때, LLM을 추가로 학습시키지 않았음에도 불구하고 사전 학습된 지식을 바탕으로 인지과학에 적합한 변수명과 메커니즘을 스스로 제안할 수 있었다는 점을 발견합니다. 인지과학 분야에서는 단순히 예측 성능이 높은 모델을 찾는 것뿐만 아니라, 각 변수와 메커니즘이 실제 인지 과정과 어떻게 대응하는지를 해석할 수 있어야 한다는 점이 매우 중요하게 여겨집니다.

이러한 점에서 FunSearch는 LLM을 단순한 가설 생성기가 아니라, 인간 연구자가 해석하고 확장할 수 있는 아이디어를 제안하는 연구 파트너로 활용할 수 있음을 보여주었다고 평가할 수 있습니다.

설계 도면을 통째로 수정하는 AlphaEvolve

하지만 AI 분야의 시간은 인간의 시간보다 빠르게 흐릅니다. FunSearch가 등장한 지 어느덧 2년이 넘었으니까요. FunSearch는 Nature 발표 이후 학계에 큰 반향을 일으켰지만, 동시에 명확한 한계도 존재했습니다. 주어진 템플릿의 빈칸을 채우는 방식이었다는 점입니다. 인간이 미리 판을 짜두지 않으면, LLM이 실력을 발휘하기 어려웠던 것이죠.

AlphaEvolve는 LLM이 제안한 코드 수정 사항(diffs)을 평가하고 우수한 해법을 다시 학습하며 성능을 극대화합니다. 출처: <AlphaEvolve: A coding agent for scientific and algorithmic discovery> (Novikov et al., 2025)

Google DeepMind 팀은 이 한계를 뛰어넘기 위해 2025년 6월, 새로운 코딩 에이전트 AlphaEvolve를 세상에 내놓았습니다. AlphaEvolve는 단순히 빈칸을 채우는 수준을 넘어섰습니다. 이제 AI는 프로그램 코드 전체의 구조를 스스로 파악하고, 파일 전체를 통째로 생성하고 최적화합니다. 부분적인 수리가 아니라, 아예 새로운 설계를 제안하는 단계로 진화한 것입니다.

논문에 따르면, AlphaEvolve는 50개 이상의 다양한 수학/알고리즘 문제에서 기존 최고 기록보다 평균 20% 이상 향상된 성능을 보여주었습니다. 더 무서운 점은 이 기술이 이론에만 머물지 않는다는 것입니다. 구글은 이미 자사의 데이터센터와 핵심 인프라 최적화에 이 기술을 적용하고 있습니다. 과학적 발견을 넘어, 실제 산업 현장의 효율성까지 AI가 직접 끌어올리고 있는 것이죠. FunSearch가 쏘아 올린 공이 과학자를 넘어 엔지니어의 영역까지 혁신하고 있습니다.

LLM은 점점 더 많은 연구에 기여하고 있습니다. 물론, AI에게 연구의 전 과정을 온전히 맡기기에는 아직 이릅니다. 환각(Hallucination) 문제를 비롯해 여전히 해결해야 할 과제들이 남아있거든요. AI는 언제든 그럴듯한 거짓말을 할 수 있습니다. 따라서 LLM이 작성한 코드를 사람이 '읽을 수 있다'는 사실만으로 그 결과를 맹신해서는 안 됩니다. 그 코드가 오류 없는 진실인지, 과학적으로 정말 유의미한 가설인지 판단하기 위해서는 인간 연구자의 사후적인 해석과 검증이 반드시 뒤따라야 합니다.

하지만 분명한 것은, LLM이 인간 과학자보다 수십만 배 빠른 속도로 수많은 가설을 쏟아낼 수 있다는 점입니다. 이제 중요한 것은 ‘누가 더 빨리 아이디어를 내느냐’가 아닙니다. 쏟아지는 무수한 가설 속에서 어떤 것이 유의미한지 가려내고 그 속에 숨겨진 의미를 해석하는 일입니다. 그리고 이 통찰의 영역은, 여전히 인간 과학자의 손에 달려 있습니다.

앞으로의 과학 연구는 인간의 직관과 인공지능의 탐색 능력이 결합한 형태로 나아갈 것입니다. LLM은 과학자를 대체하는 경쟁자일까요, 아니면 우리를 더 강력한 과학자로 만들어줄 최고의 파트너일까요? 인간의 직관과 인공지능의 탐색이 맞물리는 거대한 변화의 흐름 속에서, 과학은 지금 새로운 방향으로 발전하고 있습니다.

#AI

deep daiv.

흥미로운 인공지능 세계를 소개합니다. 매주 금요일 한 편의 글을 소개합니다.

이 콘텐츠가 도움이 되셨나요?

이 글에 대한 의견을 남겨주세요!

서로의 생각을 공유할수록 인사이트가 커집니다.