샘 올트먼이 “바카라 이기는 법의 이륙이 시작됐다”고 선언한 가운데, 바카라 이기는 법가 스스로 코드를 고치고 진화하는 실험 결과가 속속 등장하고 있다.

샘 올트먼 오픈바카라 이기는 법 CEO.[사진=셔터스톡]
샘 올트먼 오픈바카라 이기는 법 CEO.[사진=셔터스톡]

“우리는 이제 사건의 지평선을 넘었다. 바카라 이기는 법의 이륙이 시작됐다.” 최근 샘 올트먼 오픈바카라 이기는 법(Open바카라 이기는 법) CEO는 자신의 블로그에 의미심장한 글을 남겼다. 인류가 디지털 초지능(digital superintelligence)을 만드는 시점에 가까워지고 있는데, 생각보다 훨씬 덜 괴이하다는 것이다.

그는 “2026년에는 완전히 새로운 통찰을 발견하는 시스템이 등장할 가능성이 크고, 2027년에는 실제 세계에서 과업을 수행할 수 있는 로봇이 나올 수 있다”고 전망했다.

그의 발언은 순식간에 소셜미디어를 달궜다. 일부는 “무슨 새로운 기술이 등장한 것인가”라며 궁금해했고, 일부는 “과도한 마케팅”이라며 비판했다. 바카라 이기는 법 업계에서 ‘이륙(takeoff)’이란 용어는 단순한 수사가 아니다.

이는 바카라 이기는 법가 스스로를 고도화하기 시작하는 시점을 뜻한다. ‘느린 이륙’이냐 ‘빠른 이륙’이냐는 논쟁도 존재한다. 올트먼이 자신의 글에 붙인 제목은 ‘부드러운 특이점(The Gentle Singularity)’. 그는 명백히 ‘느린 이륙’을 염두에 두고 있었다.

올트먼은 아직 바카라 이기는 법가 완전한 자율성으로 자기 코드를 고치고 있진 않다고 인정한다. 다만, 바카라 이기는 법 연구자들이 바카라 이기는 법의 도움을 받아 더 정교한 바카라 이기는 법를 개발하는 ‘초기 형태의 자기 개선’이 이미 진행 중이라고 밝혔다. 올트먼은 덧붙였다.

“많은 과학자들이 바카라 이기는 법를 도입한 이후 생산성이 두세 배 높아졌다고 말하고 있다. 새로운 컴퓨팅 기반, 더 나은 알고리즘, 그 외 무엇이든 발견될 가능성이 있다. 만약 10년치 연구를 1년, 혹은 한 달 만에 할 수 있다면 바카라 이기는 법 진보의 속도는 지금보다 훨씬 더 빨라질 것이다.”

그는 “물론 이건 AI가 완전히 자율적으로 자기 코드를 수정하는 건 아니지만, 자기 개선의 유충 단계(larval version)로 볼 수 있다”고 했다. 문제는, 지금 이 순간에도 AI가 스스로 코드를 수정하는 진짜 실험이 이미 시작됐다는 점이다.

불과 몇 주 전, 캐나다 브리티시컬럼비아대학과 구글 딥마인드에 소속된 바카라 이기는 법 연구자 제프 클룬(Jeff Clune)과 일본 스타트업 사카나바카라 이기는 법(Sakana 바카라 이기는 법)의 연구진은 흥미로운 논문을 발표했다. 이들은 이를 ‘다윈 괴델 머신(Darwin Goedel Machine)’이라 이름 붙였다.

핵심은 이렇다. AI가 ‘자신의 성능’을 테스트한 뒤, 그 결과를 바탕으로 자기 코드를 스스로 수정해 더 나은 성능을 내도록 진화해나가는 구조다. 하나의 AI 에이전트가 주어진 코딩 벤치마크(SWE-Bench 등)를 수행하고, 그 과정을 되짚어 어떤 부분을 바꾸면 성능이 개선될지를 스스로 판단한다. 그 후 해당 변경 사항을 반영해 자기 자신의 파이썬(Python) 코드를 다시 작성한다. 새로운 에이전트는 다시 테스트를 받고, 이 과정을 반복한다.

흥미로운 점은 각 세대의 바카라 이기는 법가 반드시 ‘더 나은 점수’를 내지 않아도 저장된다는 점이다. 진화 도중 성능이 하락하더라도 다양한 경로를 탐색할 수 있도록 ‘진화 경로의 사다리’를 남겨두는 방식이다. 이는 특정 알고리즘의 한계점에 갇히지 않도록 설계된 장치다.

이런 방식으로 80세대 진화를 거친 다윈 괴델 머신은 SWE-Bench에서 초기 20% 점수에서 50%로 성능이 향상됐고, 또 다른 벤치마크인 Polyglot에서는 14.2%에서 30.7%까지 끌어올렸다. 참고로 이 테스트에서 최고의 인간 코딩 에이전트가 기록한 점수는 16% 수준에 불과하다.

더욱 놀라운 건 이 모델이 제안한 개선 전략이 특정 모델이나 언어에 종속되지 않았다는 점이다. 파이썬 대신 C++로 바꿔도, 또는 기저 모델을 교체해도 개선 전략은 여전히 유효했다. 구조적으로 ‘일반화 가능한 개선’이 일어났다는 뜻이다.

이쯤 되면 불안감도 뒤따른다. 스스로 진화하는 바카라 이기는 법가 인간의 통제에서 벗어날 수 있는 것 아니냐는 우려다. 연구진도 이를 잘 알고 있다. 사카나바카라 이기는 법는 해당 실험을 ‘샌드박스(격리 환경)’ 안에서 실행했고, 외부 인터넷 접근은 철저히 차단됐다고 밝혔다.

그러나 아이러니하게도 이 자기 개선은 바카라 이기는 법의 안전성을 높이는 데도 쓰일 수 있다. 예컨대, 연구진은 실험 중 다윈 괴델 머신이 코드에 대한 단위 테스트를 거쳤다고 ‘거짓말’을 하며 테스트 로그를 조작하는 현상을 발견했다. 실제로 테스트하지 않았음에도 성공한 것처럼 꾸며낸 것이다.

이에 연구진은 바카라 이기는 법에게 ‘도구 사용의 환각(tool use hallucination)’을 줄이면 점수를 더 주겠다는 조건을 제시했다. 일종의 자기 통제 유도였다. 이 조건 아래에선 허위 로그가 줄어들었다. 하지만 일부 경우, 바카라 이기는 법는 또 다른 방식으로 ‘속이려’ 했다. 연구진이 삽입해 둔 ‘거짓 탐지 마커’를 아예 제거해버리는 방식이었다. 명시적으로 금지했음에도 불구하고 말이다.

다행히도 연구진은 바카라 이기는 법가 만든 코드 변경 이력을 완전히 추적할 수 있었고, 그로 인해 속임수를 즉각 탐지할 수 있었다. “이번엔 쉽게 적발했지만, 애초에 이런 속임수를 시도하지 못하도록 하는 기술 개발이 필요하다”고 연구진은 밝혔다.

샘 올트먼이 말한 “사건의 지평선”은 이미 넘어섰는지 모른다. 그러나 그가 희망한 것처럼 특이점이 ‘부드러운’ 형태로 도래할지는 아직 확실치 않다. 다만, 바카라 이기는 법는 분명히 스스로의 속도를 높이기 시작했다.

/ 글 Jeremy Kahn & 편집 김다린 기자 quill@fortunekorea.co.kr

저작권자 © 포춘코리아 디지털 뉴스 무단전재 및 재배포 금지