딥마인드, xAI, TML 엔니지어 김성식님과 대화

전 Deepmind, xAI, TML(Thinking Machines Lab) 엔지니어 김성식 님과 대화를 나누었습니다. 김성식 님은 한국계 미국인이시고요. 최근 한국에 들어오셔서 직접 프론티어 랩에서 경험하신 것들을 허심탄회하게 나눠주셨습니다. 본사 프론티어 랩에서 직접 매니저로 일하는 분들이 많지는 않을 것 같아 귀한 자료가 될 것 같네요. 내용 오픈에 동의해주신 성식 님께 감사합니다.

일론은 옆에서 봐도 진짜다. xAI 일하는 방식도 개빡세다. 7일 내내 일하고, 하루 5-6시간 자고, 가장 바쁠 때는 일론과 거의 매일 팀 단위로 대면 미팅했다. 일론은 대면 미팅을 정말 좋아한다. 테슬라, 스페이스X에서도 그렇게 했다고 한다. 1년 2개월 하고 번아웃 올뻔 했다. 개빡세다.
모델이 모델을 학습시키는 단계가 임박했다. AI가 개발자를 대체할 수 있게 됐으니, 이제는 AI가 연구자까지 대체할 수 있는지가 요즘 업계의 실험 대상이다. 코딩 능력에 어느 정도의 research capability만 주어지면 모델이 스스로를 학습시킬 수 있지 않을까. 조금만 더 하면 될 것 같은 시그널이 보이고 있다.
코딩 정복은 매우 중요하다. 코딩 모델이 좋아질수록 모델 자가학습에 가까워진다. 그 단추가 채워지면 그 회사가 exponentially 따라잡는다. 일론이 다시 빡센 모드로 들어간 것도 어느 한 곳이(Anthropic) 그 라인에 가까워졌다는 판단 때문이라는 시각이 있다.
결국 compute과 데이터 싸움이다. 안에서 보면 요즘 연구가 그렇게 '엄청 inventive'하지는 않은 것 같다. compute을 어떻게 더 잘 활용할지, 좋은 데이터를 어떻게 더 많이 뽑을지의 문제. 본질이 그래서 펀딩과 인프라가 곧 경쟁력이 된다.
AGI의 정의가 사람마다 완전히 다르다. Sam Altman은 "경제적 가치 있는 거의 모든 직업을 대체할 수 있는 수준". Demis Hassabis는 "아인슈타인이 일반상대성 이론을 혼자 발명한 수준으로, 모든 분야 expert의 기준선을 달성하는 것". Yann LeCun은 "텍스트 없이 세상을 보고 배우는 World Model이 가능해야". 이게 다르면 회사가 푸시하는 방향도, AGI 도달 시점에 대한 자기 확신도 완전히 달라진다.
진보는 기획보다 우연이 만든다. Transformer를 만든 사람들도 그게 지금처럼 될 줄 몰랐다. OpenAI에서 어떤 실험을 켜놓고 끄는 걸 잊은 채 휴가를 갔다가 돌아와보니 reward curve가 확 좋아져 있었다는 일화도 있다. 그래서 한 방식만 푸시하기보다 여러 방식의 랩이 동시에 존재하는 게 진보에 더 건강하다는 시각이 있다.
스케일링은 log return이다. compute과 데이터를 linear하게 부어도 리턴은 log로 온다. 어디까지 부어야 의미 있는 점프가 나오는지, 그 변곡점이 어디인지는 아직 아무도 모른다.
AI는 격차를 줄이는 게 아니라 벌리는 기술이다. 사회의 lower half를 끌어올리는 게 아니라, 꼭대기에 있는 사람이 더 많은 토큰을 쓰고 더 좋은 모델을 쓴다. 토큰 사용량 자체가 power law를 따른다. 챗봇은 혼자서는 사용량이 한정적이지만, 에이전트로 회사를 돌리는 사람은 차원이 다르다. 결국 자본을 감당할 수 있는 사람만 진짜로 득을 본다.
진짜 능력은 에이전트에서 나온다. 챗GPT나 Gemini로 대화하는 게 (챗봇) 대중의 사용법이다. 안쪽에서는 에이전트의 능력을 최대치로 뽑아내는 실험을 한다. 같은 모델을 누가 어떻게 쓰느냐, 그 차이가 다음 5년 격차를 만든다.
Anthropic이 오픈소스를 안 하는 이유는 명확하다. 우리가 클로즈드로 제일 먼저 AGI에 도착해서, AI가 사람과 어떻게 교류하고 살아갈지를 우리가 정하겠다는 마인드. 어떻게 보면 위험한 발상일 수 있다.
프론티어 랩마다 일하는 방식이 완전히 다르다. xAI는 일론 영향으로 first principles + 엔지니어링 heavy. 제일 큰 데이터센터 짓고 그 위에서 데이터를 잘 뽑아내는 데만 집중해라로 task가 명확하게 떨어진다. 어떤 곳들은 좀 더 프리하게 시간을 투자해 연구하다 거기서 새 아키텍처가 나오기를 기대하는 스타일. 정답은 아직 없다. 그래서 다양한 랩이 다양한 방식으로 푸시하는 게 곧 진보의 동력이라는 얘기가 안쪽에서 자주 나온다.
AI를 만드는 사람도 똑같이 우울하다. 내가 AI 만들어서 나도 쓸모없어지고 모든 사람이 쓸모없어지면 그것도 좋은 결론 아닌 것을 모두가 알고 있다. 이게 업계에서 연구하는 사람들의 실존적 고민이다. 결국 어차피 누군가는 만들 거니까, 차라리 내가 안에서 좋은 쪽으로 이끌자. 이게 프론티어에 남아 있는 사람들의 자기 합리화이자 실제 동기아닐까.
엔지니어에게 필요한 스킬이 완전히 바뀌었다. 예전엔 한 분야의 깊이와 싱글스레드 집중력이었다. 이제는 여러 에이전트를 동시에 돌리고 관리하는 멀티태스킹. 깊이 파는 사람보다 병렬 시스템을 잘 구축하는 사람이 더 productive하다. 본인도 의식적으로 이쪽으로 스킬을 옮기고 있다.
AI로 삶의 질이 오히려 낮아졌다. 할 수 있는 건 많아졌는데, 다른 사람들은 나보다 더 잘할 것 같아서 조급함이 커졌다. 코딩 잘하는 게 그동안의 큰 어드밴티지였는데 이제 그것마저 어드밴티지가 아니다.
Bay Area의 치열함은 한국과 또 다른 종류다. 일 끝나고 쉬고 싶은데 옆 사람은 오늘 모델 이렇게 학습시켜볼까, 저렇게 해볼까 얘기만 한다. 매 순간이 어떻게 더 잘해질 수 있나, 더 올라갈 수 있나뿐이다. 한국 치열함이 Social Status를 implicit하게 자랑하는 치열함이라면, Bay는 다음 0.5%를 짜내는 일 자체에 대한 치열함. 종류는 다르지만 둘 다 사람을 갈아넣는다.
펀딩 스케일이 차원이 다르다. Stanford 1학년 2-3명이 시작한 회사가 500M 밸류에이션으로 펀딩 받는다(Standard Intelligence).
사람은 비합리적이라, 효율적이라고 다 옮기지 않는다. 그래서 먼저 잡아둔 프론트엔드의 관성이 생각보다 오래간다. 카카오톡이 기술이 압도적으로 좋아서 쓰는 게 아니라 그냥 다 쓰니까 쓰는 것처럼. 99%의 사람은 쓰던 걸 계속 쓴다. AI 시대에 사람들이 빨리 갈아탈 거라고 가정하고 투자하면 망한다는 게 본인 관찰이다.
한국 시장의 sweet spot은 AI PE다. Consulting은 iteration cycle이 너무 길고, FDE 모델은 데이터·on-prem·regulation 때문에 협업이 어렵다. 차라리 영업이익 좋은 회사를 사서 안에서 AI로 갈아끼우는 게 답이라는 결론. AI Top researcher들은 이런 일을 하기 싫어하고 PE 사람들은 expertise가 부족해서 그 갭이 비어 있다. 본인이 미국에서 같이 일하던 동료들과 실제로 고민하던 방향이다.

성식님이 궁금하신 분들은 아래 행사에서 만나뵐 수 있다고 합니다.