AI 도입의 다음 병목, 모델 성능보다 무서운 토큰 비용

티스토리 뷰

IT, AI News

AI 도입의 다음 병목, 모델 성능보다 무서운 토큰 비용

MKIT 2026. 6. 6. 11:56

지난 1년 동안 기업 AI 도입의 질문은 주로 이랬습니다.

"이 모델이 우리 일을 할 만큼 똑똑한가?"

그런데 2026년 들어 질문이 바뀌고 있습니다.

"이걸 전사적으로 쓰면 비용을 감당할 수 있는가?"

TechCrunch가 6월 5일 보도한 AI 비용 기사에는 꽤 현실적인 사례들이 나옵니다. Uber는 2026년 AI 코딩 예산을 4월까지 소진했고, Microsoft는 개발자에게 제공하던 Claude Code 라이선스를 회수했으며, Priceline에서는 Cursor 계약 갱신 비용이 기존보다 4~5배 높아졌다는 사례가 언급됐습니다.

AI가 안 좋아서 생긴 문제가 아닙니다. 오히려 많이 쓰기 시작했기 때문에 생긴 문제입니다.

토큰 가격은 내려가는데 왜 총비용은 오를까

AI 업계에서는 자주 "토큰당 가격이 내려가고 있다"고 말합니다. 맞는 말입니다. 모델은 더 효율적이 되고, 작은 모델도 좋아지고, 경쟁이 심해지면서 단가는 내려갑니다.

하지만 기업의 총비용은 단가만으로 결정되지 않습니다.

단가 x 사용량 = 실제 청구서

문제는 사용량입니다. AI가 단순 챗봇일 때는 사용자가 질문을 한 번 던지고 답변을 받는 정도였습니다. 하지만 에이전트가 되면 구조가 달라집니다.

예를 들어 개발자가 "이 버그 고쳐줘"라고 말하면 에이전트는 다음 일을 할 수 있습니다.

저장소 구조 읽기
관련 파일 검색
코드 수정
테스트 실행
실패 로그 분석
다시 수정
PR 설명 작성

사용자는 한 번 요청했지만, 내부적으로는 수십 번의 모델 호출과 도구 호출이 일어납니다. 문서 분석, 고객 상담, 회계 자동화, 데이터 리포팅도 비슷합니다.

그래서 토큰당 가격이 내려가도 전체 토큰 사용량이 더 빠르게 늘면 비용은 폭증합니다.

이제 필요한 건 AI FinOps

클라우드가 처음 확산될 때도 비슷한 일이 있었습니다. 서버를 쉽게 만들 수 있게 되자 기업들은 빠르게 클라우드를 도입했습니다. 하지만 몇 년 뒤 예상치 못한 청구서가 문제가 됐고, FinOps라는 비용 관리 문화가 생겼습니다.

AI에서도 같은 일이 벌어지고 있습니다.

Linux Foundation은 6월 3일 Tokenomics Foundation 출범 의향을 발표했습니다. 목표는 AI 인프라 경제, 토큰 소비, 비용 관리, 벤치마크, 표준을 다루는 것입니다. 쉽게 말해 "AI 토큰 비용을 클라우드 비용처럼 관리하자"는 흐름입니다.

앞으로 기업은 이런 질문을 해야 합니다.

어느 팀이 어떤 모델을 얼마나 쓰고 있는가?
자동화 한 건당 평균 토큰 비용은 얼마인가?
사람 업무 시간을 얼마나 줄였는가?
고성능 모델이 꼭 필요한 작업과 작은 모델로 충분한 작업은 무엇인가?
에이전트가 실패하면서 반복 호출하는 비용은 얼마나 되는가?

이 질문에 답하지 못하면 AI 도입은 생산성 혁신이 아니라 예산 누수가 될 수 있습니다.

국내 스타트업이 특히 조심해야 할 지점

한국 스타트업은 빠르게 AI 도구를 붙이는 데 익숙합니다. Cursor, Claude Code, Codex, Perplexity, ChatGPT, Gemini API를 섞어 쓰는 팀도 많습니다. 초기에는 비용이 작아 보입니다. 월 몇십 달러, 몇백 달러 수준이면 충분해 보이죠.

하지만 사용자가 붙고 자동화가 늘면 상황이 달라집니다.

특히 위험한 구조는 "AI가 사용자 요청마다 긴 컨텍스트를 다시 읽는 서비스"입니다. 예를 들어 사용자 문서 전체, 채팅 기록 전체, 코드베이스 일부를 매번 넣는 방식은 초기에 구현이 쉽지만 비용이 빠르게 커집니다.

또 하나는 "에이전트 루프"입니다. 에이전트가 실패할 때마다 다시 시도하고, 그 과정이 로그에 잘 남지 않으면 청구서가 나온 뒤에야 문제를 알게 됩니다.

AI 기능을 만들 때는 기능 명세서만큼 비용 명세서도 필요합니다.

실무적으로는 어떻게 관리해야 할까

첫 번째는 모델 라우팅입니다. 모든 작업에 최고급 모델을 쓰면 비용이 버티기 어렵습니다. 요약, 분류, 태깅, 간단한 검색 보조는 작은 모델로 보내고, 복잡한 추론이나 코드 수정에만 고성능 모델을 쓰는 식의 분리가 필요합니다.

두 번째는 컨텍스트 절약입니다. "많이 넣으면 잘하겠지"라는 방식은 비용과 품질 모두에서 비효율적일 수 있습니다. 검색 기반으로 필요한 문서만 넣고, 이전 대화도 요약해 압축해야 합니다.

세 번째는 사용자·팀·기능 단위 비용 대시보드입니다. 월말 총액만 보는 방식으로는 늦습니다. 어떤 기능이 비용을 만들고 있는지 실시간에 가깝게 봐야 합니다.

네 번째는 실패 비용 관리입니다. 에이전트가 몇 번까지 재시도할지, 언제 사람에게 넘길지, 어떤 로그를 남길지 정해야 합니다.

결론: AI 예산은 실험비가 아니라 운영비가 된다

AI 도입 초기에는 비용을 실험비로 봐도 괜찮았습니다. 몇 명이 써보고, 좋은지 확인하고, 생산성 향상을 체감하는 단계였기 때문입니다.

하지만 이제 AI는 운영비가 되고 있습니다.

고객 상담이 AI로 돌아가고, 개발자가 코딩 에이전트를 상시 사용하고, 마케팅 콘텐츠와 리포트가 AI로 만들어지면 토큰 비용은 매달 반복되는 핵심 지출이 됩니다.

AI를 잘 쓰는 회사는 단순히 최신 모델을 빨리 붙이는 회사가 아닙니다. 어떤 작업에 어떤 모델을 쓰고, 얼마를 쓰고, 어떤 성과가 나오는지 아는 회사입니다.

2026년의 AI 경쟁력은 프롬프트 실력만으로 정해지지 않습니다. 비용을 볼 수 있는 능력, 줄일 수 있는 구조, 통제할 수 있는 운영 체계가 함께 필요합니다.

참고:

저작자표시 비영리 변경금지 (새창열림)

공유하기 링크

페이스북
카카오스토리
트위터

최근에 올라온 글

최근에 달린 댓글

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

글 보관함

TAG more

Total

Today

Yesterday

MKtalk

티스토리 뷰