결과를 만드는 것보다 고르는 눈이 희소해졌어요 — AI 시대 디자이너의 진짜 경쟁력

“프롬프트 잘 쓰는 법”을 익히고 나니까 오히려 더 큰 질문이 생겼어요. AI가 뽑아주는 결과물을 받아 든 다음, 무엇을 고르느냐가 더 어렵다는 거예요.

무슨 일이 있었나

AI 업계에서 요즘 “LLM-as-a-Judge”라는 흐름이 주목받고 있어요. AI가 만든 결과를 사람이 일일이 평가하는 건 너무 비싸고 느리니까, 다른 AI가 대신 판단하게 만드는 방식이에요. GPT-4 같은 모델이 사람 평가자와 85% 수준으로 의견이 일치하는데, 이는 사람끼리의 일치율(81%)보다 오히려 높은 수준이에요. (A Survey on LLM-as-a-Judge, arXiv)

이 흐름이 흥미로운 건, 모델 개발의 핵심 병목이 결국 “무엇이 더 좋은 결과인가”를 판단하는 능력이라는 걸 드러냈다는 거예요. 더 좋은 AI를 만들려면 더 좋은 평가자가 필요하거든요.

그래서 디자이너에겐 뭘 의미하나

제 생각엔 이 구조가 디자이너에게도 그대로 적용돼요.

AI로 시안 100개를 뽑는 건 이제 5분이면 해요. 병목은 그다음이에요. 100개 중에서 어떤 방향이 브랜드 톤에 맞고, 어떤 게 사용자 맥락에 어긋나고, 어떤 게 기술적으로 구현 가능한 범위인지를 가려내는 눈이요. 이건 AI가 아직 일관되게 잘 못 해요. 평가 기준 자체가 흔들리거든요.

경험 있는 디자이너는 “이 레이아웃이 이 맥락에서 왜 작동하는지”를 설명할 수 있어요. 그 설명 가능한 판단 기준이 지금 제일 희소한 거예요. 반대로 좋은 프롬프트를 쓰는 능력은 빠르게 평준화되고 있어요. 좋은 프롬프트 모음을 공유하는 곳은 이미 넘쳐나거든요.

물론 반대 시각도 있어요. “판단력은 결국 많이 만들어봐야 생긴다”는 거죠. 직접 만들어본 경험 없이 평가만 잘한다는 건 공허해요. 그래서 AI 시대에도 직접 손으로 만들어보는 시간은 유지해야 한다고 생각해요. 다만 무게중심은 이미 바뀌었어요. 만드는 데 쓰던 시간의 일부가 고르고 판단하는 데로 이동하고 있거든요.

지금 해볼 것

AI 결과물을 볼 때 “왜 이게 좋고 저게 나쁜지”를 한 줄로 써보세요. 판단을 언어화하는 게 평가 능력 훈련의 시작이에요.
내 취향과 기준을 짧은 문서 하나로 정리해보세요. “이런 톤은 우리 브랜드에 안 맞다”는 식으로요. 기준이 문서화되면 AI가 100개를 뽑아도 흔들리지 않아요.
같은 프롬프트로 나온 결과물 중 좋은 것과 나쁜 것을 골라, 둘의 차이를 말로 설명하는 연습을 해보세요. 설명이 안 되면 기준이 아직 언어화 안 된 거예요.

출처: A Survey on LLM-as-a-Judge (arXiv, 2024) / LLM-as-a-Judge in 2026 — DeepEval