본문 바로가기
궁금증_정보/트렌드

제미나이_나노바나나 프로 후기 | AI 성능 비교 까지

by 보봉구 2025. 11. 30.

나노바나나2, 혹은 나노바나나 프로.

한국 시간으로, 이번 11월 20일에 정식 공개된 구글의 제미나이 이미지 생성 모델이다.

성능이 기존보다 월등히 좋아져 바로 구글의 주식까지 띄워주는 일이 일어나기도 했는데, 과연 얼마나 좋은지 다른 AI와 성능 비교도 해보자.

동시에 나노바나나가 자랑하는 [부분편집], [향상된 스크립트 인식], [레퍼런스 블렌딩], [일관성]이 얼마나 탁월한지 같이 살펴보자.

 

+모든 AI 서비스는 무료 구독 버전, 동일한 스크립트를 이용해 테스트를 진행했다.

다만, 무료 모델임에도 제한적 유료기능을 사용 가능한 경우, 해당 기능을 사용했다.

 

1. 부분 편집 성능 테스트

소스 사진 : 아래 카피바라 인형 사진

입력 스크립트: 정장을 입혀줘

부분 편집 테스트롤 도와줄 아주 훌륭한 친구. 내가 아르바이트를 하고있는 카페에 비치된 인형이다. 머리에 귤?을 하나 올리고 있는 귀여운 카피바라인데, AI를 활용하여 이 친구에게 옷을 입혀보겠다.

1-1. Chat GPT

꽤나 괜찮은 결과를 보내줬다. 인형의 전체적인 실루엣 범위를 파악하고, 그에 맞는 사이즈로 정장을 입혔다. 정장의 질감은, 실제 사람이 입는 정장처럼 매끈한 천의 질감이다.

머리와 팔 다리의 구분이 확실하게 이루어진 걸 보니, 인형의 구조를 아주 잘 파악한 모양이다. 그리고 알이 빠진 목걸이를 촘촘하게 채워주는 친절함까지.

다만 팔의 위치와 자세가 조금 바뀌고, 다리도 조금 길게 만들면서 뭔가 이상한 보라색 추리닝 바지를 입혔다. 바지만 아니었다면 마음에 드는 이미지가 되지 않았을까?

총평 : 성공적인 인형 구조 파악. 명확한 요구사항 충족. 다만 원본 사진의 구조에 약간의 수정이 이루어짐.

1-2. GROK

어... 뭐라 할 코멘트가 없다. 정장을 주긴 줬는데 머리 위로 던져버린 이미지와, 그냥 시원하게 바지를 벗어버린 카피바라를 만들었다. 아무리 무료 요금제라고 해도 이정도일 줄은 몰랐다. 그래도 같은 기준으로 평가를 하자면,

카피바라의 전체적인 윤곽을 파악하는 데 실패했다. 정장의 팔다리가 인형의 팔다리에 하나도 대응되지 않는다. 다만 인형이 차지하고 있는 공간 자체는 인식했는지, 호쾌하게 벗어버린 바지는 카피바라 밑에 잘 놓여있다. 고생 많았다 그록

총평 : 그래도 화성 갈 거니까! (유료 요금제는 좀 다르려나?)

 

1-3 나노바나나 프로

GPT와 마찬가지로 아주 괜찮은 결과다. 전체적인 색감과 디테일의 면을 반영하면 GPT보다 훌륭하기까지 하다. 정장의 모양새가 GPT보다 아주 디테일하고 명확하다. 더하여, 인형의 질감을 파악했는지 인형옷처럼 빳빳하면서도 구분감이 확실히 느껴지는 두툼한 천의 정장을 만들었다. 가슴팍에 단추와 넥타이, 그리고 목의 칼라 대칭까지 디테일적 요소는 가장 훌륭하다 보인다.

디테일 면에서 내가 가장 놀란 부분은, 바닥 스테인리스에 비치는 모습마저 수정해두었다는 것이다. 원본, GPT, 그록의 이미지를 보면 바닥에 비친 인형의 색인 갈색이 그대로 노출되어 있다. 그런데 나노바나나는 정장의 색과 발의 갈색 반사광이 명확히 구분되도록 자연스러운 수정을 이루어냈다. 심지어 팔 부분의 재봉선까지 그대로 보존한 채 정장의 슬리브가 감싸 눌린 털 모습까지 구현해냈다. 단순한 수정이 아닌, 주변 이미지 맥락을 파악했다는 의미인데, 정말 엄청난 디테일 발전을 보였다.

총평 : 가장 훌륭한 결과. 사소한 디테일은 물론, 주변 사물 상호작용 맥락까지 반영하는 데 성공했다. 원본을 보존하면서 요구한 부분만 수정하는 성능은 압도적이다.


-부분 편집 부문-

1등 : 나노바나나

2등 : Chat GPT

3등 : Grok


2. 스크립트 인식 성능 테스트

사용자가 입력한 스크립트를 정확히 파악하는 것은 대화형 인공지능의 핵심이라 할 수 있다. 이번 테스트는 같은 스크립트를 제시하고, 얼마나 요구사항을 충족했는지에 대해 비교해보겠다. 이미지 생성의 퀄리티는 기본으로 보장되어야하는 것이니 퀄리티 평가도 같이 해보자


입력 스크립트 :  실사같은 사진을 만들거야. 배경은 미국의 전형적인 방 구조. 1개의 퀸사이즈 침대와 1개의 소파베드가 있어. 퀸사이즈 침대 위에는 2명의 20대 동양인 남자가 몸을 반쯤 일으킨 채, 소파에 있는 사람을 쳐다보는 중이야. 침대에 있는 남자들의 표정은 졸음이 가득하면서도 의문이 넘치는 얼굴 표정으로 만들어. 소파베드 위에는 1명의 20대 동양인 남자가 있어. 스마트폰을 들고 놀란 표정으로 침대 방향을 바라보고 있어. 이미지의 시간대는 밤. 그러나 약한 조명이 켜져있는 넓은 방 안이야. 창 밖은 어두컴컴한 밤이라 무엇이 있는지 잘 보이지 않아. 실사풍 그림체로 만들어. 그림 속 풍경을 바라보는 시점은, 소파베드와 침대 사이에서 두 객체를 모두 시야에 담을 수 있는 위치로 해줘. 시야 각도는 아이레벨 뷰 상태로.


이번 테스트 결과는 하나의 사진에 몰아넣어 비교해보겠다. 

가장 위부터 시계방향으로 각각, 나노바나나, Chat GPT, Grok순이다.

사실 위 스크립트는 이 블로그 직전 포스팅에 사용되었던 ai 생성 이미지의 스크립트이다. 내가 상상하는 모습을 만들어내기 위해 최대한 디테일한 설명을 했는데, 이번 역시 나노바나나의 성능이 가장 압도적이었다. 하나하나 디테일을 살펴보겠다.

 

2-1 나노바나나

단순히 "침대 위에서 몸을 반쯤 일으킨 채" 로만 입력했는데, 내가 상상한 모습 그대로를 반영했다. 이불을 덮고, 벽에 등을 기대고 있다는 사항은 설명하지 않았는데도 구현하여 맥락에 맞게 이미지를 생성했다.

더하여, 졸린 표정, 시선 방향 등 세부적인 지시사항을 모두 충족하면서도 설명의 빈 공간을 알아서 채워나간 모습이 눈에 띈다. 넓게 전개된 소파베드의 형태까지 내 설명의 빈 공간을 최대한 자연스럽게 채운 모습이 돋보인다.

침대 옆 소품끼리의 구분감이 떨어지는 등의 하자가 있긴 하지만, 미국 스타일의 난방기, 다리 모양으로 튀어나온 이불의 모양 등 디테일이 돋보인다.

총평 : 스크립트를 모두 잘 따랐다. 소품 디테일 이상한 건 있지만, 내 처음 상상과 가장 흡사하다.

 

2-2 Chat GPT

이번 이미지도 내 스크립트를 꽤나 충실히 반영한 것으로 보인다. 설명의 빈 공간을 채워 만든 것(인물 자세, 카메라 앵글 등)이 내 상상과 다르긴 하지만, 이건 스크립트의 디테일 문제라고 할 수 있기 때문에 더 이상 논하지 않겠다.

졸린 표정과 인물의 나이대, 인종 등 모두 훌륭하게 구현되었다. 다만 디테일 면에서 명확하게 아쉬운 점이 있다. 침대 이불과, 매트리스 커버끼리의 구분감이 명확치 않다. 어디까지가 이불이고 어디까지가 매트 커버인지 인간이 보기에 약간의 어색한 점이 보인다.

스크립트를 따르지 않은 모습이 보여 아쉬움이 생긴다. 소파베드에 있는 사람이 침대 방향을 바라보도록 요구했는데, 그저 옆을 쳐다보는 놀란 표정으로만 구현되었다. 스크립트에, "눈을 마주친다"로 적었으면 달라졌을까 싶기도 하다. 그 외, 침대와 소파베드가 보이는 위치, 아이레벨 앵글 조명과 시간대 등등 내가 입력한 부분은 충실하게 반영했다.

총평 : 스크립트 충실도는 훌륭한 정도. 다만 몇몇 지시는 빠뜨리기도 하는 듯하다. 그림의 디테일은 아직 무언가 어색한 느낌.

 

2-3 GROK

음... 회초리를 들어야 할까. 아니면 무료 요금제의 한계일까. 스크립트를 반영한 것이라고는 "20대 동양인 남성 3명", "미국식 스타일의 방", "밤 시간대", "약한 조명"이 전부다. 침대 위에서 졸린 표정와 몸을 반쯤 일으켰다는 핵심 설명은 무시되었다. 왜 걸터 앉는 모습으로 바뀐 걸까. 좀 더 디테일한 설명이 필요했나 싶다.

디테일도 제일 아쉽다. 작은 사진이라 부각이 안 되었을 것 같은데, 일단 얼굴의 어느 한 구석은 뭉개져있다. 가운데 남자는 눈두덩이 위에 눈이 그려져 있고, 너무놀라 공포에 휩싸여 소리를 지르는 소파 위 남자의 얼굴도 골격이 무너져있다. 심지어 가운데 남자의 손은 고르디우스의 매듭마냥 흉악하게 묶여있다. 무슨 죄를 지었느냐...

총평 : 단순히 말해 마음에 안 든다. 지시사항이 잘 이루어지지 않았고, 설명의 공백을 채우는 자연스러움이 가장 떨어진다. 그림의 디테일이 무너진 것은 덤. 


- 스크립트 인식 부문 -

1등 : 나노바나나

2등 : Chat GPT

3등 : Grok


3. 레퍼런스 블렌딩

이번엔 AI에게 여러가지 레퍼런스(예시, 샘플)을 제시하고, 요구사항에 맞게 해당 레퍼런스를 얼마나 잘 활용하는지를 테스트해 보겠다.

개인적으로 해당 파트를 테스트하면서 가장 많이 놀랐다. 

이번에도 GPT, 그록, 나노바나나 순으로 진행하겠다.

레퍼런스 이미지 :

책상, 데스크매트, 빈 방 사진, 의자, 모니터, 마우스, 러그, 해바라기 그림, 키보드. 이미지는 판매 쇼핑몰 이미지와 구글 검색으로 획득

3-1 GPT

GPT는 한 번에 입력할 수 있는 레퍼런스 이미지가 최대 3개이기 때문에, 방과 책상 의자만 선택하여 제시했다. 그랬더니 요구하지도 않았던 소파를 하나 갖다주었다. 방이 너무 허전해 보였나 보다.

그리고 이전 채팅에 영향을 받은 듯하다. 레퍼런스로 주어진 방의 사진은 환한 낮인 반면, 창 밖으로 보이는 시간대는 밤으로 바뀌었다. 조명도 다소 은은해진 모습을 볼 수 있다. 아마 소파도 이전 채팅의 영향으로 배치해준 듯하다.

1회당 최대 입력 가능 레퍼런스 개수는 그렇다 치고, 전체적인 완성도는 나쁘지 않다. 제시한 소품과 배경이 모두 잘 배치되었다.

총평 : 한 번에 입력할 수 있는 레퍼런스가 3개뿐인 건 아쉬운 요소. 하지만 요구사항은 잘 따랐다.

3-2 GROK

음... 다시 한 번 말하지만 무료 버전을 사용했기에 유료 버전은 다를지도 모른다. 그록 4.1 제한된 이용을 했지만 뭐...

내가 입력한 모든 레퍼런스가 개무시되었다. 반영된 것은 빈 방 사진의 색감 정도일까. 책상도 의자도 기타 소품도 반영된 흔적을 찾아볼 수가 없다. 그냥 "인테리어 이미지"에만 꽂혀서 만들어버린 게 아닐까?

퀄리티는 좋은데 자기 멋대로 만들었다. CEO를 닮은 AI인가

총평 : 화성... 가야겠지

 

3-3 나노바나나

진짜 너무너무너무 신기하고 대단하다. 내가 입력한 소품들이 모두 정확하게 반영되었다. 심지어 배치를 지정해주지 않고, "조화롭게"라는 두루뭉술한 표현으로 지시했음에도 각 소품의 용도를 명확히 파악하여 배치했다. 심지어 의자 이미지의 뒷 부분은 제시되지도 않았는데, 자연스러운 후면을 생성하여 "조화로운" 소품 배치 구도를 형성했다.

심지어 데스크 매트는, 데스크 매트라고 알려주지도 않았는데도 키보드 밑에 잘 갖다놨다. 디테일을 뜯어볼 수록 어안이 벙벙해진다. 가장 실사에 가까운 질감은 덤이다.

GPT의 경우 커튼이나 책상 등이 플라스틱으로 만든 것처럼 지나치게 매끈하고 단단한 질감을 보여주는 반면, 나노바나나는 원본 레퍼런스의 질감을 그대로 유지하며 반영했다.

게다가 GPT의 경우와 같이, 3명의 남자가 있는 한 밤중의 방 사진을 생성한 채팅방에서 레퍼런스를 제시했음에도 이전 채팅의 영향을 받은 흔적은 찾을 수 없다.

더하여 나노바나나는 한 번에 최대 14개의 레퍼런스 이미지를 인식할 수 있다. 3개로 제한된  GPT와 그냥 개무시한 GROK에 비하면 훌륭한 성능이다.

총평 : 레퍼런스 이미지 원본을 유지하면서 소품의 용도에 맞게 가장 잘 배치한 모습이다. 소품의 용도를 알려주지 않았음에도, 모두 제 위치에 배치했다. 맥락을 파악하는 데 강점이 보인다.


- 레퍼런스 블렌딩 부문 -

1등 : 나노바나나

2등 : Chat GPT

3등 : Grok


4. 일관성

여러 기능을 비교하며 테스트했지만, 마지막으로 언급하고 싶은 건 [일관성]이다. 해당 부분은 1번과 3번 테스트로 충분히 검증이 되었다고 생각이 되어 독립적인 항목으로 만들지는 않았지만 분명히 짚고 넘어가야할 요소이다.

기존 AI가 생성한 이미지에 추가적인 코멘트를 가하며 수정을 요구하면 AI는 이미지를 말 그대로 "새로"생성해 준다. GPT와 그록의 경우엔 "재생성" 흔적이 강하게 드러난다.

나노바나나의 경우 꽤나 자연스러운 모습을 보여준다.

카피바라 인형의 경우를 보면, 카피바라의 몸 자세와 제봉선, 전체적인 털의 질감이 모두 유지되는 선에서 수정이 가해졌다. GPT는 팔의 제봉선을 지워버리고 더 긴 다리를 "생성"해버린 반면 나노바나나는 기존의 인형 구조를 그대로 유지하면서 맥락에 맞는 수정을 가했다.

방 만들기도 마찬가지다. 레퍼런스의 이미지는 고정된 각도의 사진일 뿐이다. 나노바나나는 해당 레퍼런스 이미지의 특징을 파악하여 각 항목들이 최대한 잘 상호작용하는 모습으로 배치했다. 그러면서도 원본의 모습은 훼손되지 않았다.

의자의 뒷모습이나 책상, 모니터, 데스크매트의 경우에서 그것이 잘 드러난다. 심지어 의자는 등받이 부분이 매쉬로 이루어져 있어, 뒷 부분 프레임이 살짝 비치는데, 해당 프레임 모양을 그대로 구현하는 데 성공했다.

 

총정리


- 이미지 생성 종합 성능-

1등 : 나노바나나

2등 : Chat GPT

3등 : Grok


AI의 성능을 이미지 생성 하나로만 단정지을 수는 없지만, 적어도 이미지 생성 측면에서는 구글의 나노바나나가 압도적인 성능을 보인다.

레퍼런스 이미지를 보존하면서 그 특징을 파악하는 것이 아주 탁월하다. 카피바라 인형도, 방 만들기에 쓰인 레퍼런스도 모두 원본을 훼손하지 않는 선에서 가장 자연스러운 수정을 가했다. AI 생성 이미지 특유의 기괴한 투시와 어색한 신체 묘사 또한 최소화되어 있다.

심지어 레퍼런스의 훼손이 최소화되어 사용자가 처음 의도한 느낌을 해치지 않는다는 점이 놀랍다. 생김새, 질감 모든 특징 "일관적"으로 유지하는 성능이 돋보인다.

이 정도 성능이라면, 나노바나나가 만든 이미지는 상업적으로 사용해도 이질감이 없는 수준임이 분명하다.

 

 

-읽을거리-

2025.11.12 - [궁금증_정보] - 포모_FOMO의 본질 | 생존 본능이 만들어낸 불안감

2025.06.11 - [궁금증_정보/트렌드] - 요즘은 말차가 유행이라며? | 건강 태그의 연속

2025.04.08 - [궁금증_정보/트렌드] - 지브리 이미지 생성 열풍 | 이게 대체 왜 인기야?

댓글