출처: 토큰포스트
구글이 멀티모달 AI 모델 ‘제미니 2.0 플래시’에 네이티브 이미지 생성 기능을 추가하며 AI 이미지 생성 분야에서 한 걸음 더 나아갔다. 이 기능은 구글 AI 스튜디오 사용자는 물론 개발자들이 제미니 API를 통해 무료로 이용할 수 있도록 공개됐다.
기존 AI 이미지 생성 모델은 대개 ‘확산 모델(Diffusion Model)’을 기반으로 텍스트 입력을 해석하는 대형 언어 모델(LLM)과 결합하는 방식이었다. 그러나 제미니 2.0 플래시는 텍스트 입력과 이미지 생성을 하나의 모델에서 처리하면서 더욱 정교하고 빠른 결과를 제공할 수 있다. 이에 따라 사용자가 원하는 스타일과 내용을 보다 정확하게 반영할 수 있을 것으로 기대된다.
이번 업데이트에는 ▲텍스트와 이미지가 결합된 스토리텔링 ▲대화형 이미지 편집 ▲세계 지식을 반영한 고품질 이미지 생성 ▲향상된 텍스트 렌더링 등의 기능이 포함됐다. 예를 들어, 사용자는 생성된 이미지에 대해 “이 컵케이크에 초콜릿 드리즐을 추가해줘”라고 입력하면 몇 초 만에 변경된 이미지를 받아볼 수 있다. 이는 텍스트 입력을 통해 점진적으로 이미지를 수정할 수 있도록 지원하는, AI 이미지 생성 기술에서 중요한 발전이다.
초기 사용자의 반응도 긍정적이다. 구글 딥마인드 연구원 로버트 리아치는 픽셀 아트 스타일의 이미지를 생성한 후 동일한 스타일을 유지하면서 추가 이미지들을 제작할 수 있음을 보여줬다. 전직 구글 소속이었던 AI 전문가 빌라왈 시두는 흑백 이미지를 컬러로 변환하는 기능을 시연하며, 향후 역사적 사진 복원 같은 응용 가능성을 언급했다.
이번 발표는 AI 이미지 생성 시장에서 구글의 주도권을 더욱 강화하는 계기가 될 전망이다. 오픈AI는 지난해 5월 ‘GPT-4o’에서 네이티브 이미지 생성 기능을 프리뷰했으나, 아직까지 대중에게 공개하지 않았다. 이에 따라 구글이 업계 최초로 멀티모달 모델 내부에서 직접 이미지를 생성하는 AI 기능을 본격적으로 선보이며 차별화를 시도한 것으로 분석된다.
개발자들은 이제 제미니 API를 활용해 AI 기반 디자인 보조 도구, 자동화된 콘텐츠 생성 앱, 대화형 이미지 편집 기능을 갖춘 서비스 등을 구축할 수 있다. 특히 마케팅과 소셜 미디어에서 시각적 콘텐츠 제작의 자동화를 이끌어낼 가능성이 크다는 평가다. AI 모델이 단순히 이미지를 생성하는 데 그치지 않고, 실시간 피드백을 반영해 점진적으로 편집할 수 있는 점이 핵심적인 차별화 포인트로 작용하고 있다.
구글의 이번 행보는 기업 및 일반 사용자를 위한 AI 활용도를 더욱 확대하는 데 기여할 것으로 보인다. 향후 경쟁사들도 유사한 기능을 제공하기 위해 속도를 낼 가능성이 높은 가운데, AI 이미지 생성 기술의 발전과 상업적 활용이 어떻게 이어질지 업계의 관심이 집중되고 있다.