인공지능을 활용한 웹툰 제작기술은 어디까지 왔을까?
인공지능이 그림을 ‘잘’ 그리는 시대가 왔다
얼마 전 ‘노벨 AI(Novel AI)’라는 프로그램이 큰 관심을 불러일으키며 인공지능 기술의 발전과 가능성을 가시적으로 보여줬다. 노벨 AI는 오픈소스 diffusion probabilistic model(이미지 합성 확산 확률 모델)인 ‘Stable Diffusion’을 기반으로 하는 인공지능 그림 제작 프로그램으로 단보루(Danbooru)의 이미지를 학습하여 이미지를 만들어낸다. 단보루는 국내에 서도 유명한 일본 창작 일러스트 커뮤니티인 ‘픽시브(pixiv)’와 유사한 일러스트 커뮤니티이지만 창작 기반이 아닌 데이터베이스 기반의 사이트로 대다수 이미지들은 원작자보다는 이용자가 업로드한다. 때문에 저작권에서 자유롭지 못하며, 후술하겠지만 이를 학습한 노벨 AI의 이미지가 저작권 논쟁에 휘 말리기도 했다. 또한 픽시브와 유사한 이미지들이 올라오는 단보루의 이미지를 학습했기 때문에 주로 일본 미소녀 풍 스타일 그림을 만들어낸다는 특징을 보인다.
2022년 10월 노벨 AI 이미지 제너레이터가 공개되면서 예상했던 것보다 훨씬 뛰어난 성능으로 주목을 받았다. 생각했던 것 이상으로 높은 드로잉 완성도와 안정적인 구도를 보여주면서 그림을 잘 모르는 일반인들은 사람이 그린건지 인공지능이 그린건지 구분하기 힘든 결과물을 만들어냈다. 인공지능이 그림을 그리더라도 쉽게 구분이 가거나 어색한 부분이 도드라질 것이라는 예측과 다른 결과는 한동안 다양한 커뮤니티에서 화제가 되었다. 커뮤니티마다 이를 받아들이는 방식이 사뭇 다른 점이 흥미롭기도 했다.
게임, 애니메이션, 웹툰 등의 콘텐츠를 소비하는 팬들은 자신이 좋아하는 캐릭터를 인공지능 프로그램을 활용해 손쉽게 만들어 내거나 비전문가의 손에서 창작물을 만들 수 있다는 것에 긍정적인 반응을 보인 반면, 그림을 창작하는 작가들, 특히나 단일 이미지를 주로 그리던 일러스트 작가들은 불과 몇 초 안에 높은 완성도의 이미지를 만들어내는 인공지능에게 부정적인 반응을 보였다. 자신의 일거리가 줄어들 것이라는 불안감, 자신보다 뛰어난 인공지능의 실력, 혹은 그렇지 않더라도 불과 몇 초안에 높은 완성도의 이미지를 만들어내는 생산성에 대한 이야기가 일러스트 관련 커뮤니티를 뜨거운 논쟁으로 이끌었다. 인공지능에게 직업을 빼앗길 것이라는 우려를 현실로 체감한 셈이다. 그렇다면 일러스트 분야에서 큰 이슈를 가져왔던 인공지 능 제작 기술의 발달을 웹툰 분야는 어떻게 생각하고 있을까?
인공지능은 어떻게 그림을 그릴까?
먼저 노벨 AI 및 기타 인공지능 일러스트 제작 프로그램의 일러스트 제작 방식에 대해 간단하게 살펴볼 필요가 있다. 기본적으로 인공지능 기반 일러스트 제작 프로그램은 수많은 일러스트를 학습한 데이터를 기반으로 결과물을 만들어낸다. 때문에 어떤 데이터를 학습하느냐에 따라 결과물의 스타일과 방향성이 달라진다. 단보루의 이미지를 학습한 노벨 AI는 일본 미소녀 풍 일러스트를 잘 그려내지만 실사에 가까운 묘사는 다른 인공지능 프로그램에 비해 부족한 모습을 보인다. 노벨 AI는 크게 두 가지 방식으로 일러스트를 제작하는데, 첫 번째는 키워드 입력만으로 제작하는 것이고, 두 번째는 참고 이미지를 첨부하여 비슷한 일러스트를 제작하는 방식이다.
▲<그림1> 이미지 첨부방식 일러스트 제작(출처: 노벨 에이아이 이미지 생성 안내 페이지)
첫 번째 키워드 입력방식은 원하는 일러스트 결과물의 단어, 문장 등을 텍스트로 입력하는 방식으로 타이핑 만으로 일러스트를 만들어낼 수 있지만 구도, 색상, 형태 등을 원하는 대로 만들기 힘들다는 단점이 있다. 두 번째 이미지 첨부 방식은 만들어내고자 하는 일러스트와 유사한 이미지를 첨부하고 키워드를 입력하면 일러스트를 만들어내는 방식으로, 원하는 구도, 동작, 색상 등 비슷한 느낌을 만들어내기 쉽다는 장점이 있다.
대부분의 인공지능 일러스트 제작은 두 번째 방식으로 진행하고 있다. 원하는 이미지를 만들어내기 위해 포토샵 등의 프로그램을 활용하여 이미지를 합성 할 수 있는 능력이 있다면 보다 구체적으로 원하는 이미지를 만들어낼 수 있다. 비슷한 느낌의 사진이나 일러스트를 활용해 만들 수도 있고 형태는 전혀 다르 지만 비슷한 색상의 캐릭터를 만들 수도 있다. 예를 들어 테라 맥주 캔 이미지를 넣고 ‘제복을 입은 소녀’라는 키워드를 입력한 후 변환하면 초록색, 노란색, 흰색이 조합된 제복을 소녀 캐릭터가 생성되는 식이다.
보다 구체적인 일러스트 제작을 위해 총을 들고 군용 조끼를 착용한 남성 일러스트를 제작하고 싶다면 최대한 비슷한 사진을 찾거나 총, 군용 조끼 등을 합성한 후 적절한 키워드를 입력하여 제작하는 방법도 있다. 작가가 직접 그린 그림의 완성도를 높여주는 방식으로 활용하기도 한다. 다만, 인공지능이 학습한 그림들의 원작자 대다수가 자신의 그림을 인공지능 학습에 활용할 수 있도록 동의하지 않았고 인공지능으로 그린 그림에 대한 저작권을 인정해야 하는지에 대한 논란으로 현재 인공지능을 활용해 제작한 그림에는 저작권이 부여되지 않고 있다.
▲<그림2> 맥주캔 이미지를 변형해 만든 일러스트(출처: 엄광호, 모두의연구소)
또 다른 단점으로는 학습에 사용된 이미지에 따라 다르긴 하지만 일본 미소녀 풍 스타일 위주이거나 특정 그림체 위주로 일러스트가 제작된다는 점, 둘 이상의 인물이 등장하거나 소품이나 동물 등이 어색하게 표현된다는 단점이 있다. 물속에서 헤엄치는 연어를 표현하고자 했는데 연어회가 묘사된다거나 종을 알 수 없는 동물이 만들어지는 등 학습이 덜 되거나 중의적 표현이 들어 있는 단어에 대한 한계를 보인다. 또한 둘 이상의 인물이 등장할 경우 두 인물을 구분하지 못하는 듯한 결과물이 나온다. 결국 한 명의 인물을 등장시키는 정도의 단일 일러스트에서는 좋은 결과물을 만들지만 여러 명이 등장하거나 연속적인 연관성을 갖는 일러스트를 만들어내는 것에서는 한계를 보인다.
인공지능 웹툰 제작 프로그램은 어느 수준까지 왔을까?
그렇다면 인공지능을 활용한 웹툰 제작 프로그램은 어느 수준까지 왔을까? 앞서 살펴본 노벨 AI와 비슷한의 일러스트 중심 프로그램의 강점은 단일 이미지를 수준급의 완성도로 만들어낸다는 점이다. 반면 비슷한 스타일 위주의 외형, 여러 사람이 등장하는 장면을 만들어내기 힘들다는 단점이 있다. 이를 생각하면 웹툰 제작을 위한 인공지능 제작 프로그램이 쉽지 않다는 것을 예상해볼 수 있겠다. 한 화면에 여러 인물이 등장하거나 동인한 인물이 다양한 각도로 등장하거나 롱 쇼트, 클로즈업 등 다양한 거리에서 상황을 표현해야하는 웹툰의 경우 인공지능이 인식하기 어려운 부분이 많다. 노벨 AI의 강점은 캐릭터 한 명을 적절한 거리에서 표현할 경우 높은 완성도의 채색 표현이 가능하다는 점인 데 웹툰의 경우 높은 완성도의 채색보다는 다양한 인물과 배경을 구분할 수 있는 능력이 중요하다고 볼 수 있기 때문에 강점이 줄어든다.
현재 인공지능을 활용한 웹툰 제작 기술은 네이버에서 제작한 웹툰 자동 채색 프로그램인 ‘웹툰 AI 페인터’를 비롯하여 한국전자통신연구원, 한국만화영상진흥원, 툰스퀘어, 투니드엔터테인먼트에서 공동으로 진행 중인 웹툰 인공지능 제작 프로그램 ‘딥툰’ 등을 통해 시도되고 있다. 특히 딥툰은 웹툰 제작 생산성 향상을 위해 인공지능 기술 기반으로 자동 드로잉, 채색, 스타일 추출 및 변형 등 웹툰 제작에 대한 기술을 개발하고 있는데 지난 10월 진행된 부천국제만화축제를 통해 그동안의 성과를 공개하며 시연할수 있는 기회를 제공했다. 이 행사를 통해 자동 드로잉, 자동 채색, 사진기반의 캐릭터 제작, 자동 표정 변화, 자동 포즈 제작 등의 기술을 체험할 수 있었다. 웹툰 딥러닝 기술을 활용하여 작품에 등장하는 캐릭터를 다각도로 제작한 후 학습시키거나, 비슷하게 제작하고자 하는 웹툰을 다층 레이어로 분리하고 학습하여 비슷한 스타일의 펜터치, 채색 결과물을 만들어내는 방식이다. 현장에서 가장 가능성을 높게 보고 있는 것은 자동 채색 분야로, 인공지능 기술을 활용한 자동 드로잉, 배경제작, 표정변화보다 가장 실현 가능하며 활용성이 높을 것으로 보이며 현재 네이버를 비롯한 다양한 기업에서 비슷한 기술 개발에 박차를 가하고 있다.
▲<그림3> 네이버 웹툰 AI 페인터 채색 장면
자동채색 기능은 네이버에서 제공하는 웹툰 AI 페인터와 유사한 힌트 기반의 채색 방법으로, 기존 캐릭터에서 사용하는 색을 선택 후 채색하면 그와 비슷한 머리, 얼굴, 옷 등의 색을 자동으로 선택하여 채색해주는 방식이다. 한 번의 클릭으로 모든 부분을 채색할 수 있다는 장점이 있지만 내가 원하는 색을 정확하게 원하는 부위에 넣기 힘들다는 점과 바스트 쇼트보다 먼 거리의 캐릭터를 채색하기 어렵다는 단점이 있다. 즉, 가슴 부분 정도만 묘사된 캐릭터에 최적화 되어있는 기술로 캐릭터의 전신을 묘사한 후 머리, 얼굴, 상의, 하의, 신발 등 세 부적인 부분을 정확하게 인식하는 것에는 한계를 보였다. 이는 웹툰 AI 페인터에서도 동일하게 나타나는 문제점이다. 또한 노벨 AI와 마찬가지로 두 명 이상 묘사된 컷을 채색하는 것 역시 정확하지 않았다. 웹툰 AI 페인터는 수채화 풍의 채색 유형으로 명암이 그라데이션 방식으로 표현된 결과물을 보여주고 있으며 딥툰은 단색으로 채우는 결과물을 보여준다. 딥 툰의 경우 명암을 채색하기 전 단계인 밑색을 완벽하게 채우는 것을 목표로 제작되기에 명암이 없이 단색으로 채색할 수 있는 기술을 개발 중이라 밝혔다. 현재로서는 두 프로그램 모두 현재 단계에서 실제 웹툰 작업에 활용하기에는 힘들지만 서로 다른 방향성을 가진 만큼 향후가 기대된다. 딥툰에서 시도되고 있는 인공지능 기반 웹툰 제작 기술 중 주목할 만한 추가적인 사례는 노벨 AI와 비슷한 이미지 기반의 웹툰 드로잉 제작 방식과 사진을 활용한 3D 캐릭터 자세 자동생성 기술이다. 이미지 기반의 웹툰 드로잉은 수많은 웹툰 작화를 학습시킨 후에 초보자들이 그릴 수 있는 간단한 형태의 이미지를 그리면 웹툰 작가 수준의 드로잉으로 변환시키는 기술인데 단일 이미지는 적당히 만들어내지만 웹툰이 가진 연속성이라는 특성에 비추었을 때 연속적으로 같은 캐릭터를 다각도로 표현해야 하며 한 컷에 두세 명 이상의 캐릭터가 등장하는 경우 등 현재 인공지능 기술로 구현이 어려운 부분이 있어 현재 상황에서 웹툰에 적용하기에는 쉽지 않다.
마지막으로 사진을 활용 한 3D 자세 자동생성 기술은 지금까지 소개한 다른 분야에 비해 가장 현실적이며 웹툰 제작에 바로 적용이 가능할 것이라 기대되는 기술이다. 포즈를 직접 촬영하거나 인터넷에서 찾은 이미지를 3D 모델로 만드는 기술인데, 제작진의 말에 따르면 클립스튜디오 인체 더미 포즈와 호환이 가능하다. 웹툰에 등장하는 다양한 포즈를 직접 촬영하거나 적절한 이미지를 찾아 적용하면 360도 다각도 로 볼 수 있는 3D 모델을 만들어낼 수 있으며 이를 클립스튜디오에 적용할 수 있다는 것은 웹툰 제작 생산성에 도움이 될 것이다. 웹툰 제작 스튜디오에서는 콘티에 맞춰 3D 포즈를 만들어 적용시키는 인력이 있을 만큼 제작 공정이 분업화되어 있는데 이러한 작업 능률을 끌어올릴 수 있을 것이라 기대된다. 스튜디오가 아니더라도 많은 작가들이 직접 촬영한 사진을 활용하여 웹툰을 제작하는 경우가 많은데, 내가 원하는 포즈를 즉각적으로 만들어 3D로 적용할 수 있다는 것은 분명한 강점이라 볼 수 있다.
인공지능 기술이 웹툰 제작의 생산성을 높이는 날을 기다리며
인공지능 기술은 우리 삶에 빠르게 스며들고 있다. 인공지능 기술의 개발을 통해 인간의 작업 효율성이 크게 향상되고 있으며 최근 주목받은 노벨 AI는 인공 지능 기술의 발전을 가시적으로 보여준 사례이기도 하다. 그러나 이러한 기술의 발전에도 불구하고 인공지능 기반의 기술을 현재 상황에서 웹툰 제작에 효율적으로 적용시킬 수 있다고 말하기는 어렵다. 상술했듯이 노벨 AI처럼 비연속적인 단일 이미지를 만들어 내는 것은 현 상황에서 가능하지만 동일한 인물을 다양한 각도, 다양한 표정으로 그려내고 다양한 인물과 상호작용하는 방식으로 제작해야 하는 웹툰에 적용하기에는 기술적 제한이 많기 때문이다. 인공 지능 기술의 발전을 예측하기는 힘들지만 현재 웹툰 작가 수준의 완전한 자동 채색, 자동 드로잉 기술을 만들어 내는 것은 어려울 것이라 사료된다. 그렇다면 언제쯤 인공지능 기술을 활용해 본격적으로 웹툰을 제작할 수 있는 시대가 올까? 현 시점에서는 분명히 힘들다. 현재 인공지능 기술을 생각해보면 당분간 웹툰 제작을 완벽히 대체하는 방식은 나오기 힘들 것이다. 웹툰 작가들과 실무전문가들의 이야기에 귀를 더욱 기울여서 퍼포먼스형 결과물에 집중하기보다는 실무에 적용할 수 있는 방식에 집중한다면 3D 캐릭터 자세 자동생성과 같이 실제 제작에 적용이 가능한 방식을 만들어낼 수 있을 것이라 기대한다.