기획기사

초기화
글자확대
글자축소

알아야 뭘 하지: 인공지능, 어떻게 돌아가는가?

과학 커뮤니케이터가 설명하는 인공지능 이야기

2023-05-25 원종우

알아야 뭘 하지: 인공지능, 어떻게 돌아가는가?



일단, 컴퓨터는 뭘까?


다양한 정의가 가능하겠지만 가장 기초적이고 근본적으로 말한다면, 컴퓨터는 ‘프로그래밍이 가능한 전자계산기’다. 프로그래밍은 컴퓨터가 수행할 명령어 집합을 작성하는 과정인데, 입력된 다양한 데이터를 명시된 규칙에 따라 처리하여 결과를 출력하게 된다. 

말이 복잡해 보이지만 내용을 들여다보면 간단하다. 이해를 돕기 위해 누구나 사용하는 엑셀을 통해 단순하게 설명해 보자. 엑셀 속에는 탁상용 계산기나 다름없는 사칙연산 기능이 들어 있다. 그래서 마우스로 숫자가 들어간 항목들을 선택해서 계산을 시키면 일반 계산기처럼 사용할 수도 있다. 

그러나 엑셀에는 이런 능력을 활용한 더 유용한 기능들이 장착돼 있다. 예를 들어 수십 개나 되는 항목들을 선택해서 그 평균값을 내는 것을 생각해 보자. 이 작업을 위해서는 ‘항목을 선택한 후 마우스로 특정 아이콘을 누르면 그 모든 값을 더한 다음 항목의 숫자만큼 나눠라’는 명령이 엑셀 안에 미리 들어 있어야 한다. 이를 통해, 탁상용 계산기로는 일일이 숫자를 더하고 다시 나눠야 해서 간단하게 할 수 없는 일을 클릭 한 두번으로 가능하게 해 준다. 이런 명령이 바로 프로그램이다.


[ 그림1 마이크로소프트사의 엑셀 예시 ]


그럼 A.I가 하는 일은 이런 전통적인 컴퓨터 프로그램의 사용과 어떤 차이가 있을까? 이 엑셀 작업과 같은 결과를 얻기 위해서 아래처럼 일상적인 글이나 말로 지시하는 것이 A.I 사용의 한 예다.

 

“우리 회사 직원들 급여액의 평균을 내도록 해.” 

 

그러면 A.I는 일단 이 명령을 내린 언어(한국어)를 분석해서 문장 전체의 의미를 ‘해석’한다. 그런 다음 평균값 계산에 각각의 덧셈과 항목 수만큼의 나눗셈이 필요하다는 것을 ‘파악’하고, 회사에 저장된 직원들의 총 급여액을 스스로 ‘열람’한 후 계산하고 답을 내놓게 된다.  

이런 지시는 컴퓨터에 내리는 명령보다는 사람에게 던지는 지시처럼 보인다. 다만 사람이 수작업으로 이 일을 한다면, 비록 지시 내용은 쉽게 이해하겠지만 그런 다음에는 숫자가 잔뜩 적힌 종이를 들고 가서 탁상용 계산기로 모두 더한 후 다시 나누는 작업을 직접 해야 하기 때문에 번거롭고 느리다. 반대로 보통의 컴퓨터라면 계산 자체는 매우 쉽게 해 내겠지만 일상 언어로 내려진 지시를 이해하거나 계산을 위한 준비 작업을 주체적으로 하지 못한다. 따라서 최소한 이 둘을 모두 해내야 사무용 A.I 라는 이름을 붙여줄 수 있을 것이다.

그런데 여기서 더 나아가면 어떻게 될까? 만약 A.I가 충분히 강력하다면 지시를 수행하는 데 멈추지 않고 역으로 다음과 같은 제안을 해올 수도 있을 것이다.

 

“급여액의 평균값을 하나 내는 것뿐 아니라 직급에 따른 급여의 차이 등 여러 요소를 그래프와 표를 사용해 다양하게 정리하는 게 낫지 않을까요?” 


그런데 이런 창의적인 태도는 사실 회사의 인간 직원들도 쉽게 보이지는 않는 모습이다. 따라서 이런 제안에는 그에 합당한 맥락이 있어야 한다. 인공지능이(혹은 인간 직원이) 실제로 평균값만이 필요한 일(혹은 비슷하게 단순한 일)에 매번 제안을 빙자한 잔소리를 늘어놓는다면 그보다 잡스러운 일도 없기 때문이다.

이때 맥락을 알려면 지시를 내린 사람의 의중을 파악해야 하고, 의중의 파악은 그가 현재 진행 중인 작업의 성격 등 여러가지 정보가 있어야 가능하다. 이 정보의 취합을 위해서는 그가 열람하거나 입력하는 각종 데이터, 작성하는 문서, 심지어 오늘의 일정이나 주변 동료들과의 대화 등 온갖 정보를 종합한 후 ‘추론’의 과정을 거쳐야 한다.

이런 능력이 바로 지금까지의 컴퓨터에서는 불가능했던, 우리가 A.I에게 기대하는 모습이다. 그럼 이것이 어떻게 가능할까?


기계는 생각하는 방식이 인간보다 훨씬 ‘고지식하다’고 할 수 있다. 많은 데이터를 필요로 하고 그 데이터의 양과 정확성에 비례한 만큼의 정답을 내기 때문이다. 이런 기계의 특성을 이해하면서 인간처럼 복잡한 문제들을 풀어낼 수 있도록 고안한 것이 바로 기계 학습, 즉 머신 러닝이며 그 중에서도 딥 러닝이다.


[ 그림2 청강대 전혜정 교수가 미드저니를 사용해 제작한 강아지와 고양이 이미지 ]


실제로 인간에게는 아주 간단한 일이지만 컴퓨터에게는 어려운 일 중 하나가 개와 고양이를 구별하는 것이었고, 이는 인공지능에게 있어서 중요한 과제였다. 사람은 이 둘을 구별하기 위해 따로 공부하지 않는다. 어린 아이라도 일상 생활의 경험 속에서  개와 고양이를 식별해 낼 수 있는데, 이런 능력은 주변의 위험 요소를 가려내고 대비하기 위해 동물로서의 인간에게 본능으로 새겨진 영역이다. 다른 동물들도 눈앞에 있는 대상이 자신과 같은 종인지 아닌지, 위협이 되는지 등을 비슷한 맥락에서 구별 한다.

하지만 컴퓨터는 많은 사진을 통해 반복적으로 학습해야만 개와 고양이를 구별할 수 있다. 수천, 수만 장의 사진을 입력해 보여줌으로써 그 차이를 익히도록 하고, 이때 사진이 많으면 많을 수록 그 정확도는 점점 높아져 나중에는 쉽게 개와 고양이를 구별할 수 있게 된다. 

딥 러닝 이전의 머신 러닝에서는 인간이 직접 인공지능을 훈련했다. 즉, 개와 고양이를 분류하려는 경우 인간이 먼저 개와 고양이의 모든 이미지에 ‘이건 개고 이건 고양이야’ 라고 레이블을 지정하는 것이다. 그런 다음 컴퓨터는 이 지정된 이미지들을 기준으로 둘을 분류하는 방법을 학습해서, 나중에 새 이미지가 입력되면 그것이 개인지 고양이인지 구별할 수 있게 된다.


훈련용 데이터

각각의 사진에 레이블링

(명칭 부여)

학습

새로운 입력 사진에 대한 

식별 결과

 X 10,000

레이블링 된 사진을 반복해서 학습

Q. 

A. 개

 X 10,000

고양이

Q. 

A. 고양이

[ 표1 머신 러닝의 방]


딥 러닝은 머신 러닝에 포함되지만 한 차원 더 깊은 개념이다. 딥 러닝에서는 인공신경망이라는 계층화 된 알고리즘 구조를 사용하기 때문이다. 이름처럼 뇌 속의 신경망을 본 따 만든 구조이기 때문에 인간의 논리적 사고와 비슷한 과정을 거치게 된다.


개와 고양이의 사진을 개인지 고양이인지의 가르쳐 주지 않고 무작위로 입력한다. 딥 러닝은 이 이미지들을 여러 계층의 인공 신경망에 통과시킨다. 이때 각각의 계층은 일종의 필터라고 생각하면 그럭저럭 비슷하다. 첫 번째 계층은 이미지에서 가장 기본적인 특징인 모서리와 선을 식별한다. 다음 두 번째 계층은 첫 번째 계층의 결과를 결합하여 개 이미지에서 일반적으로 볼 수 있는 더 복잡한 형태, 즉 눈, 코, 입과 같은 특징을 식별한다. 이 과정은 이전의 특징들을 계속 결합하여 개와 고양이를 제대로 구별할 만큼의 복잡한 특징을 모두 식별할 때까지 계속된다. 


이때 머신 러닝에서와 달리 개와 고양이 사진을 구별하지 않고 입력한다는 점이 중요하다. 즉, 인간이 일일이 가르쳐 준 게 아니라 스스로 학습한 것이다. 이 점이 바로 인간이 개와 고양이를 분류하는 방식과 비슷하다. 


우리의 부모님은 개와 고양이를 볼 때마다 ‘이건 개고 저건 고양이다’ 라며 알려주지 않았다. 처음 개와 고양이를 볼 때 이름 정도를 알려줬을 뿐, 그런 다음에는 우리가 스스로 보면서 배워 식별할 수 있게 된 것이다. 다만 우리는 개와 고양이를 수백, 수천 번이나 볼 필요는 없었다는 점에서 딥 러닝과 효율의 차이가 있다.


데이터

학습

결과

분류

 

군집분석,

인공신경망

알고리즘

 

고양이

[ 표2 딥 러닝의 방식 ]


이렇게 인공 신경망으로 식별한 결과가 나오면 실제 값(정답)을 비교해서 오차를 계산하고, 오차를 줄이기 위해 가중치와 편향값을 조정하게 된다. 이 과정을 반복하여 모델이 최적화되면 이제 개와 고양이 식별을 위해 계속 사용할 수 있게 되는 거다.


이런 방식으로 A.I는 다양한 임무를 수행할 수 있다. ChatGPT나 구글 바드처럼 언어를 익혀 인간과 대화를 하거나 질문에 대답하는 것이 가능하고, 미드저니처럼 이미지를 익혀 그림과 사진을 재현하는 것도 가능하다. 한편으로 이 학습의 과정을 생각하면 ChatGPT 등의 생성형 언어 A.I 가 ‘환각’이라고 불리는 완전히 틀린 답을 천연덕스럽게 내 놓거나, 미드저니가 아직도 손가락 형태 재현 문제를 갖고 있는 이유를 이해할 수 있다. 

ChatGPT가 학습한 모든 정보는 이를테면 ‘줏어 들어 ’ 배운 거다. 사실이 정리된 데이터베이스(레이블링 된 정답)를 갖고 있는 것이 아니라 사람들이 인터넷에 써 놓은 수많은 글들이 정보의 소스이기 때문이다. 따라서 맞고 틀림의 판단 기준이 없이 그저 질문에 대한 답변의 될 가능성이 높은 문장을 줏어 들은 온갖 정보들로 조합해 낼 뿐이다. 다만 그걸 아주 잘 하기 때문에 인간과 대화하는 것처럼 느껴지는 것이다.  

마찬가지로 미드저니는 사람 모습을 훌륭하게 표현해 내지만, 막상 ‘손가락은 다섯 개’라는 식의 기본지식이 아예 없다. 그저 수많은 사람들이 인터넷상에 그려 놓은 것을 바탕으로 비슷하게 재현하기 때문에 손 끝에 붙은 길쭉한 ‘촉수’가 다섯 개인지 여덟 개인지는 중요하지 않은 것이다. 

물론 이런 문제들도 다양한 방식으로 해결되어 갈 것이다. 일단은 A.I 가 신뢰할 만한 지식이 담긴 사이트(위키피디아 등)를 검색해 정리된 지식을 얻고 그것을 반영할 수 있을 것이다. 그리고, 알파고를 개발했던 구글 딥마인드의 데미스 허사비스의 말처럼 몇 년 내에 모든 분야를 다룰 수 있는 범용 인공지능 (AGI, Artificial General Intelligence)이 출현하면 현재 각각의 A.I 가 가진 한계를 보완할 방법을 스스로 찾아낼 수도 있을 것이다.


A.I 가 생각하는 방식은 인간과 똑같지 않다. 그리고 인간정신의 가장 중요한 특징이라고 할 의식을 가지고 있지도 않다. A.I 가 스스로의 생각과 존재를 인식하게 되는 날이 올지 아직은 알 수 없지만, 적어도 그런 것처럼 보이게 작동할 수는 있다. 그때 A.I가 가질 힘과 입지는 지금과 비교도 할 수 없을 만큼 강력할 것이다. 


그리고, 그것은 별로 먼 미래의 이야기가 아니다. 



필진이미지

원종우

과학기술 커뮤니케이터, 음악인, 기타리스트, 문화운동가, SF작가

* 과학 전문 팟캐스트 '파토의 과학하고 앉아있네'
* 저서
- <조금은 삐딱한 세계사 : 유럽편> 역사의 아침, 2012
- <태양계연대기> 유리창, 2014
- <호모 사이언티피쿠스> 생각비행, 2014
- <과학하고 앉아있네 1,2,3,4,5,6,7,8,9,10> 동아시아, 2015~2017
- <나는 슈뢰딩거의 고양이로소이다> 아토포스, 2019 등

* 경력
20대 부터 음악과 대중문화, 과학, 역사 등 다방면에 걸친 많은 글을 썼고, 2008년 SBS창사특집 다큐 <코난의시대>작가로 SBS하반기 특별상과 환경연합 특별상, 휴스턴 영화제 대상을 수상했다.
2012년부터 과학 커뮤니케이터 활동을 공식적으로 시작했고, 2013년 과학 대중화를 위한 ㈜과학과사람들을 창업하고 <과학하고 앉아있네> 팟캐스트를 시작했다.
토크콘서트, 전시 등 다양한 과학 이벤트를 만들며 한겨레, 사이언스올, 허핑턴포스트, 샘터, 국가과학기술연구회, 지질자원연구원 등에 정기 기고하고 서울대, 연세대, 고려대, 경희대, 한양대, 성균관대 등 여러 대학과 삼성물산, 애경그룹, 신용보증기금, 네이버, 과학기술연구회, 비즈워치, 하림, 한국선단 등 많은 기업과 관공서, 언론사에서 과학 및 4차산업혁명, 기후변화 강의를 해 왔다. 2016년 9월부터 2020년 5월까지 TBS 라디오 <김어준의 뉴스공장>에 고정 출연했고, 2017년부터 국방TV <본게임>에 고정 출연 중이며 2023년 현재 110만 구독자의 <겸손은 힘들다 김어준의 뉴스공장> 과학 코너를 맡고 있다