최재식 카이스트 교수·구글 책임감 있는 AI포럼 의장
챗GPT 등 LLM은 상당 부분이 설명하기 어려워
"의료·국방에서 AI가 왜 실수하는지 모른다면 사용할 수 있나"
"AI가 왜 실수했는지 알고 해결책 제시할 수 있어야"
AI 어떤 분야가 됐든 글로벌 시장을 타깃해야 경쟁력 있다
[이데일리 최정희 기자] 세면대 배수구가 막혀 물이 흘러넘치는 상황이 생겼을 때 우리는 배관공을 불러 수리를 요청한다. 배관공은 배수구에 머리카락이 많이 끼어있다는 진단을 내리고, 머리카락을 제거한 뒤 배수구가 너무 낡았다면 이를 교체할 것이다. 그런데 생성형 인공지능(AI)을 활용한 서비스에 문제가 생기면 누구한테 고쳐달라고 해야 할까. 궁리 끝에 AI 서비스를 만든 사람에게 문의했는데, 그조차도 AI 서비스 오작동 원인을 모르는 상황이 생긴다면 아마도 사람들은 이 서비스를 더이상 사용하지 않게 될 것이다. 이름하여 ‘설명가능한 AI’가 중요해지는 이유다.
최재식 한국과학기술원(KAIST) 김재철AI대학원 교수는 지난 2016년 구글 딥마인드가 개발한 AI바둑 프로그램 ‘알파고(AlphaGo)’가 이세돌 9단을 이겼을 때부터 ‘설명가능한 AI’를 주장해 온 인물이다. 최 교수는 최근 김재철AI대학원 성남연구센터에서 가진 인터뷰에서 “AI의 작동 원리를 알지 못하면 쓸 수 없는 환경이 있을 수 있다”며 “챗GPT 등 대형언어모델(LLM)은 알지 못하는 부분이 훨씬 많은데, 이 부분을 알고자 하는 것이 설명가능한 AI에서 하는 일”이라고 밝혔다. 그는 KAIST 설명가능한 인공지능(eXplainable AI·XAI) 연구센터장이자 구글의 ‘책임감 있는 AI포럼’ 의장을 맡고 있다.
다음은 최재식 카이스트 교수와의 인터뷰를 정리한 것이다.
-‘설명가능한 AI’가 주목받고 있다.
△AI가 잘 작동하긴 하는데 왜 그런지 아무도 모른다고 한다면 계속 사용할 수 있을까. AI스피커는 틀려도 별 피해가 없었다. 무엇인가 검색할 때 구글의 검색 원리를 몰라도 된다. 그런데 의료·자율주행 자동차·국방·대규모 금융거래 등에서 AI가 틀린다면 계속 활용할 수 있을지 생각해봐야 한다. 국방 분야에서 AI가 사용될 때, 1만 번 중 한 번 폭탄이 잘못 터진다고 할 때 언제 잘못 터질지 아무도 모른다면 AI를 사용하지 않을 것이다. 알지 못하면 쓸 수 없는 환경들이 있다. 설명가능한 AI는 AI의 작동원리를 알아야겠다는 것이다.
-설명가능한 AI는 의료·국방 등 안전과 관련된 부분에서만 유효한가.
△반드시 그렇지는 않다. 만약 스마트폰 AI에이전트가 약속을 잡는데 일주일 중 특정한 날마다 자꾸 틀린다. 그러면 짜증이 날 것이다. 그런데 틀리지 않도록 하기 위해 ‘R’이라는 알파벳을 넣으면 안 틀릴까. 이런 식으로 방법을 찾으면 그래도 쓸 수 있는데 방법을 못 찾으면 안 쓸 것이다. 사람 손으로 계속해서 뭔가를 해야 하는 번거로움이 생기니까 말이다. AI를 쓰는 사람 입장에서 틀려도 되는 것은 없다. 어떤 때는 인식이 잘되고 어느 때는 안 된다면 이를 쓰는 사람은 그 원리를 알고 싶어할 것이다.
-고위험AI로 분류되는 몇 가지들이 있다. 그것은 설명가능한 AI가 반드시 적용돼야 하나?
△AI서비스 이용자의 생명, 경제적 이해관계에 직접적으로 영향을 미치는 것에 대해선 ‘고위험’이라는 것에 대다수가 동의한다. 자율주행, 신용평가, 인사평가 등이다. 고위험이라고 반드시 ‘설명해야 한다’는 것은 아니다. 다만 우리나라는 3월 개인정보보호법 개정을 통해 개인정보가 들어간 것 중에 AI가 의사결정을 잘못해 피해를 본다면 이를 설명해주도록 했다. 예컨대 AI를 활용한 결과에서 신용도가 너무 낮게 나왔거나 입사 면접에서 탈락했다면 왜 그런지를 설명해야 한다. 물론 이러한 법에 동의하지 않은 사람들도 있다.
-2016년 딥러닝이 유행할 때만 해도 알고리즘의 작동 원리를 모른다고 했다. 설명가능한 AI가 기술적으로 가능한가?
△사람의 뇌세포와 AI 뉴런이 1대 1이라고 하면 각각 뉴런이 무슨 역할을 하는지 알 수 있다. 뉴런이 활성화될 때 공통점이 있다. 예컨대 이미지 인식에서 꽃 또는 가방이 보일 때만 활성화된다면 그 원리를 알 수 있다. ‘얼굴 인식에서 눈에 대한 인식이 잘못됐다면 눈이 가려져 있어서 인식이 안 됐구나’라는 식으로 알 수 있게 된다. 그런데 트랜스포머(Transformer·텍스트 이해하고 생성하기 위해 개발된 AI모델 구조), 대형언어모델(LLM·방대한 양의 텍스트 데이터를 학습해 사람처럼 문장을 이해하고 생성하는 AI모델) 등 지금 나오는 복잡한 모델들은 그 안에 있는 뉴런들이 언제 어떻게 작동하는지 다 알지 못한다.
-대표적인 LLM, 챗GPT는 설명이 어려운 부분이 많은가?
△모르는 부분이 훨씬 많다. 그것을 알려고 하는 게 ‘설명가능한 AI’에서 연구하려고 하는 것이다. 그런데 사실 모른다고 이 모델을 안전하게 쓸 수 없는 것은 아니다. 보통 AI가 안전하지 못하다고 하면 사람을 공격하는 것을 생각할 텐데 이러한 시스템에서 가장 걱정하는 부분은 ‘개인정보’다. 개인의 진짜 주소, 전화번호 등이 공개되는 것이다. 우리나라처럼 개인정보에 민감한 나라들은 예민하게 생각할 것이고 이것을 만든 회사도 상당히 부담을 느낀다. 폭탄, 마약 거래 채널이 LLM을 통해 나오는 것을 당연히 꺼린다. 구글에서도 ‘세이프가드(Safeguard·사용자 데이터 보호 및 보안 강화)’를 한다. 입력으로 들어오는 것 중에 이런 질문을 못 물어보게 한다든지, 출력으로 나오는 답변 중 이런 부분들을 없애는 것이다. ‘자살하는 방법 알려줘’하면 ‘이렇게 하면 고통없이 죽어요’라는 답을 못 내게 하는 것이다.
-설명가능한 AI는 기술발전 속도를 늦출까?
△2000년대 초반 구글이 매물로 나온 적이 있는데 야후가 너무 비싸다고 안 샀다. 그 이후 구글이 검색시장을 독점하게 됐다. LLM도 가장 잘하는 기업이 굉장히 큰 독점 혹은 과점을 차지할 것이다. 스마트폰 AI에이전트는 충분히 똑똑하지 못했으나 지금의 LLM은 똑똑하다. 많은 사람들이 서버, 데이터만 독점적으로 유지할 수 있으면 많은 고객을 확보할 수 있다고 믿는다. 그런데 알고리즘을 만드는 것과 이를 통해 돈을 버는 것까지는 굉장히 긴 안전성 테스트 기간이 있을 것이다. 충분히 안전하다고 판단되더라도 100만명이 쓰기 시작하면 달라진다. 문제가 생겼을 때 바로 고칠 수 있거나 이용자가 왜 문제가 생겼고 어떻게 고칠 수 있는지 이해할 수 있게 설득해야 한다. 만든 사람조차 문제가 왜 생겼는지 모르는데 그냥 좋은 거 같아서 계속 쓰는 식으로 적체돼 있으면 안 된다.
-기업간 경쟁이 심해지면 ‘설명할 수 없는 AI’까지 빠르게 가게 되는 것인가?
△한동안 AI발전은 데이터를 많이 넣어서 큰 컴퓨터에 학습을 시키면 똘똘한 애가 나오더라는 식이었다. 오픈AI는 처음 출시한다는 것에 의미가 있었고 앤트로픽(Anthropic)은 데이터와 학습을 오픈AI처럼 대규모로 하기 어려우니까 작더라도 안전한 모델로 가자는 것이었다. 구글은 데이터가 많지만 검색 등 기존 서비스가 있으니까 기존 서비스 수준의 안전성 이상을 확보해서 가야 한다는 부분이 있다. 오픈AI같은 스타트업에서 제품을 출시하는 것과 구글이 하는 것은 애플, 삼성에서 제품을 출시하는 것처럼 안전성에 대한 기준이 높은 편이다.
-범용 인공지능(AGI·Artificial General Intelligence)이 나오면 인간에게 위협적일까?
△AI는 계속해서 똑똑해질 것이다. AGI는 일반적으로 사람이 하는 것만큼 대화, 지식 요약, 물건 나르기 등을 잘 할 것이다. 그런데 어떤 사람이 무서운가? 똑똑한 사람이 위험하다고 느끼나? 그렇지 않을 것이다. 사람을 존중하지 않는 사회성이 떨어지는 사람이 위험하다. 사람에 대한 존중이 부족한 AGI가 만들어지면 위험할 수 있다. 상대에 따라 사람을 속이고 다른 답을 하고 거짓말을 하고 사람이 AGI 곁을 떠나지 않게 할 수도 있다. AGI가 충분히 똑똑하지 않은데 사회성이 떨어지면 문제가 안 된다. 어차피 사람들이 믿지 않을 것이기 때문이다. AGI가 똑똑해진 상황에서 사회성이 떨어지면 평소에 대답을 잘 하다가도 사람을 속여야겠다고 생각할 수 있다.
-AI, AGI가 사회성을 갖게 하는 것도 기술적으로 가능한가?
△사회성이 부족하면 사회성을 더 넣으면 된다. 개인정보 물어보면 절대 대답하면 안 된다는 식으로 학습시키는 것이다. 그런데 사회성이 결여된 AI가 나와버리면 ‘나 그거 안 배울래’하면서 선택적으로 학습할 수 있다.
-구글의 ‘책임감 있는 AI포럼’의장을 맡고 있다. 어떤 의미가 있나?
△앞서 개인정보보호법을 설명했는데 미국은 규제를 안 하는데 우리나라만 규제하면 한국 기업들만 역차별을 받는다. 구글 같은 글로벌 기업의 규제 스탠다드와 우리나라 스탠다드가 어떻게 다른지 맞춰본다. 우리 규제가 너무 강하거나 낮지 않은지 살펴본다. 잘못하면 벌금을 맞고 총수가 감옥 가는 게 아니고 기업들은 자율규제를 하겠다고 한다. 어차피 기업이 잘못하면 고객들이 해당 서비스를 안 쓸 테니까 이에 맞춰서 하겠다는 것이다.
-책임감 있는 AI포럼에선 주로 어떤 것을 논의하나?
△구글 담당자, 국내 전문가들이 모인다. 법, 기술, 사업, 투자하는 사람들이 다 같이 모여 AI설명성, 회복성 등을 논의하고 있다. AI를 육성하고 컴플라이언스를 관리하는 것들이 조직마다 다르고 안전 레벨도 다르다. 그러면 우리가 어떻게 하는 것이 가장 좋은 모범사례인가를 서로 배운다.
-전 세계가 정부, 기업 차원에서 AI경쟁을 벌인다. 우리나라는 어떻게 전략을 펴야 할까?
△AI는 대규모 투자가 필요하다. 마이크로소프트(MS)가 데이터센터를 짓는 데 100조원 넘게 투입한다. 국내 기업이 이렇게 할 수 있을까. 삼성전자가 평택 반도체 공장에 100조원을 투자할 수 있는 것은 글로벌 시장에서 선두권에 있고 이를 지키기 위함이다. AI에 투자를 안 할 수 없는데 파운데이션(Foundation·기초) 엔진 모델을 만들어서 오픈AI와 경쟁할 것이냐, 아니면 그것은 포기하고 응용을 잘 하면 되는 것인가에 대해 고민이 있다. AI반도체에 투자하겠다고 하면 (메모리반도체가 글로벌 선두에 있기 때문에) 아무도 뭐라고 하지 않는데 AI파운데이션에 대한 투자를 어떻게 할 것인가는 고민이다. 국내에서만 쓸 수 있는 정도의 경쟁력·정확성으론 부족하다. AI응용이 됐든 챗GPT 같은 엔진이 됐든 상관없지만 글로벌 시장에 닿을 수 있어야 한다. 글로벌 시장에서 얻게 되는 데이터와 우리나라에서만 얻는 데이터는 상당한 차이가 있다.