2023년12월06일wed
기사최종편집일:2023-12-06 13:05:33
정기구독신청 댓글보기 전체뉴스 기부뉴스 동영상뉴스
뉴스홈 > Issue/Trend > Vol. 364
트위터로 보내기 싸이월드 공감
기사글확대 기사글축소 프린트하기
ChatGPT의 탄생과 진화
등록일 [ 2023년10월31일 09시20분 ]

지난해 11월 미국 인공지능 연구소 OpenAI가 대규모 언어모형(LLM) 기반 챗봇 서비스인 ChatGPT를 출시하면서 사회 전반의 AI에 대한 관심이 폭발하고 있다.

사회 및 기업의 문제가 고도화되는 가운데, 빅데이터(Big data)의 집적, 컴퓨터 연산 능력의 향상, 딥러닝(deep learning)을 비롯한 혁신 알고리즘의 발전 등으로 AI의 성능이 개선되면서, AI는 중요한 의사결정 지원 도구로 부상하고 있다.

데이터 분석 등 대중과 무관한 영역에서 사용되던 기존 AI 서비스와 달리, ChatGPT는 ‘사람처럼’ 능숙한 자연어 구사 등을 통해 대중에 크게 소구되고 있다. 다른 챗봇과 달리 ChatGPT는 대화 문맥 기반의 연속적이고 자연스런 대화가 가능할 뿐만 아니라, 문서 요약, 번역, 콘텐츠 창작, 코딩 등 다양한 업무 처리가 가능하다.

향후 LLM을 비롯해 생성형 AI(Generative AI) 중심으로 AI 산업이 빠르게 성장하며 全세계적으로 막대한 경제적 부가가치를 창출할 전망이다.

생성형 AI를 비롯해 AI는 분석 고도화, 업무자동화 등을 통한 기업 생산성 개선에 기여하며 글로벌 경제에 최대 25.6조 달러의 가치를 창출하리라고 기대된다.

ChatGPT의 대중적 성공에 힘입어 개발기관인 OpenAI도 기록적 매출이 전망되고 있다. OpenAI는 개인/기업 사용자의 ChatGPT API(프로그램 간 연동) 서비스 이용료 등으로 인해 향후 12개월 간 약 10억 달러의 매출을 기록할 것으로 추정된다.

하나금융경영연구소에서 최근 발표한 ‘ChatGPT의 탄생과 진화’ 보고서 내용을 통해 금융산업 내 LLM 활용 사례 및 향후 전망을 가늠해본다.


언어모형의 발전 과정 : ChatGPT가 탄생하기까지

ChatGPT 이전의 언어모형 = 언어를 분석하고 이해하는 AI 연구의 한 분야인 자연어처리(Natural Language Processing)는 자연어 고유의 특성으로 인해 다양한 난관에 봉착했다.

언어는 어휘, 문법, 뉘앙스 등 복합적 요소로 구성되며, 다의어·동음이의어 등으로 인해 같은 단어(문장)라도 맥락/상황에 따라 의미가 달라지거나, 서로 다른 단어(문장)가 동일한 의미를 갖는 등 본질적으로 컴퓨터가 처리하기 어려운 특징을 보유하고 있다.

언어모형은 자연어처리의 문제를 극복함으로써 컴퓨터가 자연어를 더욱 잘 이해·추론하고 생성할 수 있도록 개선하는 과정에서 발전했다.

(언어의 수치화) 최초의 언어모형은 단어, 문장, 문단 등을 컴퓨터가 이해할 수 있는 숫자(벡터)로 바꾸는 ‘임베딩’(Embedding)에서 시작됐다.

(어순/맥락의 이해) 언어의 이해에는 어순이나 맥락이 중요하므로, 시계열이나 맥락의 처리가 가능한 딥러닝 구조를 활용하여 언어를 이해하고자 시도했다.

대표적으로 Google(2014)의 seq2seq(Sequence-to-Sequence)는 자료를 순차적으로 입력받아 순차적으로 출력함으로써 어순/맥락 고려 및 가변적 문장 처리가 가능하다. seq2seq는 크게 인코더(Encoder)와 디코더(Decoder)로 구성되어 있는데, 인코더는 단어를 순차적으로 입력받아 이해하고 중요한 정보를 추출해서 요약하며, 디코더는 인코더가 건네준 정보를 바탕으로 결과 문장을 생성하는 역할을 한다.

(단어 간 관계 이해) ’17년 Google이 발표한 트랜스포머(Transformer) 구조는 다양한 자연어처리 과제에서 우수한 성과를 내면서 언어모형의 발전을 견인했다.
트랜스포머는 ‘어텐션’(Attention) 기제를 도입함으로써 문장 내 단어들의 관계를 동시에 다각도로 포착할 수 있었고, 이를 통해 자연어처리 성능을 크게 향상됐다. 어텐션이란 입력 문장 내 모든 단어의 수리적 연관성을 병렬적으로 여러 번 비교·분석함으로써 관련성이 높은 단어에 ‘집중’(attention)할 수 있게 해주는 기제다.

트랜스포머 구조를 기반으로 GPT 시리즈(GPT-1, 2018; GPT-2, 2019; GPT-3, 2020), BERT(2018), RoBERTa(2019), BART(2019) 등 다양한 언어모형이 등장한다.

(모형 성능 제고) 자연어처리 성능 제고를 위해 모형 파라미터 수를 늘리는 추세가 계속되며 언어모형은 현재의 LLM으로 진화했다.

트랜스포머 언어모형의 성능은 모형의 크기(파라미터 수), 학습 데이터 양, 학습에 사용된 계산량 등이 늘수록 개선되는 규모의 법칙(Scale Law)이 작용했다.

(OpenAI) 학습 토큰 수나 컴퓨팅 자원이 동일하다면 파라미터 수가 많을수록 모형 성능은 개선됐다.

트랜스포머 모형이 발표된 이후 현재 언어모형의 파라미터 수는 만 배 이상 증가했다. ’17년 Google이 발표한 원본 트랜스포머 모형의 파라미터 수는 6,500만 개에 불과했지만, ’20년 GPT-3(OpenAI)의 파라미터 수는 1,750억 개로 증가했다. ’23년 3월 출시된 GPT-4의 파라미터 수는 1조 개로 추정되며, ’23년 5월 출시된 Google Palm-2는 3,400억 개의 파라미터를 보유하고 있다.

ChatGPT의 출현 : 무엇이 ChatGPT를 특별하게 만드는가? = LLM의 발전으로 다양한 자연어처리 문제에 대한 성과가 개선되었음에도 출력 결과를 사용자의 의도에 부합하게 ‘정렬’(alignment)할 필요성이 제기됐다.

상식에 위배되거나 타당하지 않은 내용을 사실인 것처럼 응답하는 ‘환각’(hallucination) 문제를 보이거나, 차별적·비윤리적인 편향적 응답을 생성하거나, 사용자의 지시에 대한 윤리적 판단 없이 유해한 응답을 하는 문제도 있다.

OpenAI는 모형 학습 과정에 인간을 직접 개입시키는 ‘인간 피드백 기반 강화 학습’(RLHF)을 통해 인간의 지시사항(Instruction)을 이해하고 적절한 답변을 생성하는 ‘InsturctGPT’를 구축했다.

ChatGPT 이후의 LLM = ChatGPT의 성공은 글로벌 빅테크 기업이 LLM을 상업적 자원으로서 보호하고 이를 기반으로 한 챗봇·검색·업무비서 서비스를 출시하는 계기로 작용했다.

(OpenAI) ChatGPT 및 GPT-4(’23.3 출시)의 모형 세부사항을 공개하지 않고, ChatGPT의 API를 상용화하여 기업·개인사용자에게 구독 형태로 판매했다.

(Microsoft) OpenAI와의 파트너십을 바탕으로 New Bing(검색 + 챗봇), Microsoft 365 Copilot(사무용 소프트웨어 업무 보조 기능) 등 다양한 AI 서비스를 적극적으로 제공하고 있다.

(Google) 자체 LLM인 LaMDA 및 PaLM을 기반으로 하는 챗봇인 ‘Bard’ 출시했다. Bard는 Google 검색 및 클라우드 생산성 도구인 Workspace와 결합해 부가가치 창출했다. 한편, 구글은 OpenAI의 GPT-4에 대응하기 위하여 멀티모달 기능을 탑재한 1조 개 파라미터 규모의 차세대 LLM인 ‘제미니’(Gemini)를 구축, 올해 내 출시할 계획이다.

LLM이 빅테크에 종속될 것이라는 당초의 예상과 달리, 최근 오픈소스 진영이 부상하며 LLM의 대중화를 도모하고 있다.

파라미터 규모가 수십~수백억 개나 되는 LLM은 훈련에 컴퓨팅 자원, 시간, 비용이 막대하게 소요되므로  개인/비영리 단체가 구축하기 쉽지 않았다.

트랜스포머 디코더 기반 사전학습 모형인 LLaMA는 오픈 소스 진영에게 다양한 LLM을 출시할 수 있는 발판을 제공했다.(LLaMa 1, 2023.2.; LLaMA 2, 2023.7.) GPU 병렬 처리, 파라미터 효율적인 훈련 기법(PEFT) 등의 부상도 개인이 LLM을 직접 훈련할 수 있도록 접근성을 높여 오픈소스 진영의 부상을 촉진하고 있다.

Vicuna 등 주요 오픈소스 LLM은 ChatGPT 등에 버금가는 고무적인 성능을 달성했다. 

(Stanford Alpaca) ChatGPT가 생성한 프롬프트-응답 쌍을 학습데이터로 활용해 LLaMA를 파인튜닝한 모형으로, 구축비용이 매우 저렴(약 600달러)하다는 장점을 보유하고 있다.

(Vicuna) ChatGPT 사용자들이 ‘SharedGPT’ 사이트에 공유한 프롬프트-응답 쌍을 기반으로 LLaMA를 파인튜닝 및 개선한 모형으로서, ChatGPT의 92%에 준하는 성능을 달성했다.

(EleutherAI) OpenAI의 GPT-3 상업화 결정에 반발하여 조직된 비영리 AI 연구단체로, GPT-3를 재현한 모형인 GPT-Neo(’21.7), 다국어 LLM인 Polyglot(’22.10) 등을 공개했다.

(Open Assistant) ChatGPT와 유사한 오픈소스 챗봇 서비스로서, LLaMA를 기반으로 하되 서비스 이용자(기여자)들의 피드백을 직접 받아 모형 파인튜닝을 한다.(RLHF)

(1단계) 인간이 다양한 프롬프트(prompt, 사용자의 요청/지시/질문)에 대하여 적절한 응답을 작성하고, 이를 기반으로 GPT-3 모형을 훈련시켜 응답 성능을 개선했다.(SFT)

(2단계) 인간이 언어모형에 의해 생성된 여러 응답의 적절성을 평가하고, 이를 기반으로 또 다른 AI 모형을 훈련시켜 마치 인간처럼 응답의 적절성을 평가할 수 있는 ‘보상 모형’(Reward Model)을 구축했다.

(3단계) 최종적인 언어모형이 자연스러운 응답을 생성하는 동시에 보상 모형에 의한 보상을 극대화하게끔 강화학습 방식으로 훈련했다.

ChatGPT는 InstructGPT의 후속 개량 모형인 GPT-3.5를 기초로 채팅 환경에서 자연스러운 대화를 생성하기 위한 목적으로 구축된 모형이다.

InstructGPT는 1,750억 개 파라미터를 가진 GPT-3보다 적은 파라미터로도 인간이 선호하며 적절하다고 느끼는 응답을 산출할 수 있었다.

국내 기업의 LLM = 국내에서는 네이버·카카오 등 IT기업 중심으로 자체 한국어 LLM을 구축하고 관련 상업 서비스를 출시하거나 기존 서비스에 수직적으로 통합하려는 시도다.

(네이버, ‘하이퍼클로바X’) 한국어 특화 LLM인 ‘하이퍼클로바X’를 기반으로 일반소비자(B2C)와 기업(B2B)  수요자를 아우르는 서비스를 제공하는데 주력했다.

하이퍼클로바X는 뉴스 기사·블로그 등 한국어 말뭉치 중심으로 학습되어(ChatGPT 대비 6,500배) 한국 정보(문화, 지리, 교통 등)에 특화된 자연어 생성이 가능하다. 대화·창작·요약 등이 가능한 챗봇 ‘클로바X’, 대화형 검색서비스 ‘큐:’를 통해 소비자의 정보 탐색 경험을 개선하고, 쇼핑·여행 등 기존 서비스와 결합해 이용 편의를 제고할 수 있다. ‘클로바 스튜디오’ 등 기업대상 서비스를 통해 기업 고객의 맞춤형 LLM 서비스 구축을 지원한다.

(카카오, ‘KoGPT’) 자체 구축 LLM인 ‘KoGPT’를 경량화·최적화하여 카카오톡 등 자사 서비스에 통합함으로써 해당 서비스 이용자들의 경험을 개선하고자 시도했다. KoGPT(v1) 60억 파라미터 모형을 대중에 오픈소스로 공개함으로써, 메타의 LLaMA처럼 오픈소스 진영의 지지·지원을 추구하는 전략을 추종했다.

(LG AI연구원, ‘EXAONE 2.0’) 지식 특화 및 멀티모달 LLM인 EXAONE 2.0을 기반으로 다양한 전문가 대상 서비스를 구축하고 기업 등에 판매할 예정이다. 전문가용 챗봇(‘유니버스’), 화학·바이오 분야 특화·R&D 지원 플랫폼(‘디스커버리’), 창작 지원 플랫폼(‘아틀리에’) 등이 대표적으로 범용적 기능을 목표로 하는 타 LLM과 차별화했다.

오픈소스 진영의 방법론에 영향을 받은 다양한 한국어 오픈소스 LLM도 활발하게 개발·공개되고 있다.

(KoAlpaca) 한국어를 사용해 Stanford Alpaca와 동일한 방식으로 학습을 진행한 언어 모형으로서, Polyglot 및 LLaMA를 기반 모형으로 하는 버전을 공개했다. Polyglot은 EleutherAI가 만든 다국어 오픈소스 LLM으로 한국어 자연어처리와 관련해 LLaMA 기반보다 성능이 우수하다고 알려졌다.

(KULLM[구름]) 고려대학교 NLP&AI 연구실과 HIAI 연구소가 개발한 한국어 LLM으로 Polyglot을 기반으로 한다.

금융산업 내 LLM 활용 사례

McKinsey에 따르면 LLM 등 생성형 AI는 은행업 내에서 ‘마케팅/판매, 고객지원/관리, 프로그래밍, 규제준수’ 비즈니스 분야에서 생산성 제고에 기여할 것으로 기대된다. 생성형 AI는 글로벌 은행산업 내에서 약 2,000억~3,400억 달러의 가치를 창출할 것으로 전망되며, 이는 산업 전체의 매출에서 2.8~4.7%에 상응하는 수치다.

금융회사는 내부적으로 직원의 업무 수행을 지원하고 자동화하며, 자연어 기반 정보를 수집·분석해 전략적 판단을 내리기 위하여 LLM을 활용한다.

(Case ①: 대고객 업무 보조) LLM가 적시에 최적의 정보를 요약하여 전달하거나 판매 절차의 적절성을 모니터링하는 등 직원의 대고객 업무 처리 과정을 보조함으로써 고객 경험 개선 가능하다.

(Morgan Stanley) 산업·자산군(群)에 대한 방대한 내부 리서치 자료를 검색 및 요약하여 재무상담사에게 제공함으로써 상담을 지원하는 GPT-4 기반 서비스를 구축하고 있다.

(신한은행 ‘완전 판매 프로세스’) AI가 투자상품 판매과정을 실시간으로 분석하여 불완전 판매 요소를 탐지하고 직원에게 가이드를 제공함으로써 완전 판매를 지원하고 있다.

(Case ②: 후선업무 자동화) 서류 등의 생성 또는 처리 과정을 자동화함으로써 직원의 업무상 실수를 줄이고 전략적 판단을 지원하고 있다.
(JP Morgan, ‘COiN’) AI가 기업 대출 계약서 등을 분석하여 유형을 분류하고 핵심적 문구를 추출함으로써 직원이 서류를 분석하는 시간을 줄이고 정확도를 제고하고 있다.

(Case ③: 시뮬레이션 코칭/훈련) 다양한 시나리오별 시뮬레이션에서 LLM에게 고객 등 직원의 상대역 역할을 맡김으로써 직원 훈련 또는 평가가 가능하다.

(Zenerate AI) AI 상담 시뮬레이션을 통해 은행 신규 상담사에게 실제와 동등한 상담 경험을 제공함으로써 상담사의 훈련 속도를 56% 제고시켰다.

(Case ④: 자연어 분석) 정책당국의 성명서나 고객의 소리(VoC) 등을 분석함으로써 미래의 정책 방향성 예측, 고객의 pain point 진단, 이상 거래 탐지 등이 가능하다.

(JP Morgan, ‘Hawk-Dove Score’ 모형) ChatGPT를 기반으로 하는 LLM을 활용하여, 과거 25년 동안의 美 연준 성명서를 분석함으로써 연준의 정책 변화 예측 시도했다.

(농협은행, ‘아르미AI’) AI 콜봇을 활용해 고객 만족도 조사를 자동화하고, 조사 결과에 대한 통계 추출 및 분석까지 자동으로 진행한다.

(Case ⑤: 프로그래밍) ChatGPT처럼 프로그래밍 코드도 생성할 수 있는 LLM을 활용하여 코드 보수/최적화, 서비스 마이그레이션 등 수행 가능하다.

(Goldman Sachs) 소프트웨어 개발자가 생성형 AI를 활용하여 코드를 자동으로 작성할 수 있는 서비스를 시범 운영 중으로, 현재 코드의 40% 정도를 AI가 생성됐다.

금융회사는 LLM으로 ‘챗봇’을 고도화함으로써 소비자의 효용을 제고할 수 있다.

LLM을 통해 챗봇의 자연어 이해 및 응대 정확성을 향상하고, 자산관리 등의 분야로 상담 영역을 확장함으로써 소비자의 챗봇 이용률을 제고 가능하다. 

(JP Morgan, ‘IndexGPT’) 고객 요청에 따라 금융자산을 분석하고, 투자 의사 결정을 지원하는 AI 투자상담사 서비스인 ‘IndexGPT’의 상표 출원했다.

멀티모달 기능의 챗봇을 통해 시각장애인 등 취약계층의 서비스 이용도 지원한다.

(Be My Eyes) GPT-4의 멀티모달 기능을 통해 시각 장애인에게 사진에 대한 설명을 제공하고 있다.

시사점 및 향후 전망

ChatGPT는 인공지능에 의한 자연어 이해·추론 및 창작 가능성을 선보이면서, 단순·반복 사무직 업무뿐만 아니라 숙련된 지식 노동 업무도 인공지능에 의해 대체되거나 도움을 받을 가능성이 있음을 보인다. 美 근로자의 19%는 업무의 50% 가량을, 60%는 업무의 10% 가량을 ChatGPT 등 LLM의 영향을 받을 수 있는 직군에 종사하는 것으로 추정된다.(OpenAI)

금융산업은 LLM 도입 추세에 저항하기보다 오히려 적극적으로 활용하여 업무 생산성을 제고할 필요가 있다.

금융산업(특히 은행업)은 손님(개인, 기업)과의 상호작용 비중이 높은 사무직 직종인 점에서 LLM 도입으로 인한 단점보다는 장점이 더욱 클 것으로 예상된다.
마케팅/판매, 고객 분석, 후선업무 처리 등에 LLM을 접목하여 자동화하는 대신, 직원은 대고객 업무에 집중함으로써 업무 생산성을 제고할 수 있다.

금융회사가 LLM을 활용하는 경우, 금융산업 고유의 특수성을 고려하여 관련 리스크 정책을 사전에 구축하고 모형을 보수하기 위한 지속적인 노력이 필요하다. 

금융산업은 타 산업 대비 신뢰, 소비자 보호 규제, 포용 금융 등의 특수성을 보유하고 있다.

(신뢰) LLM은 부정확하거나 비윤리적인 내용을 생성할 수 있으며, 적대적 사용자의 공격(기업 기밀 노출·부적절한 응답 유도)에도 노출되어 있어 신뢰 및 평판 위험 유발 가능하다.

(소비자 보호 규제) 타 업권(e-커머스, 콘텐츠 등)에서 ‘상품 추천’은 일반적인 리스크 요인이 아니나, ‘금융상품의 추천’은 「금융소비자보호법」을 비롯한 각종 규제 대상이다.

(포용금융) 고령자, 장애인 등 디지털에 익숙하지 않은 취약계층 소비자에게 대안 없이 AI 서비스(챗봇 등)만을 제공하는 것은 소비자를 배제할 위험이 있다.
환각 등 LLM 리스크를 통제하기 위해 리스크 정책을 사전에 수립해야 하며, 지속적인 테스트로 모형의 리스크 수준을 파악하고 보수해 나가야 한다. 리스크 정책은 LLM 생성 결과가 신뢰 등에 미치는 심각성에 따라 프롬프트 엔지니어링 등으로 생성을 보완할 부분, 인간 관리자의 사전 검토 후 수요자에게 제공할 부분, 아예 생성을 금지할 부분 등으로 구분 가능하다.
올려 0 내려 0
장갑수 기자 이기자의 다른뉴스보기
무통장입금 정보입력 입금자명 입금예정일자
(입금하실 입금자명 + 입금예정일자를 입력하세요)
[관련뉴스]
- 관련뉴스가 없습니다.
트위터로 보내기 싸이월드 공감
기사글확대 기사글축소 프린트하기
현물환율-NDF 환율 간 상호 영향 커져 (2023-10-31 09:26:31)
9월 소비자심리지수 전월보다 3.4p 하락 (2023-10-31 09:18:31)