본 eGuide 전문을 통하여 생성형 AI가 무엇이며, 어디서 시작되었는지, 어떻게 작동하는지, 할 수 있는 일과 할 수 없는 일에 대해 명확하고 간결하게 설명합니다. 또한, 생성형 AI를 도입하려는 기업이 고려해야 할 사항, 책임, 실행 방법, 잠재적 위험 및 비용 등을 검토하고, 생성형 AI가 특히 뛰어난 분야를 살펴보세요.
생성형 AI(Generative AI) 의 정의, 생성형 AI란?
생성형 AI(Generative AI)는 신경망 기술을 활용하여 기존 머신러닝 모델과는 근본적으로 다른 복잡한 텍스트, 이미지, 오디오 및 기타 콘텐츠를 창조하는 알고리즘의 하나입니다. 이 모델들은 ‘생성형’이라 불리며, 형태와 내용에서 거의 무한한 다양성을 제공함으로써 인간의 시각적 및 언어적 출력을 탁월하게 모방할 수 있는 콘텐츠를 생성할 수 있습니다. 이는 기계가 인간과 구별하기 어려운 텍스트, 오디오, 비디오 및 이미지를 만들어내는 능력을 가지고 있음을 의미합니다.
인터넷과 마찬가지로, 생성적 AI도 일반 대중에게 널리 인식되기 이전에 오랫동안 학계에서 사용되었습니다. 두 혁신 모두 주요 기술적 성과를 넘어 사용의 편리성과 접근성을 통해 대중적인 관심을 받게 되었습니다. 이러한 변화의 예로, 2022년 11월에 출시된 ChatGPT는 생성적 AI 애플리케이션을 대중에게 친숙하게 만드는 데 기여했습니다. 이제 인터넷에 접속할 수 있는 사람이라면 누구나 Bard,Midjourney, DALL-E와 같은 도구를 사용하여 복잡한 머신러닝 과정 없이도 생성적 AI의 혜택을 누릴 수 있습니다. 이처럼 특별한 장비나 소프트웨어, 고도의 학식 없이도 사용할 수 있는 생성적 AI 도구들은 일상 생활에서 보통 사람들의 활동으로 자리잡게 되었습니다.
최신 생성형 AI 도구들은 매우 직관적이며 사용자 친화적인 인터페이스를 자랑합니다. ChatGPT는 이러한 도구들 중 하나로, 웹 페이지에 텍스트를 입력하는 것만큼 단순합니다. 사용자는 복잡한 지시어 없이 원하는 작업을 평범한 언어로 요청하기만 하면 즉각적인 반응을 받을 수 있습니다. 이에 따라 사용자들은 통계학이나 컴퓨터 사이언스, 소프트웨어 엔지니어링 분야의 깊은 전문 지식이나 프로그래밍 능력을 필요로 하지 않게 되었습니다.
대형 언어 모델(LLM) 이란?
LLM은 텍스트 기반 작업에서 우수한 성능을 위해 훈련되었습니다. LLM은 텍스트 요약, 지식 기반 검색 또는 코드 작성과 같은 다양한 언어 중심 작업을 수행할 수 있습니다. 이러한 작업은 자연어 명령 구문 분석을 포함하며, 고객 서비스 챗봇 역할과 같은 업무도 수행할 수 있습니다. 신경망을 통해 지원되기 때문에 LLM은 (비교적) 간단한 머신러닝 모델과 유사한 분류, 패턴 인식, 예측 및 자기 지시 기능을 수행할 수 있습니다.
가장 큰 차이점은 훈련 데이터를 기반으로 정보를 얻지만, 동시에 사람처럼 들리는 정교한 콘텐츠를 생성할 수 있다는 점입니다. 출력의 복잡성 수준은 다른 머신러닝 도구보다 훨씬 높습니다. LLM은 인터넷 전체에서 수집한 다양한 텍스트 데이터를 연구하는 방식으로 작동합니다. 모델은 스스로 학습하면서 새로운 텍스트와 기존 데이터 세트를 비교하는 새로운 텍스트 경로를 생성합니다.
이 모델은 통계 분석을 통해 참조 데이터와 얼마나 유사한지 판단하고 무엇을 할 수 있는지 학습한 후 다시 시도합니다. 이러한 학습 과정은 데이터 양에 따라 몇 달이 걸릴 수 있습니다. 결과적으로 이 모델은 가장 가능성이 높은 단어로 새로운 텍스트를 생성할 수 있는 능력을 가지고 있습니다.
LLM 분야에는 몇 가지 중요한 이름들이 있습니다. 구글의 BERT(Bidirectional Encoder Representations from Transformers)와 OpenAI의 GPT(Generative Pre-trained Transformer)는 모두 2018년에 출시되었습니다. 이들 모델은 트랜스포머 아키텍처를 사용하여 신경망 노드 배열을 설명합니다. 트랜스포머 모델은 지난 10년 동안 AI 연구에서 주목을 받았으며 특히 생성형 적대 신경망(GAN)에서의 발전을 나타냈습니다. 또한 구글은 자연스러운 대화를 위한 대화형 응용 언어 모델(LaMDA)을 출시하며 대화에 초점을 맞추었습니다. 마이크로소프트와 엔비디아는 메가트론 튜링 자연어 생성(MT-NLG) 모델에 협력하고 있습니다.
생성형 AI 사용에 대한 고려 사항과 책임
적절한 머신러닝 도구를 선택하는 것을 강조하는 이유는 다음과 같습니다:생성형 AI 사용에는 비용과 위험이 동반되며, 이를 관리하는 것이 현명한 비즈니스 관행입니다.
리더와 후원자들은 적절한 위험 완화 전략을 수립할 수 있도록 필요한 정보를 습득해야 합니다.사용자와 기업이 직면할 수 있는 몇 가지 잠재적 문제를 살펴보세요.
• 저작물의 저작권 침해 및 저작권성
우리는 앞서 대부분의 LLM 모델들이 인터넷에서 수집한 방대한 데이터 세트를 기반으로 어떻게 훈련받는지 언급했습니다. 그 데이터 중 일부는 공공 영역에 속하고 ‘공정한 사용’으로 볼 수 있지만,
전체 데이터 세트에 대해서는 그렇지 않습니다. 온라인 콘텐츠로 훈련된 재단 모델들은 소유자의 동의 없이 보상도 없이 저작권이 있는 자료를 사용하고 이득을 취하는 것이 대부분이며, 이는 저작권 침해를 의미합니다.
• 생성된 콘텐츠의 신뢰성 문제
LLM은 사실적이고 증거에 기반한 글쓰기보다는 인간이 쓴 것처럼 보이고 들리게 만드는 글을 생산하도록 설계되었습니다. 생성형 AI 모델은 종종 자신 있게 들릴 수 있지만, 그것이 반드시
옳은 정보라는 것을 의미하지는 않습니다. 이러한 모델들은 지각 능력이 없고, 사람처럼 그들이 말하는 바를 이해하지 못합니다. 그들은 단지 특정 키워드가 포함될 때 그 단어의 순서가 이 순서대로
나타날 가능성이 높다는 것을 알고 있을 뿐입니다. 그들은 진실과 거짓을 구별할 능력이 없으므로 사용자들은 이를 인식하고 주의해야 합니다. 생성형 AI 챗봇은 자주 부정확하며, 더 나쁜 것은
그들이 주장을 뒷받침하는 정보와 출처를 완전히 만들어낼 수 있다는 것입니다. LLM의 말을 그대로 받아들일 때의 결과는 사실 확인이 가능한 주장에 대한 가벼운 당혹감에서부터, 잘못된
정보에 기초한 중대한 사업 결정에 이르기까지 다양할 수 있습니다.
• 데이터 개인정보 보호 문제
사용자가 생성형 AI 도구의 공용 인터페이스에 직접 액세스하기로 결정했다면, 프롬프트 상자에 입력하는 모든 내용이 모델의 교육 데이터가 되어 제품의 발전에 기여하게 된다는 사실을 알고
있어야 합니다. 이로 인해 이미 삼성 사용자의 민감한 데이터 유출로 회사 전체에서 기술 사용이 금지된 바 있습니다. 아마존 역시 많은 주요 은행과 같이 이러한 조치를 취했습니다. 민감한 정보
또는 개인정보 보호 정보를 다루는 모든 기업은 공용 생성형 AI 도구 사용에 주의를 기울여야 합니다. 이러한 문제를 방지하기 위해서는 조직에 맞춰 특별히 제어되는 생성형 AI 모델을 사용하는 것이
바람직합니다.
• 모델의 설명 가능성과 투명성 문제
신경망이 본질적으로 블랙박스가 되는 경향이 있는 것은, 비지도 머신러닝 모델로서, 정확히 어떤 과정을 거쳐 결론에 이르는지 아무도 알지 못하기 때문입니다. 상업적 제품으로서 시장에 출시된 AI는,
기업이 훈련 데이터와 신경망 기술에 대해 비밀을 유지하도록 하는 비즈니스적 이해관계와 맞닿아 있습니다. 이러한 유형의 모델들은 감독 및 검사할 수 없고 설명할 수도 없으며, 책임질 수 있는
메커니즘도 제공하지 않습니다. 만약 AI의 추천에 따라 비수익성이거나 심지어 해로운 결정이 내려진다면 어떻게 해야 할까요?
이는 특히 의료, 은행 및 금융 서비스, 정부 및 정책 입안자, 그리고 제품이 인간의 건강과 생계에 영향을 미치는 모든 기업들에게 심각한 문제입니다.
• 환경에 미치는 영향
신경망을 훈련하고 유지하기 위해서는 상당한 컴퓨팅 파워가 필요합니다. 고급 GPU와 같은 모델을
실행하는 데 필요한 장비는 많은 에너지를 소비하며, 서버 스택을 냉각하는 실내 온도 제어 시스템 역시 마찬가지입니다. 에너지 소비는 탄소 배출과 직결되며 이는 기후 변화의 심화로 이어집니다.
(전기 요금이 들어간다는 점은 물론입니다.) 환경적 영향을 최소화하는 것은 모든 이의 책임이며, 특히 환경 목표를 설정한 조직에게 중요한 문제입니다.
• 내재된 편견과 혐오 발언
인터넷에서 필터링되지 않은 데이터로 LLM을 훈련시키면, 그 결과로 나오는 샘플들이 소외된 집단에 대한 사회적 편견을 반영할 수 있습니다. 전문가들은 온라인 담론의 익명성 때문에 성차별적이고
인종차별적인 내용이 원본 데이터에 지나치게 포함될 가능성이 높다는 것을 지적합니다. 모델 소유자가 제품에 설정한 안전 장치가 근본적인 문제를 해결하지 못하면, 그 효과는 제한적일 수 있습니다.
케냐를 포함한 여러 지역의 저임금 근로자들이 인간의 피드백에 의존하여 운영되는 강화 학습 기술을 통해 모델이 혐오 발언을 생성하지 않도록 훈련하는 과정 역시 문제를 일으킬 수 있습니다. 이들은
데이터 세트에서 부적절한 내용을 개별적으로 검토하고 모델이 해당 내용을 배제하도록 도와야 합니다.
• 사이버 공격과 사기의 위험
이것은 제품 사용 자체의 위험보다는 CISO와 IT 리더들에게 미리 경고하는 것에 가깝습니다. 해커와 기타 악의적인 행위자들은 이미 생성형 AI를 활용하여 랜섬웨어 공격, 피싱 사기, 그리고 다른
사이버 보안 위협을 전에 없이 빠르고 쉽게 실행하고 있습니다. 이에 대응하기 위해 대책을 강화하고 정교화하는 것이 시급합니다.
생성형 AI를 도입하려는 기업이 고려해야 할 사항, 책임, 실행 방법, 리스크 등 더 자세한 설명과 E-guide 전문을 살펴보시려면 아래 버튼을 클릭하시어, 백서를 다운로드 받으세요!
ALTAIR RAPIDMINER를 활용한 안전하고 투명한 생성형 AI 도구 사용
Altair RapidMiner 플랫폼은 데이터 수집부터 모델링, 운영, 시각화에 이르기까지 전체적인 엔드투엔드 솔루션을 제공합니다.
이는 데이터 사이언티스트, 엔지니어부터 비즈니스 분석가, 경영진까지 다양한 전문성을 가진 사용자들이 데이터로부터 최대한의 가치를 끌어낼 수 있게 설계되었습니다.
고객들이 LLM의 강력한 기능을 안전하고 안정적으로 활용할 수 있도록 생성형 AI를 솔루션에 통합했으며, Altair RapidMiner는 고객이 생성형 AI 모델을 쉽게 접근하고 구축할 수 있도록 지원합니다. 이를 통해 워크플로 설계를 더욱 신속하게 진행할 수 있습니다.
더 많은 정보를 원하시면 알테어 래피드마이너(Altair RapidMiner) 페이지를 방문해 주세요.