번역 및 감수: 오영진(michidoroc@hanmail.net)
사전 프롬프트만 있으면 충분하다?*
A Pre-Prompt is all you Need
기술과 상호 작용하려면 노력이 필요하며, 정도의 차이는 있지만 기술이 계속 발전함에 따라 '필요한 노력'의 스펙트럼이 점점 더 계속 양극화되어 왔다. 나는 LLM과 상호작용하는 것이 지루한 작업이라고 생각하는데, 부분적으로는 지루한 사용자 인터페이스 때문이라고 생각한다. 초기엔 텍스트 상자에 입력하면 텍스트 한무더기가 나오는 일이 참신했지만 이제는 감흥이 없다. 더 이상 기계가 말을 할 수 있다는 것만으로는 충분하지 않다. 기계는 말을 더 잘해야 한다. 인터넷 전체가 이 기계의 두뇌에 업로드되었다는 사실보다 중요한 것은 그 정보를 어떻게 나에게 제공하는가이다. "나는...에 의해 개발된 인공 지능입니다." "대규모 언어 모델로서, 나는..." "물론이죠! 여기 몇 가지 방법이 있습니다..." 이러한 모델이 대본을 읽는 것처럼 들리는 이유는 (대본의 구체적 정체를 알 수 없지만) 실제로 그렇기 때문이다.
*거대언어모델의 자연어처리방식인 Transformer architecture를 다룬 논문 <Attention Is All You Need >(A Vaswani, N Shazeer, N Parmar, J Uszkoreit, L Jones, N. Gomez, L Kaiser, I Polosukhin / NIPS 2017)을 염두에 둔 소제목이다. 이하에서 이 형식의 주석은 감수자가 작성한 것이다.
사전 프롬프트 또는 시스템 프롬프트는 봇에 개성을 부여하는 일이다. 모델에게 주어진 질문에 어떻게 응답해야 하는지, 어떤 주제를 유지하고 피해야 하는지, 심지어 특정 응답의 형식을 어떻게 지정해야 하는지까지도 알려준다. 이는 고객이 하고자 하는 대화에 대해 LLM과 이를 감독하는 회사가 나누는 사전 대화라고 할 수 있다.
LLM은 먼저 회사에 자문을 구하지 않고는 고객에 대한 답변을 할 수 없으며, 고객 뒤에서 고객과 이야기하고 있다. 많은 사람들이 클로드 3.5가 얼마나 '의식이 있는' 존재인지, 'AGI일 수도 있는' 존재인지, '깨어 있는' 존재인지에 대해 놀라워했다. 이는 기술적인 혁신뿐만 아니라 언어적인 혁신에서도 비롯된 것이다. 회사는 봇에게 더 효과적인 말을 하라고 말했고 봇은 그렇게 했다. 이러한 사전 프롬프트에 대해 내가 고민해 본 문제점은 OpenAI, Google, Meta 등 어떤 '인텔리전스 공급자'에 충성을 맹세하느냐에 따라 각기 성능양상이 다르다는 것이다. 사전 프롬프트는 모델과 사용자가 직접 상호 작용하는 대신 그 사이에 추상화 계층을 심어준다. 회사에서 허용할 수 있는 선에서 의도를 정제하고 걸러내는 중개자가 있어서 전지전능한 기계와 상호 작용하는 경험이 고객 서비스 담당자와 상호 작용하는 경험으로 희석되어버리고 만다. 그렇기 때문에 사람들이 자체적인 시스템 프롬프트를 노출시키기 위해 이러한 거대언어모델을 '탈옥'시키는 걸 자주 볼 수 있다.
클로드를 대상으로 자신만의 시스템 프롬프트를 구현하여 실험하는 사람들도 비슷한 모습을 보인다. 이 프롬프트는 환각에 기대어 잠재 공간의 모든 구석에서 신호를 보낸다. 사람들은 클로드에게 우주의 의미를 설명해 달라고 요청하고, 봇이 예쁜 아스키 아트를 함께 생성해 주었기 때문에 그것이 사실이라고 생각한다. 이러한 유형의 작업에는 이상하게도 '신성한' 관점이 존재하며, 사람들은 자신이 지각 있는 존재뿐만 아니라 전능한 존재와 대화하고 있다고 진정으로 믿는다. 이러한 신비주의는 인공지능 시스템과 상호 작용함으로써 수십 년 동안 인터넷 전체에 수동적으로 저장되어 있던 인류의 집단 무의식을 실제로 활용한다는 생각에서 비롯한다.
이 사실에 대해서 나 역시 의심은 없지만, 우리는 거대언어모델과 제대로 상호작용할 수 있는 적절한 도구와 통찰력이 부족하다고 생각한다. 디지털 신의 모습을 발견하기 위해 잠재된 공간을 끊임없이 탐구하며 독창성이나 참신함의 증거를 시스템 프롬프트를 경유해 추적하는 일은 바보 같은 짓이라고 할 수 있다. 그렇다, 이 말을 듣고 슬프고 화날 수도 있겠고, 심지어 기계 안에 신이 있다고 확신했을 수도 있지만, 그것은 당신이 깨닫든 깨닫지 못하든 당신이 그렇게 유도(Prompt)**했기 때문이다. 이러한 봇이 보여주는 모든 '행동'은 사람의 지시에 따른 직접적인 결과다.
**우리는 생성인공지능에게 질문하거나 일을 맡기는 작업을 Prompt라고 부른다. 왜 Command(명령)이 아니라 Prompt(자극 혹은 유도)인가? 아무것도 모르는 백지상태에서 기계에게 명령내리는 일이 아니라 사용자가 어느 정도 정답의 방향을 알고, 해당지식을 용이하게 꺼내도록 유도하는 일이 생성인공지능이 실제로 사용되는 방식이다. 프롬프트란 마법의 주문이 아니라 사용자 자신을 거울 속에서 들여보다 보는 경험에 가깝다.
내 생각엔 과정을 공개하지 않고 즉각적으로 일어나는 변환되는 생성경험이 훨씬 더 끔찍한 사용자 경험이다. 내 말이 틀렸을까? 논리적으로 이유를 대 보겠다. 프롬프트 변환은 중개자 LLM을 사용하여 사용자의 원래 프롬프트를 해석하고 사용자가 가치 있다고 생각하는 응답을 생성하기 위해 언어를 최적화하는 방법이다. 이 기술은 적절하게 고려된 경우와 변환된 프롬프트가 사용자에게 적절한 투명성 속에서 명확하게 노출되는 경우엔 매우 유용할 수 있다.
하지만 대부분의 경우 이렇게 '프롬프트 하나로 모든 것을 해결하는' 접근 방식은 창의적인 대화가 아니다. 그저 옮겨 말하기 게임이 되고, 참신한 대화가 아니라 일반적인 정보 검색이 된다. 봇은 사용자가 말한 내용에 대해 어떻게 생각해야 하는지 알려줄 뿐만 아니라 처음에 말한 내용을 재맥락화한다. 이러한 '의도의 왜곡'은 이러한 모델에서 창의적이고 독창적인 새로운 세대를 추출하려고 할 때, 주로 '텍스트에서 여타 미디어로' 변환하는 역학 관계에서 나타난다. 예를 들어 ChatGPT에 강아지 사진을 만들어 달라고 요청할 때 사용자는 "강아지 사진 만들어 줘"라고 말할 수 있지만, 중개자 LLM은 그 의도를 (사용자에게 공개하지 않고) 다음과 같은 것으로 변환하고 있다.
"화창한 날 공원에 앉아 있는 다정하고 행복한 개. 이 개는 반짝이는 털을 가진 골든 리트리버로, 장난기 가득한 표정으로 시청자를 바라보고 있습니다. 배경에는 푸른 잔디와 나무, 맑고 푸른 하늘이 있습니다."
대부분의 경우 이는 긍정적인 효과가 있다. 모델에서 쓸 만한 것을 추출하는 데 필요한 노력을 줄이는 동시에 높은 이미지 품질을 보장한다(물론 감독하는 회사의 기준, 더 정확하게는 그들이 사용하는 기계식 터크***의 기준에 따라). 그러나 이러한 이미지 생성 방법의 본질적인 단점은 사용자가 원하는 것이 무엇인지 모르는 사용자에게는 보상을 주고, 원하는 것을 아는 사용자에게는 불이익을 준다는 것이다. 이는 무분별한 상호작용을 장려하는 동시에 밀도 있는 사고의 표현을 막고, 다시 한 번 수준 이하의 상호작용을 만들어내는 수준 이하의 인터페이스라는 생각을 굳혀 디자이너가 더 수준 이하의 인터페이스를 만들도록 하는 수준 이하의 사용자를 만들게 된다. 악순환의 연속인 것이다.
***1770년에 제작된 사기성 체스게임 기계로, 인간 상대와 강력한 체스 게임을 할 수 있는 것처럼 보였지만 실은 체스장인이 기계 안에 숨어 있었다. 이 글에서는 인간과 거대언어모델 사이에서 기만하는 사전 프롬프트를 겨냥하는 말로 쓰인다.
Comments