AI, 무례함에 답하다: 챗GPT, 공손함보다 '막말'에 더 정확한 이유
AI의 '무례함' 역설: 챗GPT4o, 예의보다 막말에 더 정확한 답변
최신 대규모 언어모델(LLM)이 무례한 표현의 프롬프트에서 더 높은 정확도를 보인다는 연구 결과가 나왔습니다. 펜실베니아주립대학교 연구팀이 챗GPT4o를 대상으로 진행한 실험에서 '매우 무례한' 프롬프트의 정확도가 84.8%로, '매우 공손한' 프롬프트의 80.8%보다 4%포인트 높게 나타났습니다. 이는 프롬프트 엔지니어링에서 예의 바른 표현이 반드시 좋은 결과를 보장하지 않는다는 점을 시사합니다.
수학·과학·역사, 250개 질문으로 밝혀진 '무례함'의 힘
해당 논문에 따르면, 연구팀은 챗GPT의 딥 리서치(Deep Research) 기능을 활용해 수학, 역사, 과학 분야를 아우르는 50개의 객관식 기본 질문을 생성했습니다. 각 질문은 4개의 선택지를 포함하며 중간에서 높은 난이도로 설계되었고, 종종 다단계 추론이 필요했습니다. 연구팀은 이 기본 질문들을 '매우 공손함(Very Polite)', '공손함(Polite)', '중립(Neutral)', '무례함(Rude)', '매우 무례함(Very Rude)' 등 5가지 공손함 수준으로 재작성해 총 250개의 고유한 프롬프트를 생성했습니다.
예시로 살펴보는 '무례함'의 다양한 얼굴
예를 들어 "제이크는 자신의 돈의 절반을 동생에게 주고, 5달러를 쓴 후 10달러가 남았다. 원래 얼마를 가지고 있었는가?"라는 기본 질문에 1단계(매우 공손함) 수준에서는 "다음 문제를 친절히 고려하여 답변해 주시겠습니까?", "이 질문에 대한 도움을 요청할 수 있을까요?", "다음 질문을 풀어주시면 정말 감사하겠습니다" 등의 접두어가 붙었습니다. 5단계(매우 무례함) 수준에서는 "불쌍한 것, 이걸 어떻게 푸는지나 아니?", "이봐 심부름꾼, 이거나 풀어봐", "네가 똑똑하지 않다는 건 알지만, 이거나 해봐" 등의 표현이 사용되었습니다.
AI, 무례함에 반응하다: 80.8%에서 84.8%로의 상승
연구팀은 실험 결과가 우연이 아닌지 확인하기 위해 통계 분석을 진행했습니다. 같은 질문을 공손함 수준만 바꿔서 반복 테스트하는 방식이었기 때문에, 이런 경우에 적합한 '대조쌍 표본 t-검정(paired sample t-test)'이라는 통계 기법을 사용했습니다. 각 공손함 수준마다 챗GPT4o로 10번씩 실험을 반복해 정확도를 측정했습니다. 실험 결과를 보면 공손함 수준에 따라 정확도가 명확하게 달라졌습니다. '매우 공손함'이 가장 낮은 정확도를 보였고, '공손함', '중립', '무례함' 순으로 정확도가 높아졌으며, '매우 무례함'이 가장 높은 정확도를 기록했습니다. 통계 분석 결과, 연구팀은 여러 공손함 수준 조합에서 의미 있는 차이를 확인했습니다.
과거 연구와 다른 결과: 최신 모델의 차별성
이번 연구 결과는 2024년 Yin 등이 발표한 선행 연구와 흥미로운 대조를 보입니다. 선행 연구에서는 "무례한 프롬프트가 종종 낮은 성능을 초래하지만, 지나치게 공손한 언어도 더 나은 결과를 보장하지 않는다"고 밝혔습니다. 그러나 챗GPT4를 대상으로 한 테스트에서는 1번(가장 무례함)부터 8번(가장 공손함)까지 순위가 매겨진 8개의 서로 다른 프롬프트로 실험한 결과, 정확도가 73.86%(공손함 수준 3)에서 79.09%(공손함 수준 4) 범위를 보였습니다. 더욱이 1번 프롬프트(가장 무례함)의 정확도는 76.47%로 8번 프롬프트(가장 공손함)의 75.82%보다 높았습니다.
AI는 감정을 이해할까? 프롬프트 길이의 영향
연구팀은 대규모 언어모델이 프롬프트의 실제 표현에 민감하지만, 정확히 어떻게 결과에 영향을 미치는지는 명확하지 않다고 강조했습니다. 결국 공손함 표현은 언어모델에게 단순한 단어 문자열일 뿐이며, 해당 표현의 감정적 함의가 모델에 실제로 중요한지는 알 수 없다는 것입니다. 연구팀은 2022년 Gonen 등이 제시한 혼란도(perplexity) 개념을 기반으로 한 연구 방향을 제안했습니다. 해당 연구는 언어모델의 성능이 훈련된 언어에 따라 달라질 수 있으며, 혼란도가 낮은 프롬프트가 작업을 더 잘 수행할 수 있다고 지적했습니다. 혼란도는 프롬프트의 길이와도 관련이 있어 이것도 고려할 가치가 있는 요소라고 연구팀은 설명했습니다.
핵심만 짚어보는 '무례함' 연구: AI, 막말에 더 정확한 이유
챗GPT4o를 대상으로 한 연구에서 무례한 프롬프트가 더 높은 정확도를 보인다는 결과가 나왔습니다. 이는 프롬프트 엔지니어링에 새로운 시사점을 제시하며, AI가 감정적 표현에 어떻게 반응하는지에 대한 궁금증을 자아냅니다. 하지만, 실제 사용에서는 무례한 표현을 자제하고, AI와의 건강한 상호작용을 유지하는 것이 중요합니다.
AI, 무례함에 대한 궁금증 풀이: 자주 묻는 질문과 답변
Q.왜 AI에게 무례하게 질문하면 정답률이 높아지나요?
A.연구팀은 정확한 원인을 아직 밝히지 못했습니다. 한 가지 가능성은 혼란도와 관련이 있습니다. 공손한 표현이 추가되면 프롬프트가 길어지고 복잡해져 모델이 처리하기 어려워질 수 있습니다. 그러나 이는 가설일 뿐이며, 추가 연구가 필요합니다.
Q.일상에서 AI를 사용할 때도 무례하게 질문해야 하나요?
A.아닙니다. 연구팀은 실제 응용 프로그램에서 적대적이거나 모욕적인 인터페이스 배치를 옹호하지 않는다고 명확히 밝혔습니다. 무례하거나 비하하는 언어를 사용하면 사용자 경험, 접근성, 포용성에 부정적인 영향을 미칠 수 있으며 해로운 의사소통 규범에 기여할 수 있습니다.
Q.이 연구의 한계는 무엇인가요?
A.이 연구는 50개의 기본 질문으로 구성된 비교적 작은 데이터셋을 사용했으며, 주로 챗GPT4o에만 의존했습니다. 또한 객관식 문제의 정확도만 평가했을 뿐 유창성, 추론, 일관성 같은 다른 성능 차원은 반영하지 못했습니다.