본문 바로가기
얼리어답터 리뷰/IT정보

Microsoft의 챗 GPT-4 vs Google의 제미나이 Gemini Ultra 성능 비교 과연 인공지능 AI 대결 누가 승자일까?

by 엔돌슨 2023. 12. 16.
반응형

Microsoft의 챗 GPT4 vs Google의  제미나이 Gemini Ultra 성능 비교 과연 인공지능 AI 대결 누가 승자일까?

최근 기술계에 파란을 일으킨 뉴스가 있습니다. Microsoft가 그들의 최신 연구를 통해 Google의 차세대 언어모델, 제미나이 울트라를 능가하는 성과를 공개했습니다.

 

이번 성과의 핵심은 '고도의 프롬프트 엔지니어링'입니다. Microsoft의 연구 결과와 사용된 새로운 프롬프트 기술들에 대해 자세히 살펴보겠습니다.

 

역시 챗GPT를 품은 MS의 인공지능이 한수위!

Microsoft의 연구팀은 인공지능 분야에서 오랜 기간 동안 선구적인 역할을 해왔습니다. 이번 연구는 기존의 프롬프트 기법을 개선하여 언어 모델의 성능을 극대화하는 것에 초점을 맞추었습니다. 연구는 주로 '메드프롬프트'라는 새로운 프롬프트 전략에 기반을 두고 있습니다.

 

메드프롬프트의 개념

메드프롬프트는 Microsoft 연구팀이 개발한 새로운 프롬프트 전략입니다. 주로 의학 분야에 특화되어 있습니다. 소수의 예시 선택, GPT-4에서 생성된 사고 프롬프트 체인, 다수결 선택 앙상블 등 다양한 기법을 결합합니다. 방법은 기존의 프롬프트 기법보다 훨씬 정교하고, 다양한 분야에서 뛰어난 성과를 낼 수 있음을 입증했습니다.

 

 

챗 GPT-4와 제미나이 울트라의 비교

 

Microsoft는 메드프롬프트를 GPT-4에 적용하여 여러 벤치마크에서 Google의 제미나이 울트라를 앞서는 성적을 달성했습니다. 비교는 다음과 같습니다:

 

 


- MMLU (Massive Multitask Language Understanding) 테스트: GPT-4가 90.10%의 점수를 얻으며 제미나이 울트라를 약간 앞짐.

 

 

- GSM8K, MATH, HumanEval, BIG-Bench-Hard, DROP, HellaSwag 등의 테스트에서 GPT-4는 제미나이 울트라보다 더 높은 성적을 기록.

정말 조금 더 상사하게 보면, 성능의 차이가 납니다.

1. MMLU (Massive Multitask Language Understanding):
   - GPT-4: 90.10%
   - 제미나이 울트라: 90.04%

2. GSM8K:
   - GPT-4: 95.27%
   - 제미나이 울트라: 94.4%

3. MATH:
   - GPT-4: 68.42%
   - 제미나이 울트라: 53.2%

4. HumanEval:
   - GPT-4: 87.8%
   - 제미나이 울트라: 74.4%

5. BIG-Bench-Hard:
   - GPT-4: 89.0%
   - 제미나이 울트라: 83.6%

6. DROP:
   - GPT-4: 83.7%
   - 제미나이 울트라: 82.4%

7. HellaSwag:
   - GPT-4: 95.3%
   - 제미나이 울트라: 87.8%

GPT-4가 근소하지만 모두 더 앞서고 있습니다.  작은 차이를 보인 MMLU 벤치마크에서는 0.06% 더 높은 성능을 보였고, 가장 큰 차이를 보인 MATH 벤치마크에서는 15.22% 더 높은 성능을 보였습니다.

 

이걸보면, 데이터는 문제 해결 및 추론 능력에서부터 지식 이해에 이르기까지 다양한 유형의 작업에서 GPT-4의 성능 향상이 일관되게 나타나고 있습니다. GPT4 Win!

 

 

프롬프트 전략의 중요성

이번 연구에서 드러난 가장 중요한 점은 프롬프트 전략의 중요성입니다. 고도화된 프롬프트 전략을 통해 기존의 언어모델도 새로운 수준의 성능을 발휘할 수 있음을 입증했습니다. 이건 앞으로의 언어 모델 연구에 있어 중요한 지표가 될 것입니다.

 

 

AI 인공지능의 미래 전망

 

MS와 전략적인 관계의 OpenAI는 협력을 통해서 인공지능의 발전을 꾀하고 있습니다. 앞으로도 계속 인공지능은 우리의 일상에 계속 파고들 겁니다. MS 주가가 더 오르는 소리가 들리는군요.

 

하지만 인공지능 전쟁은 이제 시작인걸요.