• 최종편집 2025-01-15(수)
 

115-2.png

 

 

[시큐리티팩트=김상규 기자] 구글이 6일(미국 현지시간) 인공지능(AI)의 기반이 되는 대규모 언어모델(LLM)인 '제미나이'(Gemini)를 발표했다. 제미나이는 멀티모달 기능을 갖춤에 따라 텍스트는 물론, 사진과 영상, 음성도 인식한다.


제미나이는 개발단계 처음부터 다양한 모달리티에 대한 사전 학습을 통해 설계돼 기존 멀티모달 모델보다 훨씬 뛰어나다고 구글은 설명했다.


제미나이는 울트라, 프로, 나노의 3개 모델로 구성된다. 가장 많은 양을 학습한 제미나이 울트라의 경우 성능 평가항목에서 오픈AI의 GPT-4를 뛰어넘는 것으로 나타났다. 제미나이 울트라는 내년초 출시예정이다. 


제미나이 울트라는 50여개 주제를 복합적으로 활용해 지식과 문제 해결 능력을 평가하는 대규모 다중작업 언어 이해(MMLU)에서 사람의 점수를 넘는다고 구글은 강조했다.


제미나이는 AI가 카메라로 실제 사람의 행동을 보며 상호 소통을 한다.


구글이 공개한 영상에서 제미나이는 실시간 시야 인식 능력을 갖추며 사람과 같은 사물 인식과 판단력을 갖춘 모습이 구현됐다.


사람이 종이에 펜으로 오리를 그리자 제미나이가 '새'임을 인식하고, 오리 옆에 물결 표시를 그리자 '오리'라고 답했다.


오리의 몸을 파란색으로 칠하자 "흔치 않지만, 파란 오리도 있다"고 소개하는가 하면 파란색 장난감 오리를 보여주자 "고무 오리다"라고도 했다.


수학과 물리학에 대한 인식도 정교해졌다.


앞면이 네모난 모양의 차량과 삼각형인 차량 중 어느 차량이 더 빠를지를 묻자 "공기역학이 적용된 세모난 차가 더 빠르다"는 답이 돌아왔다.


수학 문제와 함께 오답을 낸 풀이 과정을 보여주자, 틀린 부분을 정확히 지적하고 올바른 수식도 내놓았다.


영상과 음악에서도 높은 인지 능력을 보였다. 기타를 그리면 기타로만 연주한 곡을, 드럼과 베이스를 그리면 밴드 곡을 연주하기도 했다.


태그

전체댓글 0

  • 28048
비밀번호 :
메일보내기닫기
기사제목
구글, 멀티모달 AI ‘제미나이’ 발표
보내는 분 이메일
받는 분 이메일