"릴리스가 GPT-5라면 OpenAI가 여전히 앞서 있습니다. AI 검색이나 음성 어시스턴트라면 OpenAI는 사라진 것입니다."
한 AI 빅 모델 실무자는 Tiger Sense에 OpenAI에 대한 업계의 기대치가 너무 높아서 GPT-5처럼 파괴적인 혁신이 아니라면 대중의 '식욕'을 만족시키기 어려울 것이라고 말했습니다.
샘 알트먼은 OpenAI 라이브 방송 전에 GPT-5(또는 GPT-4.5)가 공개되지 않을 것이라고 예측했지만, 외부의 OpenAI에 대한 기대치가 너무 높아진 지 오래되었습니다.
북경 시간으로 5월 14일 새벽, OpenAI는 옴니모델을 뜻하는 o를 붙여 최신 GPT-4o를 발표했습니다. 20분간 진행된 데모 방송은 현재의 모든 음성 비서를 훨씬 능가하는 AI 대화 경험을 보여주었으며, 기본적으로 이전에 외신에서 공개한 소식과 겹치는 부분이 있었습니다.
GPT-4o 데모는 여전히 "크래커"였지만, 알트먼의 티저에 나오는 "마법"에 비할 바는 아니라는 평가가 지배적이었습니다. 알트먼의 티저에서 "마법"이라는 단어가 사용되었습니다. 많은 사람들은 이러한 기능적 제품이 'OpenAI의 사명에서 벗어난 일탈'이라고 생각합니다.
OpenAI의 홍보팀은 이러한 여론의 방향을 예상한 듯합니다. 알트만은 출시 후 블로그 게시물에서 다음과 같이 설명했습니다."우리 미션의 핵심은 놀랍도록 강력한 AI 도구를 사람들에게 무료로(또는 할인된 가격으로) 제공하는 것입니다. 저는 세계 최고의 모델을 광고나 그 어떤 것 없이 무료로 제공하는 ChatGPT를 만든다는 사실이 매우 자랑스럽습니다.
오픈AI를 시작할 때만 해도 AI를 만들어 세상을 위한 모든 종류의 혜택을 창출하겠다는 것이 저희의 원래 생각이었죠. 하지만 지금은 우리가 AI를 만들고 다른 사람들이 이를 활용해 우리 모두에게 도움이 되는 온갖 종류의 놀라운 것들을 만들어내는 것처럼 보입니다."
"모든 응답을 '매번' 기다려야 한다면 사용자 경험은 무너집니다. 합성된 오디오 자체는 사실적으로 들리더라도 몰입감을 깨고 생동감이 떨어집니다."
오픈AI 출시 전날, 엔비디아의 임베디드 AI 책임자인 짐 팬은 오픈AI 앳 엑스에서 출시될 음성 비서를 다음과 같이 예측하며 다음과 같이 제안했습니다. >거의 모든 음성 AI는 세 단계를 거칩니다.
1. 음성 인식 또는 "ASR": 오디오 - 텍스트1, 예: Whisper;
2. 다음에 말할 내용 계획하기: text1 - text2;
3. 음성합성 또는 "TTS. ": text2 -> 오디오(예: ElevenLabs 또는 VALL-E)
3단계를 거치면 지연이 크게 발생할 수 있습니다.
GPT-4o는 다음과 같은 측면에서 우수합니다. 응답 속도, 지연 시간 문제 거의 해결 GPT-4o는 오디오 입력에 대해 최소 232ms, 평균 320ms의 응답 시간으로 사람과 거의 유사한 수준으로 반응합니다. GPT-4o가 없는 ChatGPT 음성 대화 기능의 평균 지연 시간은 2.8초(GPT-3.5)와 5.4초(GPT-4)였습니다.
GPT-4o는 지연 시간을 줄여 사용 환경을 획기적으로 개선할 뿐만 아니라 다음과 같은 여러 가지 업그레이드를 통해 GPT-4를 기반으로 합니다.
음성, 비디오, 화면 공유를 포함한 뛰어난 멀티모달 상호작용 기능.
사람의 표정, 텍스트, 수학 공식을 실시간으로 인식하고 이해합니다.
대화형 음성은 감정이 풍부하며, 목소리 톤과 스타일을 바꾸고, 흉내를 내고, 심지어 노래를 '즉흥적으로' 부를 수도 있습니다.
초저지연과 대화 도중에 실시간으로 AI를 중단하여 정보를 추가하거나 새로운 주제를 시작할 수 있는 기능도 제공합니다.
이 기능은 모든 ChatGPT 사용자에게 무료로 제공됩니다(사용량 제한 있음).
GPT-4 터보보다 2배 빠르며 API 비용은 50% 낮고 요금 한도는 5배 높습니다.
"이러한 한계를 뛰어넘는 혁신입니다."
업계 전문가들은 GPT-4o의 멀티모달 기능은 '보기' 좋을 뿐이며 OpenAI는 실제로 시각적 멀티모달의 '획기적'이라고 할 만한 것을 보여주지 못했다고 주장했습니다. 시각적 멀티모달리티를 위한 "획기적".
대형 모델 업계의 관례에 따라 바로 옆에 있는 앤트로픽의 클로드 3와 비교해 보겠습니다.
클라우드 3의 기술 문서에 따르면 "클로드의 이미지 이해 능력은 좋지만 그다지 뛰어나지는 않습니다. Claude의 이미지 이해 기능은 최첨단을 달리고 있지만 몇 가지 한계가 있습니다."라고 명시되어 있습니다.
이러한 한계는 다음과 같습니다.
사람 인식: Claude는 이미지에서 사람을 인식(예: 이름)하는 데 사용할 수 없습니다. 이를 거부합니다.
정확도: 저화질, 회전된 이미지 또는 200픽셀 미만의 매우 작은 이미지를 해석할 때 Claude는 착각하거나 실수할 수 있습니다.
공간적 추론: 클로드의 공간적 추론은 제한적입니다. 아날로그 시계 바늘을 읽거나 체스 말의 정확한 위치를 설명하는 등 정확한 위치나 레이아웃이 필요한 작업에는 어려움을 겪을 수 있습니다.
카운팅: 클로드는 이미지에 있는 개체의 대략적인 개수를 알려줄 수 있지만, 특히 작은 개체가 많은 경우 정확하지 않을 수 있습니다.
AI 생성 이미지: Claude는 이미지가 AI로 생성되었는지 여부를 알지 못하며, 요청 시 정확하지 않을 수 있습니다. 가짜 이미지나 합성 이미지를 탐지하는 데 의존하지 마세요.
부적절한 콘텐츠: Claude는 이용 제한 정책을 위반하는 부적절하거나 노골적인 이미지를 처리하지 않습니다.
의료 애플리케이션: Claude는 일반적인 의료 이미지를 분석할 수 있지만, CT나 MRI와 같은 복잡한 진단 스캔의 해석을 위해 설계되지 않았으며, Claude의 결과물은 전문적인 의료 자문이나 진단을 대체하는 것으로 간주해서는 안 됩니다.
GPT-4o 웹사이트에 게시된 사례 중 '공간 추론' 관련 기능이 있는 사례는 다수 있습니다. ' 관련 능력을 가지고 있지만 여전히 획기적인 것은 아닙니다.
또한 출시 이벤트의 라이브 데모에서 GPT-4o의 모델링 기능이 GPT-4와 크게 다르지 않다는 것을 쉽게 알 수 있습니다.
GPT-4o 런타임 점수
모델이 대사에 톤을 더하고 즉흥 연기를 할 수도 있지만, 여전히 GPT-4만큼의 디테일과 창의성은 부족합니다.
또한, 컨퍼런스 이후 OpenAI 웹사이트에 GPT-4o의 사용 사례 탐색 시리즈가 공개되었습니다. 여기에는 사진에서 만화 스타일로 변환, 회의록, 이미지 합성, 이미지 기반 3D 콘텐츠 생성, 손글씨 및 초안 생성, 양식화된 포스터 및 만화 스트립 생성, 아트 글꼴 생성 등이 포함됩니다.
이 중 사진을 만화 스타일로, 회의록을 만화로 등 다양한 기능들은 흔히 볼 수 있는 텍스트 생성 다이어그램이나 AI 빅 모델 기능이기도 합니다.
"ChatGPT 플러스 구독을 위해 월 20달러를 지불하지 않고도 무료 ChatGPT 계정 5개에 가입할 수 있나요?"
오픈AI가 발표한 GPT-4o 사용 정책에 따르면 ChatGPT 플러스 가입자는 일반 사용자에 대한 제한보다 5배 높은 트래픽 제한을 적용받습니다.
GPT-4o는 누구나 무료로 사용할 수 있으며, 가장 먼저 도전하는 것은 OpenAI의 자체 비즈니스 모델입니다.
서드파티 시장 분석 플랫폼인 Sensor Tower가 발표한 데이터에 따르면 지난 한 달 동안 ChatGPT는 글로벌 앱스토어에서 700만 다운로드와 1,200만 달러의 구독 수익을 기록했으며, 글로벌 구글 플레이 마켓플레이스에서는 9,000만 다운로드를 달성했습니다. 백만 건과 3백만 달러의 구독 수익을 달성했습니다.
현재 ChatGPT Plus는 두 앱 스토어에서 $19.99에 구매할 수 있습니다. 구독 데이터로 추정한 결과, 지난 한 달 동안 앱 스토어를 통해 75만 명의 유료 구독자가 ChatGPT Plus를 이용했습니다. 여전히 많은 수의 직접 유료 구독자를 보유하고 있지만, 모바일을 통한 매출은 연간 2억 달러 미만에 불과하며, 이를 몇 배로 늘린다고 해도 OpenAI의 1천억 원에 가까운 기업가치를 뒷받침하기는 어렵습니다.
이것을 보면 OpenAI는 개별 사용자에게 과금하는 것에 대해 크게 고민할 필요가 없습니다.
또한, GPT-4o는 좋은 경험에 초점을 맞추기 때문에 AI와 채팅을 하다가 끊겨서 다시 채팅하려면 계정을 변경해야 한다면 화를 내면서 충전해야 할까요?
"기존 ChatGPT는 언어 인터페이스의 가능성을 암시했지만, 이 새로운 것은 근본적으로 다른 느낌입니다. 빠르고, 스마트하고, 재미있고, 자연스럽고, 도움이 됩니다."
샘 알트먼의 최신 블로그는 "언어 인터페이스의 가능성"에 대해 언급하며, GPT-4o가 앞으로 모든 GUI(그래픽 인터랙션 인터페이스)에 도전할 것으로 예상됩니다. LUI의 한계를 뛰어넘고자 하는 사람들.
최근 OpenAI와 Apple의 협력 소식과 함께, 우리는 곧 GPT-4o가 모든 AI PC 및 AI 휴대폰 제조업체에 "올리브 가지를 던지거나" "테이블을 들어 올리게 될 것"이라고 추측할 수 있습니다. "테이블을 들어 올리다".
어떤 종류의 음성 비서든, AI 빅모델이든 AIPC, AI 휴대폰의 핵심 가치는 경험을 최적화하는 것이며, GPT-4o는 한 번에 경험을 극한까지 최적화했습니다.
GPT-4o는 알려진 모든 앱, 심지어 SaaS 업계에도 적용될 가능성이 높습니다. 지난 1년여 동안 시장에서 개발되었거나 개발 중인 모든 AI 에이전트가 위험에 처하게 될 것입니다.
어떤 리소스 통합 앱 제품 관리자는 "내 운영 프로세스는 제품의 핵심이며, 운영 프로세스가 ChatGPT에 의해 최적화된다면 내 앱은 가치가 없는 것과 마찬가지"라고 Tiger Sense에 말한 적이 있습니다.
테이크아웃 앱에서 "음식을 주문해줘"라는 문장으로 UI를 구성한 다음 미국 그룹을 열거나 배고프다를 열면 사용자 입장에서는 똑같다고 상상해 보십시오.
제조업체의 다음 단계는 공급망, 생태적 이익률, 심지어 악의적인 가격 전쟁을 압축하는 것뿐입니다.
현재 형태로는 다른 벤더가 모델 역량 측면에서 OpenAI를 따라잡기까지 시간이 걸릴 것 같습니다.
제품이 OpenAI를 따라잡을 수 있는 유일한 방법은 더 저렴한 모델을 만드는 것입니다.
"요즘 너무 바빠서 신경을 쓰지 못했습니다."
대형 산업용 AI 모델의 창립자 중 한 명은 최근 전략적 파트너십, 제품 출시, 고객 교류 및 자본 교환에 대해 소통하느라 바빠서 OpenAI 같은 출시에 관심을 기울일 시간이 전혀 없었다고 TigerSense에 말했습니다.
오픈AI 출시에 앞서 타이거센스가 국내 각계각층의 AI 실무자들에게 물어본 결과, 오픈AI의 최신 버전에 대한 예측과 견해는 한결같이 매우 기대되지만 나와는 상관없다.
한 실무자는 현재 한국의 발전 상황을 볼 때 단기간에 OpenAI를 따라잡는다는 것은 현실적이지 않다고 말했습니다. 따라서 OpenAI의 발표에 관심이 있다면 최신 기술 방향을 살펴보는 것이 최선이라고 합니다.
현재 국내 기업들은 일반적으로 AI 모델 개발 측면에서 보다 실용적이고 실현하기 쉬운 엔지니어링 및 버티컬 모델에 더 많은 관심을 갖고 있습니다.
엔지니어링 측면에서는 최근 두각을 나타내고 있는 딥시크가 국내 빅 모델 업계에서 토큰 가격 전쟁을 촉발하고 있습니다. 다수의 업계 관계자들은 단기적으로는 소형 모델과 수직 모델 개발이 기본적으로 OpenAI에 인질로 잡히지 않을 것이라고 타이거센스에 말했습니다.
"때로는 OpenAI의 기술 방향이 그다지 가치가 없습니다." 한 모델링 전문가는 허프포스트와의 인터뷰에서 2024년 2월 OpenAI는 안정적인 60초 동영상 출력을 달성한 비디오 모델 Sora를 출시했는데, 이는 좋은 예라고 말했습니다. 잘 작동하는 것처럼 보이지만 후속 연습은 거의 이루어지지 않았고 착륙 속도가 매우 느립니다.
소라 이전에는 빈센 비디오 분야의 많은 국내 기업과 조직이 15초의 안정적인 비디오 생성을 달성했으며, 소라가 나온 후 일부 회사의 연구개발, 자금 조달, 제품 리듬에 혼란을 겪었고, 심지어 전체 빈센 비디오 산업의 발전을 '기술 도약'으로 진화시켰습니다.
다행히도 이번 GPT-4o는 소라와는 매우 다르며, OpenAI CTO Muri Murati는 "앞으로 몇 주 동안 반복적인 배포를 계속하여 모든 기능을 제공할 것"이라고 말했습니다.
출시 직후. GPT-4o는 온라인 평가판을 사용할 수 있었습니다.