"Nếu GPT-5 ra mắt thì OpenAI vẫn vượt xa. Nếu là AI Search hoặc trợ lý giọng nói thì có nghĩa là OpenAI đã suy thoái."
< p style="text-align: left;">Một người thực hành mô hình AI lớn nói với Huxiu rằng kỳ vọng của ngành đối với OpenAI quá cao, trừ khi đó là một sự đổi mới mang tính đột phá như GPT-5, nếu không sẽ khó đáp ứng được mong muốn của khán giả. ".Mặc dù Sam Altman đã dự đoán rằng GPT-5 (hoặc GPT-4.5) sẽ không được phát hành trước buổi phát sóng trực tuyến trực tuyến của OpenAI, nhưng kỳ vọng của thế giới bên ngoài đối với OpenAI đã có lâu rồi Cửu Ngưu không kéo nổi nữa.
Sáng sớm ngày 14 tháng 5, giờ Bắc Kinh, OpenAI đã công bố GPT-4o mới nhất, o là viết tắt của Omnimodel (model toàn năng). Buổi trình diễn trực tiếp kéo dài hơn 20 phút cho thấy trải nghiệm tương tác AI vượt xa tất cả các trợ lý giọng nói hiện tại và về cơ bản trùng khớp với những tin tức được truyền thông nước ngoài tiết lộ trước đó.
Mặc dù hiệu ứng trình diễn của GPT-4o vẫn có thể gọi là "nổ",nhưng những người trong ngành nhìn chung cho rằng khó có thể sánh được với hiệu suất trong trailer của Altman Từ "ma thuật". Nhiều người cho rằng những sản phẩm chức năng này “đi chệch khỏi sứ mệnh OpenAI”.
Đội ngũ PR của OpenAI dường như đã đoán trước được xu hướng này của dư luận. Altman đã giải thích điều này tại cuộc họp báo và trong một bài đăng trên blog sau hội nghị:
"Một phần quan trọng trong sứ mệnh của chúng tôi là cung cấp miễn phí các công cụ trí tuệ nhân tạo rất mạnh ( hoặc với mức giá hấp dẫn). Tôi rất tự hào rằng chúng tôi cung cấp miễn phí những mô hình tốt nhất trên thế giới trong ChatGPT , không có quảng cáo hoặc bất kỳ thứ gì tương tự. Ý tưởng là chúng ta sẽ tạo ra trí tuệ nhân tạo và sử dụng nó để tạo ra đủ loại lợi ích cho thế giới. Thay vào đó, bây giờ có vẻ như chúng ta sẽ tạo ra trí tuệ nhân tạo và sau đó những người khác sẽ sử dụng nó để tạo ra đủ thứ điều tuyệt vời. những điều có lợi cho tất cả chúng ta"
"Nếu chúng ta phải đợi 5 giây thì sẽ mất vài phút để nhận được câu trả lời 'mỗi' và. trải nghiệm người dùng bị hỏng, ngay cả khi bản thân âm thanh tổng hợp nghe có vẻ chân thực, nó sẽ phá vỡ sự đắm chìm và khiến người dùng có cảm giác thiếu sức sống."
Vào đêm trước tại hội nghị OpenAI, Jim Fan, người đứng đầu AI thể hiện của Nvidia, đã dự đoán trợ lý giọng nói mà OpenAI sẽ phát hành trên X và đề xuất:
Hầu hết tất cả AI lời nói đều trải qua ba các giai đoạn:
1. Nhận dạng giọng nói hoặc "ASR": Audio->Text 1 , chẳng hạn như Whisper;
2. Lên kế hoạch những gì sẽ nói tiếp theo LLM: text1 -> text2;
3. Tổng hợp giọng nói hoặc "TTS": text2 -> âm thanh, chẳng hạn như ElevenLabs hoặc VALL-E.
Việc trải qua 3 các giai đoạn có thể gây ra sự chậm trễ rất lớn.
GPT-4o gần như đã giải quyết được vấn đề độ trễ về mặt tốc độ phản hồi. Thời gian phản hồi tối thiểu của GPT-4o đối với đầu vào âm thanh là 232 mili giây và thời gian phản hồi trung bình của nó là 320 mili giây, gần giống như con người. Độ trễ trung bình của chức năng đàm thoại bằng giọng nói ChatGPT không có GPT-4o là 2,8 giây (GPT-3.5) và 5,4 giây (GPT-4).
GPT-4o không chỉ cải thiện đáng kể trải nghiệm bằng cách rút ngắn độ trễ mà còn thực hiện nhiều nâng cấp dựa trên GPT-4, bao gồm:
Khả năng tương tác đa phương thức tuyệt vời, bao gồm thoại, video và chia sẻ màn hình.
Có thể nhận dạng và hiểu các biểu thức, văn bản và công thức toán học của con người trong thời gian thực.
Giọng tương tác giàu cảm xúc, có thể thay đổi âm sắc và phong cách giọng nói, bắt chước, thậm chí là "ngẫu hứng" hát .
Độ trễ cực thấp và AI có thể bị gián đoạn theo thời gian thực trong cuộc trò chuyện để thêm thông tin hoặc bắt đầu chủ đề mới .
Tất cả người dùng ChatGPT đều có thể sử dụng miễn phí (có giới hạn sử dụng).
Tốc độ gấp 2 lần GPT-4 Turbo, chi phí API thấp hơn 50% và giới hạn tốc độ cao hơn gấp 5 lần.
"Bước đột phá trong những hạn chế này là Nó đổi mới.”
Một số chuyên gia trong ngành tin rằngKhả năng đa phương thức của GPT-4o chỉ “có vẻ” tốt, OpenAI không chứng tỏ được chức năng thực sự “đột phá” cho đa phương thức trực quan.
Ở đây chúng tôi theo dõi thói quen của ngành công nghiệp mô hình lớn và so sánh Claude 3 của Anthropic, nhà máy bên cạnh.
Tài liệu kỹ thuật của Claude 3 đề cập, “Mặc dù khả năng hiểu hình ảnh của Claude rất tiên tiến nhưng vẫn có một số hạn chế cần lưu ý.”
Bao gồm:
Nhận dạng người: Không thể sử dụng Claude để nhận dạng (tức là tên) người trong ảnh và sẽ từ chối làm như vậy.
Độ chính xác: Claude có thể gặp ảo giác hoặc sai sót khi diễn giải hình ảnh chất lượng thấp, bị xoay hoặc rất nhỏ dưới 200 pixel.
Suy luận không gian: Claude có khả năng suy luận không gian hạn chế. Nó có thể gặp khó khăn với các tác vụ yêu cầu định vị hoặc bố cục chính xác, chẳng hạn như đọc mặt đồng hồ kim hoặc mô tả vị trí chính xác của quân cờ.
Đếm: Claude có thể đưa ra số lượng gần đúng các đối tượng trong một hình ảnh, nhưng nó có thể không phải lúc nào cũng chính xác và chính xác, đặc biệt đối với Rất nhiều đồ vật nhỏ.
Hình ảnh do AI tạo ra: Claude không biết hình ảnh đó có phải do trí tuệ nhân tạo tạo ra hay không, và nếu hỏi thì có thể không phải Chính xác. Đừng dựa vào nó để phát hiện hình ảnh giả mạo hoặc tổng hợp.
Nội dung không phù hợp: Claude sẽ không xử lý các hình ảnh không phù hợp hoặc tục tĩu vi phạm Chính sách sử dụng được chấp nhận của chúng tôi.
Ứng dụng chăm sóc sức khỏe: Mặc dù Claude có thể phân tích các hình ảnh y tế tổng quát nhưng nó không được thiết kế để diễn giải các bản quét chẩn đoán phức tạp như CT hoặc MRI của . Kết quả của Claude không nên được coi là sự thay thế cho lời khuyên hoặc chẩn đoán y tế chuyên nghiệp.
Đã xuất bản trên trang web GPT-4o Trong trường hợp, có một số khả năng liên quan đến “suy luận không gian”, nhưng chúng vẫn khó được coi là đột phá.
Ngoài ra, có thể dễ dàng nhận thấy từ đầu ra của GPT-4o trong phần trình diễn trực tiếp tại buổi họp báo rằng khả năng mô hình của nó không khác nhiều so với GPT -4.
Điểm chuẩn GPT-4o
Mặc dù mẫu có thể thêm giai điệu vào cuộc trò chuyện và thậm chí hát ngẫu hứng nhưng nội dung cuộc trò chuyện vẫn thiếu chi tiết và nội dung như GPT-4 . sáng tạo.
Ngoài ra, sau cuộc họp báoTrang web chính thức của OpenAI cũng đã công bố một loạt khám phá trường hợp ứng dụng của GPT-4o. Bao gồm: chuyển đổi ảnh thành phong cách truyện tranh; tổng hợp hình ảnh; tạo nội dung 3D dựa trên hình ảnh; tạo áp phích cách điệu và tạo phông chữ nghệ thuật truyện tranh, v.v.
Trong số những khả năng này, ảnh theo phong cách truyện tranh, hồ sơ cuộc họp, v.v. đều là những bức ảnh Vincentian trông bình thường hoặc các mô hình AI lớn.
"Nếu tôi đăng ký 5 tài khoản ChatGPT miễn phí, tôi có cần phải chi 20 USD mỗi tháng để đăng ký ChatGPT Plus không?" /strong>
Chính sách sử dụng GPT-4o được OpenAI công bố là giới hạn lưu lượng truy cập đối với người dùng ChatGPT Plus cao gấp 5 lần so với người dùng thông thường.
GPT-4o miễn phí cho tất cả mọi người và thách thức đầu tiên dường như là mô hình kinh doanh của riêng OpenAI.
Dữ liệu do nền tảng phân tích thị trường bên thứ ba Sensor Tower công bố cho thấy trong tháng qua, ChatGPT đã được tải xuống 7 triệu lần trên App Store toàn cầu, với doanh thu đăng ký là 1.200 triệu đô la Mỹ; lượt tải xuống trên thị trường Google Play toàn cầu là 90 triệu đô la Mỹ và doanh thu đăng ký là 3 triệu đô la Mỹ.
Hiện tại, giá đăng ký ChatGPT Plus là 19,99 USD ở cả hai cửa hàng ứng dụng. Ngoại suy từ dữ liệu đăng ký, số lượng người đăng ký ChatGPT Plus thanh toán qua cửa hàng ứng dụng trong tháng qua là 750.000. Mặc dù ChatGPT Plus vẫn có số lượng lớn người dùng trả tiền trực tiếp, nhưng xét theo doanh thu từ điện thoại di động, doanh thu hàng năm chưa đến 200 triệu đô la Mỹ. Dù có tăng gấp đôi lên nhiều lần cũng sẽ khó hỗ trợ cho định giá của OpenAI. gần 100 tỷ đồng.
Từ quan điểm này, OpenAI thực sự không cần phải suy nghĩ quá nhiều về việc nạp tiền của từng người dùng.
Hơn nữa, GPT-4o tập trung vào trải nghiệm tốt. Nếu bạn đang trò chuyện với AI và sau đó bị ngắt kết nối, thì bạn có. để thay đổi tài khoản và trò chuyện lại, sau đó Bạn có giận dữ nạp tiền không?
“Bản gốc ChatGPT gợi ý về khả năng của giao diện ngôn ngữ; về cơ bản, giao diện mới này có vẻ khác biệt. và hữu ích ”
Blog mới nhất của Sam Altman đề cập đến "khả năng của giao diện ngôn ngữ", đây chính xác là trường hợp của GPT-4o. có thể làm tiếp theo: thách thức tất cả GUI (Giao diện đồ họa) và những người muốn làm việc trên LUI (Giao diện giọng nói).
Cộng với những tin tức gần đây được truyền thông nước ngoài tiết lộ về sự hợp tác giữa OpenAI và Apple, có thể suy đoán rằng GPT-4o có thể sớm được yêu cầu cho tất cả PC AI và các nhà sản xuất điện thoại di động AI “Ném cành ô liu” hay “lật bàn”.
Cho dù là loại trợ lý giọng nói hay mô hình AI lớn nào, giá trị cốt lõi của AIPC và điện thoại di động AI là tối ưu hóa trải nghiệm và GPT- 4o Trải nghiệm được tối ưu hóa đến mức tối đa cùng một lúc.
GPT-4o có khả năng tham gia vào tất cả các ứng dụng đã biết, thậm chí cả ngành SaaS. Trong khoảng một năm trở lại đây, tất cả các tác nhân AI đã và đang được phát triển trên thị trường sẽ phải đối mặt với các mối đe dọa.
Một người quản lý sản phẩm ứng dụng tổng hợp tài nguyên đã từng nói với Huxiu: "Quy trình vận hành của tôi là cốt lõi của sản phẩm. Nếu quy trình vận hành được ChatGPT của bạn tối ưu hóa, Điều đó có nghĩa là ứng dụng của tôi vô giá trị.”
Hãy tưởng tượng nếu giao diện người dùng của một ứng dụng đặt đồ ăn trở thành “Đặt món cho tôi” thì người dùng cũng vậy. họ mở Meituan hoặc Ele.me.
Bước tiếp theo đối với các nhà sản xuất chỉ có thể là thu hẹp biên lợi nhuận của chuỗi cung ứng và sinh thái, hoặc thậm chí tham gia vào các cuộc chiến giá cả khốc liệt.
Đánh giá từ tình hình hiện tại, có thể phải mất một thời gian nữa để các nhà sản xuất khác có thể đánh bại OpenAI về khả năng của mô hình.
Nếu sản phẩm muốn so sánh với OpenAI, điều đó chỉ có thể thông qua việc tạo ra một mô hình rẻ hơn.
“Gần đây tôi bận quá nên không để ý đến họ.”
Người sáng lập mô hình AI công nghiệp lớn nói với Huxiu rằng gần đây anh ấy đang bận trao đổi về hợp tác chiến lược, phát hành sản phẩm, trao đổi khách hàng và trao đổi vốn và không có thời gian để ý đến các bản phát hành như OpenAI.
Trước khi phát hành OpenAI, Huxiu cũng đã hỏi một số nhà thực hành AI trong nước từ nhiều ngành khác nhau. Họ đều có những dự đoán và ý kiến giống nhau về bản phát hành OpenAI mới nhất. :Rất mong chờ điều đó, nhưng nó chẳng liên quan gì đến tôi cả.
Một học viên nói rằng xét theo tiến độ hiện tại trong nước, việc bắt kịp OpenAI trong thời gian ngắn là không thực tế. Vì vậy, nếu bạn quan tâm đến những gì OpenAI đã phát hành, điều bạn có thể làm nhiều nhất là xem các hướng dẫn kỹ thuật mới nhất.
Hiện nay, các công ty trong nước thường chú ý nhiều hơn đến các mô hình kỹ thuật và dọc trong nghiên cứu và phát triển các mô hình AI lớn, mang tính thực dụng và dễ hiện thực hơn.
Về mặt kỹ thuật, Deepseek, vốn đã trở nên phổ biến gần đây, đang gây ra một cuộc chiến về giá mã thông báo trong ngành công nghiệp mô hình lớn trong nước. Về mô hình dọc, nhiều người trong ngành nói với Huxiu rằng việc phát triển các mô hình nhỏ và mô hình dọc về cơ bản sẽ không bị OpenAI đe dọa trong thời gian ngắn.
“Đôi khi hướng kỹ thuật của OpenAI không đáng để học hỏi.”Một chuyên gia về mô hình đã nói với Huxiu rằng Sora là một ví dụ điển hình đó là vào tháng 2 năm 2024, OpenAI đã phát hành mô hình video Sora, đạt đầu ra video ổn định 60 giây. Mặc dù nó có vẻ hoạt động rất tốt nhưng hầu như không có thực hành tiếp theo và tốc độ thực hiện rất chậm.
Trước Sora, nhiều công ty và tổ chức trong nước hoạt động trong lĩnh vực video Wensheng đã đạt được khả năng tạo video ổn định 15 giây. Sau khi Sora ra mắt, một số công ty R&D, tài chính và nhịp điệu sản phẩm đều bị gián đoạn,và thậm chí sự phát triển của toàn bộ ngành công nghiệp video Vincent đã phát triển thành một "bước tiến vượt bậc về công nghệ".
May mắn thay, lần này GPT-4o rất khác so với Sora. OpenAI CTO Muri Murati cho biết: "Trong vài tuần tới, chúng tôi sẽ tiếp tục triển khai lặp lại để mang tất cả các tính năng đến cho bạn.
Không lâu sau cuộc họp báo, GPT-4o đã có sẵn để dùng thử trực tuyến.