ChatGPT 5.5: Đây là bước tiến mới của OpenAI về tính tự chủ, chi phí và ứng dụng chuyên nghiệp.

  • ChatGPT 5.5 cải thiện khả năng suy luận, tính tự chủ và việc sử dụng máy tính so với GPT-5.4, đồng thời duy trì độ trễ tương tự.
  • Anh ấy xuất sắc trong lập trình phần mềm, công việc văn phòng, phân tích dữ liệu và nghiên cứu khoa học, đạt được kết quả hàng đầu trong các tiêu chuẩn quan trọng.
  • Giá mỗi token tăng lên, nhưng hiệu quả cao hơn và mức tiêu thụ thấp hơn đồng nghĩa với việc chi phí thực tế có thể thấp hơn trong các tác vụ phức tạp.
  • OpenAI tăng cường bảo mật trong lĩnh vực an ninh mạng và sinh học, đồng thời triển khai GPT-5.5 và phiên bản Pro của nó cho người dùng Plus, Pro, Business và Enterprise.

Trò chuyệnGPT 5.5

OpenAI vừa đưa ra một tuyên bố táo bạo khác với sự ra mắt de GPT-5.5, mô hình đưa thế hệ ChatGPT mới nhất lên một cấp độ tự chủ và khả năng suy luận cao hơn nhiều. Dựa trên những gì chúng ta đã thấy cho đến nay, công ty giới thiệu đây là hệ thống trực quan và hiệu quả nhất của họ để xử lý các tác vụ phức tạp từ đầu đến cuối, giảm thiểu nhu cầu giám sát liên tục của người dùng.

Động thái này diễn ra vào thời điểm Cuộc đua giành vị trí dẫn đầu trong trí tuệ nhân tạo tạo sinhTrong khi Anthropic và Google cũng đang đẩy nhanh tiến độ phát triển mô hình của riêng mình, GPT-5.5 sẽ được ra mắt đầu tiên trên ChatGPT và Codex dành cho người dùng trả phí, kết hợp những cải tiến trong lập trình, công việc văn phòng, nghiên cứu khoa học và sử dụng máy tính thực tế, với mức phí nhất định. Việc tăng giá mà OpenAI đang cố gắng biện minh một cách hiệu quả đáng kể thông qua việc sử dụng token..

GPT-5.5 là gì và nó đóng vai trò gì trong chiến lược của OpenAI?

Theo OpenAI, GPT-5.5 đánh dấu một bước tiến mới trong khả năng suy luận bền vững và làm việc tự chủ với máy tính.Mô hình này được thiết kế để thực hiện các nhiệm vụ dài, nhiều bước: nó có thể nhận các chỉ dẫn không theo thứ tự, phân tích chúng, lập kế hoạch những việc cần làm trước tiên, lựa chọn và sử dụng các công cụ, xem xét kết quả của chính mình và tiếp tục ngay cả khi có sự mơ hồ trong chỉ dẫn.

Công ty định nghĩa đó là trí tuệ nhân tạo (AI) của họ. trực quan nhất cho đến nayThay vì chỉ đơn thuần trả lời các câu hỏi riêng lẻ, GPT-5.5 hoạt động như một tác nhân: nó duy trì ngữ cảnh trong suốt các quy trình phức tạp, điều hướng thông tin trên web, thực thi các lệnh, thao tác với tài liệu và ứng dụng văn phòng, và trả về kết quả được cấu trúc sẵn, sẵn sàng để sử dụng trong môi trường chuyên nghiệp.

Buổi ra mắt bao gồm... Phiên bản GPT-5.5 Pro, hướng đến các tác vụ phức tạp hơn. Ứng dụng này đã có người dùng cần câu trả lời chính xác hơn trong các lĩnh vực như luật, kinh doanh, giáo dục hoặc phân tích dữ liệu nâng cao. ChatGPT cũng có một chế độ... Suy nghĩ GPT-5.5Được thiết kế để giải quyết các vấn đề đặc biệt khó khăn trong lập trình, nghiên cứu hoặc phân tích thông tin.

Tính tự chủ và ứng dụng thực tiễn của máy tính: từ chatbot đến trợ lý ảo trong công việc.

Một trong những canh bạc lớn của OpenAI là đặt cược vào khả năng hoạt động của GPT-5.5 như một... agente autónomo Trên máy tính, mô hình có thể tìm kiếm thông tin, quyết định thông tin nào là phù hợp, kết hợp các nguồn, vận hành phần mềm và công cụ theo trình tự, và chuyển đổi các tài liệu rời rạc thành sản phẩm hữu ích, mà người dùng không cần phải chỉ định tỉ mỉ từng bước.

Trong cuộc sống thường nhật, điều này thể hiện qua các công việc như sau: Tạo các tài liệu, bảng tính hoặc bài thuyết trình phức tạpXem xét hợp đồng, chuẩn bị báo cáo, phân tích cơ sở dữ liệu hoặc tạo bản tóm tắt chi tiết từ nhiều tệp tin. Công ty khẳng định rằng GPT-5.5 hiểu nhu cầu của người dùng nhanh hơn và tự động xử lý phần lớn công việc hơn so với các phiên bản trước đó.

Để minh họa cho sự thay đổi này, OpenAI đã đưa ra các ví dụ nội bộ: Các nhóm tài chính sử dụng Codex và GPT-5.5 để xem xét hàng chục nghìn biểu mẫu thuế. Trong thời gian ngắn hơn nhiều, các bộ phận truyền thông có thể tự động hóa việc chấm điểm và đánh giá rủi ro trên khối lượng lớn yêu cầu, hoặc các bộ phận tiếp thị và sản phẩm đã giảm đáng kể thời gian dành cho các báo cáo định kỳ nhờ quy trình làm việc tự động.

Hiệu suất trong lập trình tác nhân và phát triển phần mềm

GPT-5.5 thể hiện những cải tiến trong lập trình và điều mà OpenAI gọi là "lập trình tác nhân" - việc sử dụng AI như một tác nhân để viết, gỡ lỗi và bảo trì mã từ đầu đến cuối. Trong môi trường phát triển, mô hình có thể quản lý các kho lưu trữ lớn, đề xuất các tái cấu trúc phức tạp, xác định nguồn gốc lỗi và dự đoán những phần nào của hệ thống sẽ bị ảnh hưởng bởi một thay đổi.

Trên điểm chuẩn Terminal-Bench 2.0GPT-5.5, công cụ đo lường các quy trình làm việc phức tạp trên dòng lệnh, đạt được... 82,7%Rõ ràng là nó hoạt động tốt hơn GPT-5.4, và làm được điều đó trong khi tiêu thụ ít token hơn. SWE-Bench ProTập trung vào việc giải quyết các vấn đề thực tế trên GitHub, mô hình này đạt được những thành tựu nhất định. 58,6%và trong quá trình đánh giá nội bộ Chuyên gia SWEVới những nhiệm vụ mà thời gian ước tính của con người vào khoảng 20 giờ, nó cũng vượt trội hơn so với phiên bản tiền nhiệm.

Các kỹ sư đã thử nghiệm các phiên bản đầu tiên chỉ ra rằng GPT-5.5 hiểu rõ hơn về kiến ​​trúc tổng thể của các hệ thống phức tạp.Trong các bài kiểm tra nội bộ, người ta đã nêu ra các trường hợp như hợp nhất nhánh với hàng trăm thay đổi được giải quyết trong khoảng hai mươi phút, thiết kế lại gần như hoàn toàn các hệ thống con (ví dụ: hệ thống bình luận trong trình soạn thảo cộng tác) hoặc phát hiện sớm các lỗi mà trước đây cần nhiều lần lặp lại hơn.

Trong Codex, môi trường kỹ thuật phần mềm của OpenAI, GPT-5.5 có cửa sổ ngữ cảnh lên đến 400.000 token, cho phép nó làm việc với các codebase rất lớn. Nó cũng có chế độ nhanh tạo ra khoảng [số lượng token cần thiết]. Nhanh hơn 1,5 lầnTuy nhiên, với chi phí mỗi token cao hơn, nó được thiết kế dành cho những người ưu tiên tốc độ phản hồi.

Công việc đòi hỏi kiến ​​thức chuyên môn, kinh doanh và sử dụng văn phòng hàng ngày.

Ngoài việc phát triển phần mềm, GPT-5.5 được thiết kế như một công cụ dành cho công việc chuyên nghiệp trong môi trường văn phòng, tư vấn hoặc phân tích dữ liệu. OpenAI khẳng định rằng những khả năng giúp cải thiện lập trình giờ đây cho phép thực hiện các nhiệm vụ phân tích và lập tài liệu hiệu quả hơn.

Trên điểm chuẩn GDPval, đánh giá khả năng thực hiện công việc chuyên môn cụ thể trong 44 nghề nghiệpGPT-5.5 thu được 84,9% số câu trả lời đúng hoặc số câu trả lời bằng nhau. Trong Được OSWorld xác minhMột bài kiểm tra được thiết kế để xác minh xem mô hình có thể tự động xử lý các môi trường điện toán thực tế hay không, đã được đưa ra. 78,7%. Trong Tau2-bench TelecomTập trung vào dịch vụ khách hàng trong lĩnh vực viễn thông, đạt được... 98% mà không cần phải điều chỉnh lời nhắc, điều này cho thấy hiệu suất cao trong các tình huống hỗ trợ.

Đối với mục đích sử dụng trong doanh nghiệp, OpenAI nhấn mạnh rằng: Hơn 85% nhân viên của họ sử dụng Codex hàng tuần. trong các lĩnh vực như kỹ thuật, tài chính, tiếp thị, dữ liệu hoặc sản phẩm. Các trường hợp như tự động hóa báo cáo hàng tuần, giúp tiết kiệm từ năm đến mười giờ mỗi người mỗi tuần, minh họa cho loại lợi ích mà công ty đạt được từ mô hình mới khi nó được tích hợp vào quy trình kinh doanh.

Nghiên cứu khoa học, sinh học và toán học cao cấp

Nghiên cứu khoa học là một chủ đề trọng tâm khác trong bài thuyết trình GPT-5.5. OpenAI đang nhắm đến các quy trình làm việc cần thiết. Khám phá các giả thuyết, thu thập bằng chứng, kiểm tra các giả định, giải thích kết quả và quyết định thí nghiệm tiếp theo.một môi trường mà khả năng suy luận theo ngữ cảnh bền vững là yếu tố then chốt.

Trong các thử nghiệm như GeneBenchTập trung vào các nhiệm vụ sinh học và di truyền học, GPT-5.5 cải thiện kết quả so với GPT-5.4, và biến thể này... GPT-5.5 Pro Nó đạt được điểm số thậm chí còn cao hơn. Trong BixBenchTheo thông tin từ công ty, mô hình mới này tập trung vào tin sinh học và sinh học định lượng, đồng thời đạt hiệu suất tốt nhất trong số các hệ thống có dữ liệu đã được công bố cho đến nay.

OpenAI thậm chí còn đưa ra các ví dụ về việc sử dụng trong toán học cao cấp, trong đó... Một phiên bản nội bộ của GPT-5.5 đã hợp tác trong việc tìm kiếm một bài kiểm tra mới liên quan đến các số Ramsey ngoài đường chéo.Điều này sau đó đã được xác minh trong công cụ hỗ trợ chính thức Lean. Công ty đưa ra trường hợp này như một ví dụ về cách mô hình không chỉ tạo ra mã hoặc giải thích, mà còn có thể đóng góp vào các lập luận toán học trong các lĩnh vực phức tạp.

Trên thực tế, các lời chứng thực từ các nhà nghiên cứu đã sử dụng GPT-5.5 Pro được đề cập đến. Phân tích các tập dữ liệu biểu hiện gen với hàng chục nghìn biến số và một số lượng mẫu đáng kể.Thu thập các báo cáo chi tiết, các góc độ phân tích mới và các câu hỏi quan trọng trong một khung thời gian mà theo tính toán của họ, sẽ mất nhiều thời gian hơn nếu chỉ dựa vào sức lao động của con người.

Độ trễ, thời gian suy luận và hiệu quả của token

Đằng sau sự ra mắt của GPT-5.5 là một thông điệp kiên định: Nó giúp tăng cường trí thông minh của mô hình mà không làm giảm tốc độ phản hồi.OpenAI tuyên bố rằng hệ thống mới này có độ trễ trên mỗi token tương đương với GPT-5.4 trong điều kiện hoạt động thực tế, mặc dù có khả năng cao hơn, điều này khá hiếm gặp ở các mô hình lớn và phức tạp hơn.

Một trong những điểm chính là thời gian suy luận cần thiết để hoàn thành các nhiệm vụ phức tạpNhững người dùng đầu tiên đã so sánh hiệu suất với các phiên bản trước đó cho biết rằng các quy trình trước đây cần từ 20 đến 40 phút làm việc nay được giải quyết chỉ trong ba hoặc bốn phút, vẫn duy trì—và thậm chí cải thiện—chất lượng phản hồi.

Sự cải thiện này không chỉ đến từ tốc độ thuần túy, mà còn từ... quản lý token tốt hơnGPT-5.5 yêu cầu ít token hơn để đạt được kết quả tương đương hoặc tốt hơn so với GPT-5.4, giúp giảm cả tổng thời gian xử lý và chi phí liên quan đến mỗi quy trình. Trong các trường hợp có khối lượng truy vấn lớn hoặc tự động hóa chuyên sâu, sự khác biệt này có thể rất quan trọng.

OpenAI giải thích rằng, để duy trì độ trễ, họ đã phải... Thiết kế lại quá trình suy luận như một hệ thống tích hợp.GPT-5.5 được đồng thiết kế, huấn luyện và triển khai trên cơ sở hạ tầng phần cứng NVIDIA hiện đại (GB200 và GB300 NVL72), và chính GPT-5.5 cùng với Codex đã được sử dụng để tối ưu hóa cân bằng tải và thuật toán phân vùng, giúp tăng tốc độ tạo token trên hệ thống của họ lên hơn 20%.

Giá cả, chi phí thực tế và so sánh với GPT-5.4

Mặc dù GPT-5.5 nằm ở Mức giá cao cho mỗi tokenOpenAI khẳng định rằng, trên thực tế, nó có thể tiết kiệm chi phí hơn so với phiên bản tiền nhiệm và một số đối thủ cạnh tranh. Lý do là sự kết hợp của... hiệu quả sử dụng token cao hơn và ít cần phải thử lại hơn hoặc sửa chữa.

Trong API, giá tham chiếu được báo cáo cho GPT-5.5 là 5 đô la cho một triệu token đầu vào và 30 đô la cho một triệu token đầu ravới cửa sổ ngữ cảnh có thể chứa tới một triệu token. Ví dụ: GPT-5.5 Pro, tỷ lệ tăng lên 30 đô la cho mỗi triệu token được đưa vào và 180 đô la cho mỗi triệu token được rút ra.Rõ ràng là nhắm đến những trường hợp mà giá trị gia tăng từ phản hồi vượt trội hơn chi phí.

OpenAI cũng cung cấp các chế độ như sau: Dịch vụ Batch và Flex với mức giá chỉ bằng khoảng một nửa giá tiêu chuẩn.và chế độ Ưu tiên, nhân chi phí lên 2,5 lần để đổi lấy độ ưu tiên xếp hàng cao hơn và thời gian phản hồi ngắn hơn. Công ty thừa nhận rằng GPT-5.5 đắt hơn GPT-5.4 về mặt danh nghĩa, nhưng lập luận rằng việc giảm số lượng token cần thiết cho mỗi tác vụ và thời gian suy luận ngắn hơn đã biện minh cho chi phí này. So với các mô hình khác, chúng có thể giảm tổng chi phí của các dự án phức tạp..

Trên thị trường, chính sách này đặt GPT-5.5 ở vị trí cao hơn các mô hình OpenAI trước đây và thấp hơn các giải pháp thay thế cao cấp mà theo ước tính được chia sẻ trong bài thuyết trình, có thể đắt hơn từ năm đến mười lần trên thực tế khi xét đến sự kết hợp giữa giá cả, số token tiêu thụ và chất lượng kết quả.

Bối cảnh dài và hiệu suất trong các bài kiểm tra đánh giá khả năng suy luận

Một cải tiến dễ nhận thấy khác của GPT-5.5 là khả năng của nó... Làm việc với các ngữ cảnh rất rộng mà không bị lạc đề.. Trong các thử nghiệm như Graphwalks BFS 1Mmô hình đạt tới 45,4% so với 9,4% đối với GPT-5.4, và trong OpenAI MRCR v2 Với bối cảnh từ 512 đến 1 triệu token, con số này tăng lên. 74,0%so với 36,6% ở phiên bản trước.

Trong lĩnh vực suy luận trừu tượng, GPT-5.5 ghi nhận... 95,0% ở ARC-AGI-1 và 85,0% ở ARC-AGI-2Với những cải tiến đáng kể so với GPT-5.4. Trong các bài kiểm tra kiến ​​thức nâng cao như... GPQA Kim cươngTập trung vào những câu hỏi vô cùng khó, nó đạt được... 93,6%và trong các đánh giá như Kỳ thi cuối cùng của nhân loại Tỷ lệ này vượt quá 50% khi được phép sử dụng các công cụ bên ngoài.

OpenAI nhấn mạnh rằng nhiều đánh giá này đã được thực hiện tại... môi trường nghiên cứu với cấu hình suy luận ở mức độ rất cao.Do đó, kết quả có thể hơi khác so với những gì người dùng ChatGPT cảm nhận trong thực tế. Tuy nhiên, công ty vẫn muốn truyền tải thông điệp rằng GPT-5.5 đại diện cho một... Một bước tiến vượt bậc trong các nhiệm vụ thực tế, chứ không chỉ là sự cải thiện về mặt học thuật trong các bảng xếp hạng..

Bảo mật, an ninh mạng và sử dụng có trách nhiệm

Việc gia tăng năng lực đòi hỏi phải củng cố... biện pháp bảo vệ an ninhOpenAI tuyên bố rằng GPT-5.5 được ra mắt với hệ thống bảo vệ tiên tiến nhất từ ​​trước đến nay, sau khi trải qua các đánh giá nội bộ và bên ngoài, các khuôn khổ sẵn sàng cụ thể và các quy trình tấn công giả lập với các chuyên gia an ninh mạng và sinh học.

Trong khuôn khổ của nó Khung chuẩn bịCông ty phân loại các khả năng của GPT-5.5 như sau: Sinh học, hóa học và an ninh mạng ở cấp độ "Cao cấp".mà không đạt đến mức "Nghiêm trọng". Tuy nhiên, nó thừa nhận rằng mô hình này hiệu quả hơn GPT-5.4 trong việc tìm kiếm và khai thác các lỗ hổng, và do đó đã được triển khai. các bộ phân loại nghiêm ngặt hơn cho các yêu cầu nhạy cảm và các cơ chế chống lại việc sử dụng rủi ro lặp đi lặp lại, điều này có thể hạn chế hơn đối với một số người dùng kỹ thuật.

Song song đó, OpenAI hướng đến việc mở rộng khả năng tiếp cận các tính năng tiên tiến hơn cho các ứng dụng phòng thủ đã được xác minh thông qua các chương trình như Truy cập đáng tin cậy cho an ninh mạngNhững công cụ này được thiết kế đặc biệt dành cho các tổ chức chịu trách nhiệm bảo vệ cơ sở hạ tầng trọng yếu. Ý tưởng là cung cấp các công cụ phòng thủ mạnh mẽ mà không làm giảm bớt các biện pháp kiểm soát đối với các mục đích tấn công tiềm tàng.

Trong lĩnh vực nghiên cứu sinh học, công ty đã khởi xướng các sáng kiến ​​như sau: các chương trình khen thưởng cho việc phát hiện các lỗi sinh học trong hành vi của mô hìnhVới mục đích nhờ cộng đồng khoa học giúp xác định các thiếu sót và cải thiện các biện pháp bảo vệ trước khi triển khai rộng rãi hơn.

Tính khả dụng của GPT-5.5 và việc triển khai nó trong các sản phẩm

Việc triển khai GPT-5.5 đã bắt đầu cho Người dùng ChatGPT và Codex Plus, Pro, Business và Enterprisetrong cả môi trường cá nhân và doanh nghiệp. Tại Codex, mô hình này được tích hợp vào quy trình phát triển phần mềm với cửa sổ ngữ cảnh mở rộng và các chế độ phản hồi nhanh.

La Phiên bản GPT-5.5 Pro Tính năng này đang được kích hoạt dần dần cho người dùng Pro, Business và Enterprise, những người cần mức độ chi tiết và chính xác cao hơn, đặc biệt là trong các lĩnh vực được quản lý chặt chẽ hoặc có tác động lớn, nơi sai sót có thể gây tốn kém. Trong ChatGPT, người dùng cũng bắt đầu thấy các tùy chọn cụ thể như... Suy nghĩ GPT-5.5 Đối với các vấn đề nghiên cứu hoặc phân tích phức tạp.

Về API, OpenAI đang nghiên cứu và phát triển. Tích hợp GPT-5.5 và GPT-5.5 Pro vào các điểm cuối Phản hồi và Hoàn thành trò chuyện của bạn. Với số lượng cửa sổ ngữ cảnh đạt đến một triệu token. Công ty cho biết quyền truy cập sẽ được mở rộng khi các yêu cầu về bảo mật nội bộ và năng lực cơ sở hạ tầng được đáp ứng, để các nhà phát triển có thể tích hợp mô hình này vào ứng dụng của riêng họ sau khi giai đoạn này hoàn tất.

Sự ra mắt của GPT-5.5 đánh dấu một giai đoạn chuyển đổi trong quá trình phát triển của ChatGPT: Trọng tâm đang chuyển từ việc chỉ đơn thuần tạo ra văn bản sang tự động hóa toàn diện các tác vụ kỹ thuật số, với các mô hình tự động hơn có khả năng suy luận trong thời gian dài hơn và hoạt động trên các hệ thống thực tế, với chi phí cao hơn và cuộc tranh luận ngày càng gay gắt về vấn đề bảo mật và quản trị.Trong bối cảnh châu Âu, nơi mà việc điều chỉnh AI đang được tiến bộ và các công ty đang tìm kiếm hiệu quả mà không làm mất đi khả năng kiểm soát, cách thức mà các tổ chức, nhà phát triển và cơ quan quản lý áp dụng—hoặc hạn chế—việc sử dụng GPT-5.5 có thể quan trọng không kém gì các số liệu chuẩn đi kèm với mô hình mới này.

Đại lý ChatGPT
Bài viết liên quan:
ChatGPT Agent: OpenAI bước vào thế giới đại lý tự động để tự động hóa các tác vụ phức tạp