Anthropic đã trao tặng Petri, một bộ công cụ căn chỉnh mã nguồn mở, cho Meridian Labs. Petri giúp kiểm tra các mô hình AI về các xu hướng đáng lo ngại như lừa dối và xu nịnh. Việc này nhằm đảm bảo Petri vẫn độc lập và đáng tin cậy cho toàn bộ cộng đồng AI.
Bài viết được biên tập + bổ sung research từ nhiều nguồn. Đọc bài gốc tại Anthropic Research →
Anthropic đã trao tặng Petri, một bộ công cụ căn chỉnh mã nguồn mở, cho Meridian Labs. Petri giúp kiểm tra các mô hình AI về các xu hướng đáng lo ngại như lừa dối và xu nịnh. Việc này nhằm đảm bảo Petri vẫn độc lập và đáng tin cậy cho toàn bộ cộng đồng AI.
Vào tháng 10 năm 2025, chúng tôi đã ra mắt Petri, một bộ công cụ mã nguồn mở gồm các bài kiểm tra căn chỉnh có thể áp dụng cho bất kỳ mô hình ngôn ngữ lớn nào. Petri, được phát triển như một phần của chương trình Anthropic Fellows của chúng tôi, có thể được sử dụng để kiểm tra nhanh chóng và dễ dàng các mô hình AI về các xu hướng đáng lo ngại như lừa dối, xu nịnh và hợp tác với các yêu cầu có hại. Đây là một phần trong nỗ lực của chúng tôi nhằm phát triển các công cụ căn chỉnh mở và hữu ích cho toàn bộ cộng đồng phát triển AI.
Petri đã là một phần trong đánh giá căn chỉnh của chúng tôi cho mọi mô hình Claude kể từ Claude Sonnet 4.5. Nó so sánh cách mô hình mới hoạt động trong một loạt các kịch bản liên quan đến căn chỉnh được mô phỏng bởi một mô hình “kiểm toán viên” riêng biệt. Sau đó, một mô hình “thẩm phán” khác sẽ chấm điểm các bản ghi kết quả cho các hành vi không căn chỉnh.
Chúng tôi rất vui khi thấy Petri được các tổ chức bên ngoài sử dụng: ví dụ, Viện An ninh AI (AISI) của Vương quốc Anh đã biến nó thành một phần quan trọng trong cách họ đánh giá các mô hình về xu hướng phá hoại nghiên cứu AI.
Hiện chúng tôi đang cập nhật Petri lên phiên bản thứ ba. Dưới đây là một số thay đổi lớn nhất:
Chúng tôi cũng đang trao cho Petri một ngôi nhà mới. Chúng tôi đã chuyển giao việc phát triển nó cho Meridian Labs, một tổ chức phi lợi nhuận đánh giá AI. Động thái này—tương tự như khi chúng tôi quyên góp Giao thức Ngữ cảnh Mô hình (MCP) cho Linux Foundation—sẽ giúp đảm bảo rằng Petri vẫn độc lập với bất kỳ phòng thí nghiệm AI nào, để kết quả của nó sẽ được coi là trung lập và đáng tin cậy bởi những người trong ngành và hơn thế nữa.
Là một phần của Meridian Labs, Petri tham gia cùng các công cụ khác như Inspect và Scout, xây dựng một ngăn xếp công nghệ mở cho các phòng thí nghiệm, nhà nghiên cứu độc lập và chính phủ, vào thời điểm mà các bài kiểm tra đáng tin cậy về hành vi mô hình AI trở nên quan trọng hơn bao giờ hết.
Bạn có thể đọc thêm về Petri 3.0 trên blog của Meridian Labs.
Hướng dẫn cài đặt và sử dụng Petri có thể được tìm thấy trên trang web của Petri.
Quan điểm của chúng tôi về cuộc cạnh tranh AI giữa Mỹ và Trung Quốc.
Nghiên cứu mới về cách chúng tôi đã giảm thiểu sự sai lệch tác nhân.
Các mô hình AI như Claude nói bằng lời nhưng suy nghĩ bằng số. Trong nghiên cứu này, chúng tôi đào tạo Claude để dịch suy nghĩ của nó thành văn bản dễ đọc đối với con người.

Nghiên cứu mới từ Anthropic Fellows giới thiệu Model Spec Midtraining (MSM), một phương pháp căn chỉnh AI mang tính cách mạng. Thay vì chỉ huấn luyện AI bằng các ví dụ về hành vi đúng, MSM dạy cho mô hình lý do và nguyên tắc đằng sau các hành vi đó. Cách tiếp cận này giúp AI khái quát hóa tốt hơn trong các tình huống mới, giải quyết một trong những thách thức lớn nhất về an toàn AI hiện nay.
05/05/2026

Tốc độ cải tiến nhanh chóng của các mô hình ngôn ngữ lớn đặt ra câu hỏi về khả năng căn chỉnh và giám sát các mô hình AI thông minh hơn con người. Một nghiên cứu mới của Anthropic khám phá cách Claude có thể tự động phát triển, thử nghiệm và phân tích các ý tưởng căn chỉnh, đặc biệt trong vấn đề giám sát từ yếu đến mạnh. Kết quả cho thấy Claude có thể vượt trội đáng kể so với hiệu suất của con người trong việc phục hồi khoảng cách hiệu suất.
05/05/2026

Anthropic và Amazon vừa công bố mở rộng hợp tác chiến lược, một bước đi quan trọng trong cuộc đua AI. Với cam kết hạ tầng trị giá 100 tỷ USD và khoản đầu tư lên tới 25 tỷ USD từ Amazon, Anthropic sẽ có thêm 5 gigawatt năng lực tính toán. Thỏa thuận này không chỉ củng cố vị thế của Claude trên nền tảng AWS mà còn hứa hẹn nâng cao hiệu suất và khả năng tiếp cận cho người dùng toàn cầu.
04/05/2026