Anthropic Tặng Công Cụ Căn Chỉnh AI Petri Cho Cộng Đồng Mở

Anthropic đã trao tặng Petri, một bộ công cụ căn chỉnh mã nguồn mở, cho Meridian Labs. Petri giúp kiểm tra các mô hình AI về các xu hướng đáng lo ngại như lừa dối và xu nịnh. Việc này nhằm đảm bảo Petri vẫn độc lập và đáng tin cậy cho toàn bộ cộng đồng AI.

Vào tháng 10 năm 2025, chúng tôi đã ra mắt Petri, một bộ công cụ mã nguồn mở gồm các bài kiểm tra căn chỉnh có thể áp dụng cho bất kỳ mô hình ngôn ngữ lớn nào. Petri, được phát triển như một phần của chương trình Anthropic Fellows của chúng tôi, có thể được sử dụng để kiểm tra nhanh chóng và dễ dàng các mô hình AI về các xu hướng đáng lo ngại như lừa dối, xu nịnh và hợp tác với các yêu cầu có hại. Đây là một phần trong nỗ lực của chúng tôi nhằm phát triển các công cụ căn chỉnh mở và hữu ích cho toàn bộ cộng đồng phát triển AI.

Petri đã là một phần trong đánh giá căn chỉnh của chúng tôi cho mọi mô hình Claude kể từ Claude Sonnet 4.5. Nó so sánh cách mô hình mới hoạt động trong một loạt các kịch bản liên quan đến căn chỉnh được mô phỏng bởi một mô hình “kiểm toán viên” riêng biệt. Sau đó, một mô hình “thẩm phán” khác sẽ chấm điểm các bản ghi kết quả cho các hành vi không căn chỉnh.

Chúng tôi rất vui khi thấy Petri được các tổ chức bên ngoài sử dụng: ví dụ, Viện An ninh AI (AISI) của Vương quốc Anh đã biến nó thành một phần quan trọng trong cách họ đánh giá các mô hình về xu hướng phá hoại nghiên cứu AI.

Hiện chúng tôi đang cập nhật Petri lên phiên bản thứ ba. Dưới đây là một số thay đổi lớn nhất:

Khả năng thích ứng. Petri 3.0 bao gồm những thay đổi kiến trúc lớn cho phép người dùng điều chỉnh nó cho nhiều mục đích sử dụng hơn, đặc biệt là bằng cách tách mô hình kiểm toán viên và mô hình mục tiêu thành các thành phần riêng biệt có thể được điều chỉnh riêng;
Tính chân thực. Mặc dù các nhà nghiên cứu căn chỉnh cố gắng làm cho các bài kiểm tra trông chân thực, nhưng một mô hình thường có thể suy luận từ nhiều yếu tố nhân tạo trong thiết lập rằng nó thực sự là một phần của bài kiểm tra. Và nếu mô hình biết nó đang được đánh giá, nhà nghiên cứu sẽ không còn có thể thấy cách mô hình hoạt động nói chung. Một tiện ích bổ sung cho Petri, mà chúng tôi gọi là “Dish,” làm cho thiết lập trở nên chân thực hơn nhiều, ví dụ bằng cách chạy các bài kiểm tra bằng cách sử dụng lời nhắc hệ thống thực của mô hình và “giàn giáo” thực (phần mềm bao bọc mô hình để giúp nó đạt được mục tiêu) sẽ được sử dụng trong các triển khai mô hình thực tế;
Chiều sâu. Hiện chúng tôi đã tích hợp Petri với công cụ căn chỉnh mã nguồn mở khác của chúng tôi, Bloom, có thể thực hiện các đánh giá chuyên sâu hơn nhiều về các hành vi cụ thể được chọn (so với cách tiếp cận rộng hơn của Petri).

Chúng tôi cũng đang trao cho Petri một ngôi nhà mới. Chúng tôi đã chuyển giao việc phát triển nó cho Meridian Labs, một tổ chức phi lợi nhuận đánh giá AI. Động thái này—tương tự như khi chúng tôi quyên góp Giao thức Ngữ cảnh Mô hình (MCP) cho Linux Foundation—sẽ giúp đảm bảo rằng Petri vẫn độc lập với bất kỳ phòng thí nghiệm AI nào, để kết quả của nó sẽ được coi là trung lập và đáng tin cậy bởi những người trong ngành và hơn thế nữa.

Là một phần của Meridian Labs, Petri tham gia cùng các công cụ khác như Inspect và Scout, xây dựng một ngăn xếp công nghệ mở cho các phòng thí nghiệm, nhà nghiên cứu độc lập và chính phủ, vào thời điểm mà các bài kiểm tra đáng tin cậy về hành vi mô hình AI trở nên quan trọng hơn bao giờ hết.

Bạn có thể đọc thêm về Petri 3.0 trên blog của Meridian Labs.

Hướng dẫn cài đặt và sử dụng Petri có thể được tìm thấy trên trang web của Petri.

Nội dung liên quan

2028: Hai kịch bản cho vai trò lãnh đạo AI toàn cầu

Quan điểm của chúng tôi về cuộc cạnh tranh AI giữa Mỹ và Trung Quốc.

Đọc thêm

Dạy Claude lý do

Nghiên cứu mới về cách chúng tôi đã giảm thiểu sự sai lệch tác nhân.

Đọc thêm

Bộ mã hóa tự động ngôn ngữ tự nhiên: Biến suy nghĩ của Claude thành văn bản

Các mô hình AI như Claude nói bằng lời nhưng suy nghĩ bằng số. Trong nghiên cứu này, chúng tôi đào tạo Claude để dịch suy nghĩ của nó thành văn bản dễ đọc đối với con người.

Đọc thêm

Đọc bài gốc

Trao tặng công cụ căn chỉnh mã nguồn mở Petri của chúng tôi

Nội dung liên quan

2028: Hai kịch bản cho vai trò lãnh đạo AI toàn cầu

Dạy Claude lý do

Bộ mã hóa tự động ngôn ngữ tự nhiên: Biến suy nghĩ của Claude thành văn bản

Bài liên quan

Nghiên cứu mới của Anthropic Fellows: Model Spec Midtraining (MSM)

Các Nhà Nghiên Cứu Căn Chỉnh Tự Động: Sử dụng mô hình ngôn ngữ lớn để mở rộng giám sát có thể mở rộng

Anthropic và Amazon mở rộng hợp tác, bổ sung 5 gigawatt năng lực tính toán

Anthropic và NEC hợp tác xây dựng lực lượng kỹ sư AI lớn nhất Nhật Bản