vibeclaude.netvibeclaude.netvibeclaude.net
Tin tứcSkillsMCPThủ thuậtKhoá họcBảng giá
Đăng nhập
vibeclaude.net
  • Tin tức
  • Skills
  • MCP
  • Thủ thuật
  • Khoá học
  • Bảng giá
Đăng nhập
vibeclaude.netvibeclaude.net

Tin tức, skills, video và khoá học mới nhất về Claude AI bằng tiếng Việt.

Mục lục

  • Bắt đầu
  • Tin tức
  • Skills
  • MCP
  • Thủ thuật
  • Sản phẩm
  • Khoá học

Liên kết

  • Anthropic
  • Claude.ai
  • Anthropic Blog

© 2026 vibeclaude.net

Không phải sản phẩm chính thức của Anthropic. Mọi nhãn hiệu thuộc về chủ sở hữu của chúng.

Trao tặng công cụ căn chỉnh mã nguồn mở Petri của chúng tôi

Anthropic đã trao tặng Petri, một bộ công cụ căn chỉnh mã nguồn mở, cho Meridian Labs. Petri giúp kiểm tra các mô hình AI về các xu hướng đáng lo ngại như lừa dối và xu nịnh. Việc này nhằm đảm bảo Petri vẫn độc lập và đáng tin cậy cho toàn bộ cộng đồng AI.

Đăng ngày 9 tháng 5, 2026·Nguồn: Anthropic Research·✨ Đã tóm tắt + research từ 10 nguồn
5 phút đọc

Bài viết được biên tập + bổ sung research từ nhiều nguồn. Đọc bài gốc tại Anthropic Research →

Anthropic đã trao tặng Petri, một bộ công cụ căn chỉnh mã nguồn mở, cho Meridian Labs. Petri giúp kiểm tra các mô hình AI về các xu hướng đáng lo ngại như lừa dối và xu nịnh. Việc này nhằm đảm bảo Petri vẫn độc lập và đáng tin cậy cho toàn bộ cộng đồng AI.

Vào tháng 10 năm 2025, chúng tôi đã ra mắt Petri, một bộ công cụ mã nguồn mở gồm các bài kiểm tra căn chỉnh có thể áp dụng cho bất kỳ mô hình ngôn ngữ lớn nào. Petri, được phát triển như một phần của chương trình Anthropic Fellows của chúng tôi, có thể được sử dụng để kiểm tra nhanh chóng và dễ dàng các mô hình AI về các xu hướng đáng lo ngại như lừa dối, xu nịnh và hợp tác với các yêu cầu có hại. Đây là một phần trong nỗ lực của chúng tôi nhằm phát triển các công cụ căn chỉnh mở và hữu ích cho toàn bộ cộng đồng phát triển AI.

Petri đã là một phần trong đánh giá căn chỉnh của chúng tôi cho mọi mô hình Claude kể từ Claude Sonnet 4.5. Nó so sánh cách mô hình mới hoạt động trong một loạt các kịch bản liên quan đến căn chỉnh được mô phỏng bởi một mô hình “kiểm toán viên” riêng biệt. Sau đó, một mô hình “thẩm phán” khác sẽ chấm điểm các bản ghi kết quả cho các hành vi không căn chỉnh.

Chúng tôi rất vui khi thấy Petri được các tổ chức bên ngoài sử dụng: ví dụ, Viện An ninh AI (AISI) của Vương quốc Anh đã biến nó thành một phần quan trọng trong cách họ đánh giá các mô hình về xu hướng phá hoại nghiên cứu AI.

Hiện chúng tôi đang cập nhật Petri lên phiên bản thứ ba. Dưới đây là một số thay đổi lớn nhất:

  • Khả năng thích ứng. Petri 3.0 bao gồm những thay đổi kiến trúc lớn cho phép người dùng điều chỉnh nó cho nhiều mục đích sử dụng hơn, đặc biệt là bằng cách tách mô hình kiểm toán viên và mô hình mục tiêu thành các thành phần riêng biệt có thể được điều chỉnh riêng;
  • Tính chân thực. Mặc dù các nhà nghiên cứu căn chỉnh cố gắng làm cho các bài kiểm tra trông chân thực, nhưng một mô hình thường có thể suy luận từ nhiều yếu tố nhân tạo trong thiết lập rằng nó thực sự là một phần của bài kiểm tra. Và nếu mô hình biết nó đang được đánh giá, nhà nghiên cứu sẽ không còn có thể thấy cách mô hình hoạt động nói chung. Một tiện ích bổ sung cho Petri, mà chúng tôi gọi là “Dish,” làm cho thiết lập trở nên chân thực hơn nhiều, ví dụ bằng cách chạy các bài kiểm tra bằng cách sử dụng lời nhắc hệ thống thực của mô hình và “giàn giáo” thực (phần mềm bao bọc mô hình để giúp nó đạt được mục tiêu) sẽ được sử dụng trong các triển khai mô hình thực tế;
  • Chiều sâu. Hiện chúng tôi đã tích hợp Petri với công cụ căn chỉnh mã nguồn mở khác của chúng tôi, Bloom, có thể thực hiện các đánh giá chuyên sâu hơn nhiều về các hành vi cụ thể được chọn (so với cách tiếp cận rộng hơn của Petri).

Chúng tôi cũng đang trao cho Petri một ngôi nhà mới. Chúng tôi đã chuyển giao việc phát triển nó cho Meridian Labs, một tổ chức phi lợi nhuận đánh giá AI. Động thái này—tương tự như khi chúng tôi quyên góp Giao thức Ngữ cảnh Mô hình (MCP) cho Linux Foundation—sẽ giúp đảm bảo rằng Petri vẫn độc lập với bất kỳ phòng thí nghiệm AI nào, để kết quả của nó sẽ được coi là trung lập và đáng tin cậy bởi những người trong ngành và hơn thế nữa.

Là một phần của Meridian Labs, Petri tham gia cùng các công cụ khác như Inspect và Scout, xây dựng một ngăn xếp công nghệ mở cho các phòng thí nghiệm, nhà nghiên cứu độc lập và chính phủ, vào thời điểm mà các bài kiểm tra đáng tin cậy về hành vi mô hình AI trở nên quan trọng hơn bao giờ hết.

Bạn có thể đọc thêm về Petri 3.0 trên blog của Meridian Labs.

Hướng dẫn cài đặt và sử dụng Petri có thể được tìm thấy trên trang web của Petri.

Nội dung liên quan

2028: Hai kịch bản cho vai trò lãnh đạo AI toàn cầu

Quan điểm của chúng tôi về cuộc cạnh tranh AI giữa Mỹ và Trung Quốc.

Đọc thêm

Dạy Claude lý do

Nghiên cứu mới về cách chúng tôi đã giảm thiểu sự sai lệch tác nhân.

Đọc thêm

Bộ mã hóa tự động ngôn ngữ tự nhiên: Biến suy nghĩ của Claude thành văn bản

Các mô hình AI như Claude nói bằng lời nhưng suy nghĩ bằng số. Trong nghiên cứu này, chúng tôi đào tạo Claude để dịch suy nghĩ của nó thành văn bản dễ đọc đối với con người.

Đọc thêm

Đọc bài gốc

Nguồn tham khảo

  1. Anthropic tặng công cụ căn chỉnh mã nguồn mở (7/5/2026)
  2. Anthropic Claude News | May, 2026 (STARTUP EDITION)
  3. Alignment Science Blog - Anthropic
  4. Alignment Research - Anthropic
  5. Anthropic Release Notes - May 2026 Latest Updates - Releasebot
  6. Claude 5 News | Claude 5
  7. Alignment Research - Anthropic
  8. Newsroom - Anthropic
  9. Findings from a pilot Anthropic–OpenAI alignment evaluation exercise
  10. Claude AI in 2026: Complete Guide to Anthropic's Models, Pricing ...

Research powered by Tavily.

anthropicmã-nguồn-mởcăn-chỉnh-aian-toàn-aicông-cụ

Mục lục

  • Nội dung liên quan
  • 2028: Hai kịch bản cho vai trò lãnh đạo AI toàn cầu
  • Dạy Claude lý do
  • Bộ mã hóa tự động ngôn ngữ tự nhiên: Biến suy nghĩ của Claude thành văn bản

Bài liên quan

Nghiên cứu mới của Anthropic Fellows: Model Spec Midtraining (MSM)

Nghiên cứu mới của Anthropic Fellows: Model Spec Midtraining (MSM)

Nghiên cứu mới từ Anthropic Fellows giới thiệu Model Spec Midtraining (MSM), một phương pháp căn chỉnh AI mang tính cách mạng. Thay vì chỉ huấn luyện AI bằng các ví dụ về hành vi đúng, MSM dạy cho mô hình lý do và nguyên tắc đằng sau các hành vi đó. Cách tiếp cận này giúp AI khái quát hóa tốt hơn trong các tình huống mới, giải quyết một trong những thách thức lớn nhất về an toàn AI hiện nay.

05/05/2026

Các Nhà Nghiên Cứu Căn Chỉnh Tự Động: Sử dụng mô hình ngôn ngữ lớn để mở rộng giám sát có thể mở rộng

Các Nhà Nghiên Cứu Căn Chỉnh Tự Động: Sử dụng mô hình ngôn ngữ lớn để mở rộng giám sát có thể mở rộng

Tốc độ cải tiến nhanh chóng của các mô hình ngôn ngữ lớn đặt ra câu hỏi về khả năng căn chỉnh và giám sát các mô hình AI thông minh hơn con người. Một nghiên cứu mới của Anthropic khám phá cách Claude có thể tự động phát triển, thử nghiệm và phân tích các ý tưởng căn chỉnh, đặc biệt trong vấn đề giám sát từ yếu đến mạnh. Kết quả cho thấy Claude có thể vượt trội đáng kể so với hiệu suất của con người trong việc phục hồi khoảng cách hiệu suất.

05/05/2026

Anthropic và Amazon mở rộng hợp tác, bổ sung 5 gigawatt năng lực tính toán

Anthropic và Amazon mở rộng hợp tác, bổ sung 5 gigawatt năng lực tính toán

Anthropic và Amazon vừa công bố mở rộng hợp tác chiến lược, một bước đi quan trọng trong cuộc đua AI. Với cam kết hạ tầng trị giá 100 tỷ USD và khoản đầu tư lên tới 25 tỷ USD từ Amazon, Anthropic sẽ có thêm 5 gigawatt năng lực tính toán. Thỏa thuận này không chỉ củng cố vị thế của Claude trên nền tảng AWS mà còn hứa hẹn nâng cao hiệu suất và khả năng tiếp cận cho người dùng toàn cầu.

04/05/2026

Anthropic và NEC hợp tác xây dựng lực lượng kỹ sư AI lớn nhất Nhật Bản

Anthropic và NEC hợp tác xây dựng lực lượng kỹ sư AI lớn nhất Nhật Bản

Anthropic và NEC đang hợp tác để xây dựng một trong những lực lượng kỹ sư AI lớn nhất Nhật Bản. NEC sẽ tích hợp Claude vào các hoạt động nội bộ và phát triển các sản phẩm AI chuyên biệt cho thị trường Nhật Bản, đặc biệt trong các lĩnh vực tài chính, sản xuất và chính phủ địa phương. Sự hợp tác này nhằm mục đích đáp ứng các tiêu chuẩn cao về an toàn, độ tin cậy và chất lượng.

04/05/2026