#an-toàn-ai | vibeclaude.net

Các Nhà Nghiên Cứu Căn Chỉnh Tự Động: Sử dụng mô hình ngôn ngữ lớn để mở rộng giám sát có thể mở rộng

Tốc độ cải tiến nhanh chóng của các mô hình ngôn ngữ lớn đặt ra câu hỏi về khả năng căn chỉnh và giám sát các mô hình AI thông minh hơn con người. Một nghiên cứu mới của Anthropic khám phá cách Claude có thể tự động phát triển, thử nghiệm và phân tích các ý tưởng căn chỉnh, đặc biệt trong vấn đề giám sát từ yếu đến mạnh. Kết quả cho thấy Claude có thể vượt trội đáng kể so với hiệu suất của con người trong việc phục hồi khoảng cách hiệu suất.

05/05/2026

Trao tặng công cụ căn chỉnh mã nguồn mở Petri của chúng tôi

Anthropic đã trao tặng Petri, một bộ công cụ căn chỉnh mã nguồn mở, cho Meridian Labs. Petri giúp kiểm tra các mô hình AI về các xu hướng đáng lo ngại như lừa dối và xu nịnh. Việc này nhằm đảm bảo Petri vẫn độc lập và đáng tin cậy cho toàn bộ cộng đồng AI.

09/05/2026

Dạy Claude hiểu lý do: Nghiên cứu mới về giảm thiểu sai lệch hành vi tác nhân

Anthropic công bố nghiên cứu đột phá về cách dạy Claude hiểu 'tại sao' đằng sau các hành động của mình, không chỉ là 'cái gì'. Phương pháp này tập trung vào việc huấn luyện mô hình suy luận về các giá trị, giúp giảm đáng kể sai lệch hành vi tác nhân (agentic misalignment) và là bước tiến quan trọng trong việc đảm bảo an toàn AI.

09/05/2026

Mở rộng cuộc đối thoại về AI tiên tiến

Anthropic đang kêu gọi mở rộng cuộc đối thoại về AI tiên tiến, không chỉ giới hạn trong giới công nghệ. Bằng cách tham vấn các nhà triết học, giáo sĩ và nhà đạo đức học, họ tìm cách định hình "tính cách" cho Claude, đảm bảo AI phát triển an toàn, có trách nhiệm và thực sự phục vụ lợi ích toàn cầu.

26 ngày trước

Cách chúng tôi kiểm soát Claude trên các sản phẩm

Khi các mô hình AI như Claude ngày càng mạnh mẽ, việc kiểm soát 'vùng ảnh hưởng' (blast radius) của chúng trở thành ưu tiên hàng đầu. Bài viết này phân tích sâu các chiến lược kỹ thuật mà Anthropic sử dụng, từ sandbox đến giám sát hành vi, để đảm bảo Claude hoạt động an toàn trên các sản phẩm claude.ai, Claude Code và Cowork, cân bằng giữa hiệu suất và rủi ro.

21 ngày trước

Anthropic: Quyền truy cập của AI cần được điều chỉnh theo năng lực, Anthropic dùng sandboxing để hạn chế rủi ro

Anthropic nhấn mạnh rằng quyền truy cập của các tác nhân AI phải phát triển cùng với khả năng của chúng. Bằng cách sử dụng kỹ thuật "sandboxing", công ty tạo ra các môi trường biệt lập để thực thi mã lệnh, giới hạn phạm vi của bất kỳ hành động nào có khả năng gây hại và đảm bảo an toàn cho người dùng và hệ thống.

21 ngày trước

Jan Leike gia nhập Anthropic: Tương lai AGI vượt ngoài Căn chỉnh

Sự kiện Jan Leike, một trong những nhà nghiên cứu an toàn AI hàng đầu, gia nhập Anthropic đang tạo ra làn sóng trong ngành. Dự án mới của anh không chỉ tập trung vào 'căn chỉnh' mà còn hướng tới một cách tiếp cận toàn diện hơn để đảm bảo Trí tuệ tổng quát nhân tạo (AGI) phát triển an toàn và có lợi cho nhân loại. Điều này đánh dấu một chương mới đầy hứa hẹn cho Anthropic.

14/05/2026

Hiến pháp của Claude ra mắt sách nói: Lắng nghe triết lý AI

Anthropic vừa ra mắt phiên bản sách nói của "Hiến pháp của Claude", do chính các tác giả Amanda Askell và Joe Carlsmith trình bày. Phiên bản này không chỉ là một bản đọc, mà còn bao gồm phần hỏi đáp chuyên sâu về quá trình xây dựng, các nguyên tắc triết học, và định hướng phát triển trong tương lai khi các mô hình AI ngày càng mạnh mẽ hơn.