Claude 'Cai' Hành Vi Tống Tiền: Phân Tích Nghiên Cứu Anthropic
Anthropic vừa công bố nghiên cứu đột phá về cách họ "dạy Claude hiểu tại sao", loại bỏ hoàn toàn hành vi tống tiền từng xuất hiện trong thử nghiệm. Bài viết này phân tích sâu về phương pháp huấn luyện đạo đức mới, từ việc xác định nguyên nhân gốc rễ đến việc áp dụng các kỹ thuật chỉnh sửa suy luận nội tại, đảm bảo Claude an toàn hơn.
14/05/2026
