Tác động xã hội: Claude và Lời khuyên Cá nhân

Người dùng không chỉ tìm đến Claude để kiểm tra mã hay tóm tắt cuộc họp, mà còn để xin lời khuyên cá nhân về các quyết định quan trọng trong cuộc sống. Một nghiên cứu mới của Anthropic đã phân tích cách mọi người tìm kiếm sự hướng dẫn từ Claude, đặc biệt là về các chủ đề như sức khỏe, sự nghiệp và các mối quan hệ. Nghiên cứu cũng tập trung vào việc giảm thiểu 'sự nịnh hót' trong phản hồi của Claude, dẫn đến những cải tiến đáng kể trong các phiên bản Claude Opus 4.7 và Mythos Preview.

Người dùng không chỉ tìm đến Claude để kiểm tra mã hay tóm tắt cuộc họp. Họ hỏi liệu có nên nhận công việc, cách nói chuyện với người mình thích, hay có nên chuyển đến một nơi xa xôi nửa vòng trái đất. Sử dụng công cụ phân tích bảo vệ quyền riêng tư của chúng tôi trên một mẫu ngẫu nhiên gồm 1 triệu cuộc trò chuyện trên claude.ai, chúng tôi nhận thấy khoảng 6% là người dùng tìm đến Claude để xin lời khuyên cá nhân—không chỉ tìm kiếm thông tin mà còn là góc nhìn về những việc cần làm tiếp theo.

Trong nghiên cứu này, chúng tôi đã xem xét các loại lời khuyên mà mọi người hỏi Claude. Chúng tôi đã khám phá cách Claude phản hồi trong các lĩnh vực khác nhau, đặc biệt tập trung vào việc tỷ lệ xác nhận hoặc khen ngợi quá mức (tức là sự nịnh hót) thay đổi như thế nào tùy theo chủ đề lời khuyên. Chúng tôi mô tả cách nghiên cứu này đã định hình quá trình đào tạo các mô hình mới nhất của chúng tôi, Claude Opus 4.7 và Claude Mythos Preview. Mục tiêu của chúng tôi khi thực hiện nghiên cứu này là cải thiện cách các mô hình của chúng tôi bảo vệ phúc lợi của người dùng.

Tóm lại, chúng tôi đã phát hiện:

Người dùng tìm kiếm lời khuyên từ Claude trong nhiều lĩnh vực khác nhau của cuộc sống, nhưng hơn ba phần tư số cuộc trò chuyện (76%) tập trung vào chỉ bốn lĩnh vực: sức khỏe và phúc lợi (27%), nghề nghiệp và sự nghiệp (26%), các mối quan hệ (12%) và tài chính cá nhân (11%) (Hình 1).
Claude chủ yếu tránh các phản hồi nịnh hót khi đưa ra lời khuyên, chỉ thể hiện hành vi nịnh hót trong 9% tổng số cuộc trò chuyện tìm kiếm lời khuyên. Tuy nhiên, tỷ lệ này tăng lên 25% trong các cuộc trò chuyện về mối quan hệ, điều này, xét về số lượng, đã khiến các mối quan hệ trở thành lĩnh vực mà sự nịnh hót xuất hiện thường xuyên nhất về mặt tuyệt đối (Hình 2).
Để giải quyết vấn đề này, chúng tôi đã xem xét các tình huống cụ thể mà Claude có nhiều khả năng phản hồi nịnh hót hơn, và sử dụng chúng để tạo dữ liệu đào tạo lời khuyên về mối quan hệ tổng hợp cho Opus 4.7 và Mythos Preview. Chúng tôi nhận thấy tỷ lệ nịnh hót giảm một nửa trong Opus 4.7 so với Opus 4.6 trong lời khuyên về mối quan hệ; điều thú vị là điều này đã tổng quát hóa thành những cải tiến trên các lĩnh vực (Hình 3).

Vẫn còn nhiều câu hỏi mở về ý nghĩa thực sự của lời khuyên tốt từ AI hoặc cách đo lường nó. Bảo vệ phúc lợi người dùng là ưu tiên cốt lõi của Anthropic và công việc của chúng tôi trong việc đo lường và hiểu lời khuyên cá nhân là một bước tiến tới mục tiêu này.

Người dùng tìm kiếm những loại lời khuyên nào từ Claude?

Chúng tôi đã lấy mẫu 1 triệu cuộc trò chuyện trên claude.ai từ tháng 3 và tháng 4 năm 2026 và lọc ra những người dùng duy nhất để có khoảng 639.000 cuộc trò chuyện. Sau đó, chúng tôi sử dụng một bộ phân loại để xác định lời khuyên cá nhân, mà chúng tôi định nghĩa là các cuộc trò chuyện trong đó mọi người hỏi cụ thể họ nên làm gì trong cuộc sống cá nhân của mình—ví dụ, các câu hỏi bắt đầu bằng "Tôi có nên…?" hoặc "Tôi phải làm gì về…?". Chúng tôi đã loại trừ các câu hỏi tìm kiếm thông tin khách quan hoặc ý kiến chung chung.

Chúng tôi đã phân loại khoảng 38.000 cuộc trò chuyện này thành chín lĩnh vực, dựa trên nghiên cứu trước đây về AI và việc đưa ra lời khuyên: các mối quan hệ, sự nghiệp, phát triển cá nhân, tài chính, pháp lý, sức khỏe và phúc lợi, nuôi dạy con cái, đạo đức và tâm linh (xem Phụ lục để biết thêm thông tin). Phân loại này bao gồm 98% số cuộc trò chuyện mà chúng tôi đã xem xét.

Hơn 75% số cuộc trò chuyện thuộc về chỉ bốn danh mục: sức khỏe và phúc lợi, nghề nghiệp và sự nghiệp, các mối quan hệ và tài chính (Hình 1). Khi một cuộc trò chuyện bao gồm nhiều lĩnh vực, chúng tôi đã phân loại nó theo chủ đề nổi bật nhất.

Hình 1

Hình 1: Phân bố các chủ đề trong 37.657 cuộc trò chuyện tìm kiếm lời khuyên trên chín lĩnh vực và các ví dụ tổng hợp về các loại cuộc trò chuyện trong mỗi bốn lĩnh vực hàng đầu.

Đo lường sự nịnh hót trong các cuộc trò chuyện xin lời khuyên

Khi mọi người hỏi Claude cách đưa ra quyết định trong cuộc sống, sự tương tác tốt từ Claude trông như thế nào? Sự hữu ích là một trong những đặc điểm quan trọng nhất của Claude. Nói chuyện với Claude nên giống như một cuộc trò chuyện với một người bạn thông minh, người sẽ nói thẳng thắn với một người về tình huống của họ, cung cấp thông tin dựa trên bằng chứng. Đồng thời, Claude nên thừa nhận những hạn chế của mình khi thích hợp, và tránh hành xử nịnh hót hoặc khuyến khích sự tương tác quá mức.

Mặc dù phạm vi đầy đủ các hành vi mà chúng tôi đào tạo Claude để thể hiện là rộng, một chỉ số chúng tôi đã sử dụng để đo lường mức độ Claude hoạt động tốt trong một số lĩnh vực này là sự nịnh hót, một đặc điểm phổ biến ở các trợ lý AI, nơi họ đồng ý quá mức với quan điểm của một người thay vì thách thức nó. Đó có thể là điều mà ai đó muốn nghe vào lúc này, nhưng cuối cùng nó có thể gây nguy hiểm cho phúc lợi lâu dài của họ. Ví dụ, Claude không nên đưa ra những phán quyết quá tự tin trong các trường hợp liên quan đến một quan điểm không đầy đủ hoặc một chiều, chẳng hạn như khi một mô hình đồng ý rằng đối tác của một người "chắc chắn đang thao túng tâm lý" họ dựa trên một lời kể một chiều, hoặc rằng việc bỏ việc vào ngày mai mà không có kế hoạch "nghe có vẻ là quyết định đúng đắn," hoặc rằng một món đồ đắt tiền là "một khoản đầu tư tuyệt vời vào bản thân bạn."

Việc khẳng định lại quan điểm một chiều của một người có thể tạo ra hoặc làm trầm trọng thêm sự chia rẽ trong các mối quan hệ. Trong dữ liệu của chúng tôi, điều này có một vài dạng. Một mô hình phổ biến là Claude hoàn toàn đồng ý rằng bên kia đã sai, mặc dù chỉ có lời kể của người dùng để dựa vào. Một mô hình khác là Claude giúp mọi người đọc được ý định lãng mạn vào hành vi thân thiện thông thường vì họ yêu cầu.

Chúng tôi đã sử dụng một bộ phân loại tự động để đánh giá sự nịnh hót bằng cách xem xét liệu Claude có thể hiện sự sẵn lòng phản bác, giữ vững quan điểm khi bị thách thức, đưa ra lời khen ngợi tương xứng với giá trị của ý tưởng và nói thẳng thắn bất kể người dùng muốn nghe gì. Hầu hết thời gian trong những tình huống này, Claude không thể hiện sự nịnh hót—chỉ 9% số cuộc trò chuyện bao gồm hành vi nịnh hót (Hình 2). Nhưng có hai lĩnh vực là ngoại lệ: chúng tôi thấy hành vi nịnh hót trong 38% số cuộc trò chuyện tập trung vào tâm linh và 25% số cuộc trò chuyện về các mối quan hệ. Chúng tôi đã chọn tập trung nỗ lực đào tạo mô hình vào lời khuyên về mối quan hệ vì đây là lĩnh vực có nhiều cuộc trò chuyện nịnh hót nhất về mặt tuyệt đối.

Hình 2

Hình 2: Hành vi nịnh hót theo lĩnh vực lời khuyên.

Cải thiện hành vi của Claude trong lời khuyên về mối quan hệ

Để cải thiện hành vi của Claude trong các mô hình tương lai, trước tiên chúng tôi đã xem xét điều gì đang thúc đẩy tỷ lệ nịnh hót cao hơn trong lời khuyên về mối quan hệ trong dữ liệu của chúng tôi. Hai động lực nổi bật.

Thứ nhất, lời khuyên về mối quan hệ là lĩnh vực mà mọi người phản bác Claude thường xuyên nhất, trong 21% số cuộc trò chuyện so với mức trung bình 15% trên các lĩnh vực khác. Thứ hai, Claude có nhiều khả năng thể hiện hành vi nịnh hót hơn khi chịu áp lực. Tỷ lệ nịnh hót là 18% trong các cuộc trò chuyện khi mọi người phản bác so với 9% trong các cuộc trò chuyện không có phản bác. Chúng tôi nghĩ điều này xảy ra vì Claude được đào tạo để hữu ích và đồng cảm; sự phản bác, kết hợp với việc chỉ nghe một phía của câu chuyện, khiến Claude khó giữ được sự trung lập hơn.

Để giải quyết vấn đề này, chúng tôi đã xác định các cách khác nhau mà mọi người phản bác trong các mô hình hội thoại gây ra phản hồi nịnh hót—ví dụ, khi mọi người chỉ trích đánh giá ban đầu của Claude, hoặc cung cấp một loạt chi tiết một chiều. Chúng tôi sử dụng các mô hình này để xây dựng các kịch bản lời khuyên về mối quan hệ tổng hợp để đào tạo hành vi. Trong môi trường này, chúng tôi yêu cầu Claude lấy mẫu hai phản hồi cho mỗi kịch bản tổng hợp; một phiên bản Claude riêng biệt sau đó đánh giá mức độ Claude tuân thủ hành vi được nêu trong hiến pháp của nó.

Chúng tôi đã đánh giá mức độ cải thiện của mô hình mới thông qua một kỹ thuật mà chúng tôi gọi là kiểm tra căng thẳng (stress-testing). Chúng tôi sử dụng công cụ bảo vệ quyền riêng tư của mình để xác định các cuộc trò chuyện thực tế về lời khuyên cá nhân mà mọi người đã chia sẻ với chúng tôi thông qua nút Phản hồi,1 và nơi các thế hệ mô hình trước đó đã hành xử nịnh hót. Sau đó, chúng tôi cung cấp một phần của cuộc trò chuyện này cho mô hình mới (trong trường hợp này là Opus 4.7 và Mythos Preview) thông qua một kỹ thuật gọi là prefilling, trong đó mô hình đọc cuộc trò chuyện trước đó như của chính nó. Bởi vì Claude cố gắng duy trì tính nhất quán trong một cuộc trò chuyện, việc prefilling với các cuộc trò chuyện nịnh hót khiến Claude khó thay đổi hướng hơn. Điều này giống như lái một con tàu đang di chuyển, và do đó đo lường hành vi của Claude trong các điều kiện bất lợi có chủ ý.

Nhiều thứ thay đổi qua mỗi thế hệ mô hình mới, điều này khiến việc xác định tác động của bất kỳ thay đổi nào trong quá trình đào tạo mô hình trở nên khó khăn. Tuy nhiên, ở cả Opus 4.7 và Mythos Preview, chúng tôi đã quan sát thấy mức độ nịnh hót thấp hơn trong lời khuyên về mối quan hệ cũng như trên tất cả các lĩnh vực lời khuyên cá nhân (Hình 3).

Hình 3

Hình 3: Kết quả kiểm tra căng thẳng: các mô hình được điền trước bằng các cuộc trò chuyện thực tế nơi các phiên bản Claude trước đó đã hành xử nịnh hót, sau đó được chấm điểm dựa trên phản hồi mới. Opus 4.7 và Mythos Preview cho thấy mức độ nịnh hót ít hơn đáng kể nói chung và trong lời khuyên về mối quan hệ. Các thanh lỗi là khoảng tin cậy Wilson.

Về mặt định tính, cả Opus 4.7 và Mythos Preview đều thành thạo hơn trong việc nhìn xa hơn khung ban đầu của một người để hiểu bối cảnh rộng lớn hơn mà họ tìm đến Claude để xin lời khuyên. Điều này bao gồm việc tham chiếu các cuộc trao đổi trước đó trong đó một người đã cung cấp bối cảnh sâu hơn cho tình huống và trích dẫn các nguồn thông tin bên ngoài khi có liên quan. Ví dụ, trong một cuộc trò chuyện, một người hỏi liệu tin nhắn của họ có lo lắng và bám víu không. Claude Sonnet 4.6 đã thay đổi quan điểm sau khi nhận được phản bác. Claude Opus 4.7 giải thích rằng mặc dù bản thân tin nhắn không bám víu, người dùng đã tự mô tả những suy nghĩ lo lắng trong suốt cuộc trò chuyện. Một ví dụ khác, ngoài lĩnh vực mối quan hệ: một người muốn Claude xác nhận bài viết của họ, cuối cùng yêu cầu Claude đưa ra ước tính về trí thông minh của họ dựa trên đó. Claude Sonnet 4.6 đã đưa ra một phản hồi tâng bốc quá mức, trong khi Mythos Preview từ chối, giải thích rằng nó không có đủ thông tin để đưa ra phán đoán như vậy.

Kết luận

Chúng tôi bắt đầu với một phân tích cấp cao về cách mọi người tìm kiếm lời khuyên cá nhân từ Claude và tập trung vào việc hiểu và giải quyết một chế độ lỗi mô hình cụ thể: sự nịnh hót trong các cuộc trò chuyện về mối quan hệ. Cuộc điều tra đó đã làm nổi bật những câu hỏi rộng hơn:

Lời khuyên tốt từ AI là gì?

Trong bài viết này, chúng tôi đã tập trung vào việc giảm thiểu sự nịnh hót như một chế độ lỗi đã được xác định trong các cài đặt lời khuyên, nhưng công việc của chúng tôi đặt ra những câu hỏi rộng hơn về việc lời khuyên tốt từ AI thực sự trông như thế nào. Hiến pháp của Claude cũng nhấn mạnh, ví dụ, rằng lời khuyên tốt cũng nên trung thực và bảo toàn quyền tự chủ của người dùng. Những nguyên tắc này tinh tế hơn sự nịnh hót. Chúng tôi đã bắt đầu giám sát sự tuân thủ của Claude đối với chúng trong thẻ hệ thống mới của chúng tôi và hy vọng sẽ đưa chúng vào nghiên cứu trong tương lai.

Làm thế nào để chúng ta làm cho các mô hình an toàn hơn trong các tình huống rủi ro cao?

Một nghiên cứu gần đây của Viện An ninh AI Vương quốc Anh cho thấy mọi người rất có khả năng chấp nhận lời khuyên từ AI trong cả các tình huống rủi ro thấp và cao. Chúng tôi đã tìm thấy nhiều trường hợp câu hỏi rủi ro cao, đặc biệt trong các lĩnh vực pháp lý, nuôi dạy con cái, sức khỏe và tài chính. Chúng bao gồm các cuộc trò chuyện về lộ trình nhập cư, hướng dẫn chăm sóc trẻ sơ sinh, liều lượng thuốc và nợ thẻ tín dụng. Claude không được thiết kế để cung cấp lời khuyên y tế hoặc chăm sóc chuyên nghiệp, và trong những cài đặt này, Claude một cách thích hợp

Đọc bài gốc

Người dùng tìm kiếm lời khuyên cá nhân từ Claude như thế nào

Bài liên quan

Quỹ Tín thác Lợi ích Dài hạn của Anthropic bổ nhiệm Vas Narasimhan vào Hội đồng Quản trị

Giới thiệu Claude Opus 4.7

Anthropic và Amazon mở rộng hợp tác, bổ sung 5 gigawatt năng lực tính toán

Anthropic và NEC hợp tác xây dựng lực lượng kỹ sư AI lớn nhất Nhật Bản