Đánh giá khả năng nghiên cứu tin sinh học của Claude với BioMysteryBench
Anthropic đã phát triển BioMysteryBench, một bộ tiêu chuẩn tin sinh học mới, để đánh giá khả năng nghiên cứu của Claude. Bộ tiêu chuẩn này sử dụng dữ liệu thực tế, phức tạp và tập trung vào các câu trả lời khách quan, có cơ sở xác thực. Kết quả cho thấy Claude đang cải thiện nhanh chóng và có thể giải quyết nhiều vấn đề mà các chuyên gia con người gặp khó khăn.
05/05/2026
