Claude & BioMysteryBench: AI Giải Mã Bí Ẩn Tin Sinh Học

Anthropic đã phát triển BioMysteryBench, một bộ tiêu chuẩn tin sinh học mới, để đánh giá khả năng nghiên cứu của Claude. Bộ tiêu chuẩn này sử dụng dữ liệu thực tế, phức tạp và tập trung vào các câu trả lời khách quan, có cơ sở xác thực. Kết quả cho thấy Claude đang cải thiện nhanh chóng và có thể giải quyết nhiều vấn đề mà các chuyên gia con người gặp khó khăn.

Trong bài đăng này, Brianna, một nhà nghiên cứu thuộc nhóm khám phá, chia sẻ kết quả từ nỗ lực đánh giá tin sinh học gần đây.

Gần như ngay khi các mô hình ngôn ngữ lớn có thể trò chuyện, mọi người bắt đầu đặt câu hỏi về khả năng của chúng so với các chuyên gia con người. Liệu các mô hình có thể vượt qua kỳ thi luật sư? Chúng có thể trả lời các câu hỏi cấp phép y tế, hay giải các bài toán Olympic không? Những bộ tiêu chuẩn—tập hợp các vấn đề được con người kiểm duyệt, được thiết kế để đánh giá một khả năng của mô hình—giờ đây đã trở thành một nguồn cạnh tranh giữa các nhà phát triển AI, được báo cáo trong các thẻ hệ thống phát hành mô hình và được theo dõi trên nhiều bảng xếp hạng trực tuyến.

Bỏ qua yếu tố cạnh tranh, các bộ tiêu chuẩn giúp chúng ta giải quyết một câu hỏi quan trọng: liệu các mô hình có đủ khả năng và độ tin cậy để hỗ trợ, hoặc thậm chí tạo ra, công việc ở cấp độ chuyên nghiệp hay không. Các nhà khoa học đang sử dụng các mô hình để viết mã cho các quy trình phân tích, đề xuất giả thuyết và rút ra kết luận từ dữ liệu với mục tiêu dài hạn là đẩy nhanh đổi mới và khám phá. Nhưng chính xác thì AI hiện tại thành thạo đến mức nào trong khoa học, và Claude cùng các mô hình khác đang cải thiện nhanh đến mức nào?

Để trả lời câu hỏi này, cộng đồng nghiên cứu đã xây dựng một số bộ tiêu chuẩn. MMLU-Pro kiểm tra kiến thức cấp chuyên gia và các câu hỏi suy luận. GPQA đặt ra các câu hỏi cấp độ sau đại học, "không thể tìm kiếm trên Google" trong sinh học, vật lý và hóa học. LAB-Bench kiểm tra công việc kiến thức chuyên biệt về sinh học—đọc tài liệu, diễn giải hình ảnh, suy luận về các giao thức. Mặc dù các bộ tiêu chuẩn này được phát triển trong kỷ nguyên "chatbot", chúng vẫn tồn tại đến kỷ nguyên tác nhân và sử dụng công cụ, cùng với các đánh giá suy luận khoa học khó hơn nữa như FrontierScience và Humanity's Last Exam, bởi vì kiến thức và suy luận vẫn là thước đo quan trọng về khả năng khoa học.

Tuy nhiên, nhiều nhiệm vụ khoa học trong thế giới thực đòi hỏi nhiều hơn thế. Chúng yêu cầu đọc tài liệu, truy vấn cơ sở dữ liệu, chạy thí nghiệm, viết mã và phân tích. Giờ đây, khi các mô hình có thể thực hiện nhiều điều này, các bộ tiêu chuẩn đã phát triển để phản ánh các quy trình làm việc này. BLADE giao cho một mô hình một tập dữ liệu và một nhiệm vụ mở, và kiểm tra xem mô hình có thực hiện các bước phân tích tương tự như một nhà khoa học con người hay không. BixBench sử dụng các tập dữ liệu sinh học và chấm điểm các mô hình dựa trên việc kết luận của chúng có phù hợp với các nhà khoa học hay không. Trong SciGym, mô hình được đưa vào một phòng thí nghiệm sinh học mô phỏng, nơi nó phải thiết kế và chạy các thí nghiệm của riêng mình để khám phá một cơ chế ẩn.

Những bộ tiêu chuẩn này đưa chúng ta đến gần hơn với việc đo lường khả năng khoa học, nhưng chúng chưa thực sự kiểm tra liệu một mô hình có thể đưa ra các giải pháp sáng tạo cho những vấn đề phức tạp, mở mà định nghĩa nghiên cứu hay không. Đây là lý do tại sao chúng tôi đã phát triển BioMysteryBench, một bộ tiêu chuẩn tin sinh học giao cho Claude nhiệm vụ phân tích các tập dữ liệu trong thế giới thực, đồng thời giải quyết một số thách thức cố hữu trong việc đánh giá các hệ thống sinh học phức tạp và nhiễu. Chúng tôi nhận thấy rằng khả năng khoa học của Claude trong sinh học đang cải thiện nhanh chóng qua các thế hệ, rằng các mô hình hiện tại hoạt động ngang bằng với các chuyên gia con người, và rằng các thế hệ mới nhất đã giải quyết nhiều vấn đề mà một hội đồng chuyên gia con người không thể, đôi khi sử dụng các chiến lược rất khác nhau.

Khoa học đầy thách thức, và việc đánh giá nó cũng vậy

Các bác sĩ có kỳ thi hội đồng và luật sư có kỳ thi luật, nhưng không có bài kiểm tra tiêu chuẩn nào để trở thành một nhà khoa học. Vấn đề tương tự cũng xuất hiện với AI. Mặc dù chúng ta rất muốn sử dụng các mô hình này cho khoa học, nhưng không có bộ tiêu chuẩn khoa học tác nhân nào trở nên chuẩn mực như SWE-bench đối với kỹ thuật phần mềm. Chúng tôi nghĩ rằng đó là vì nghiên cứu khoa học, đặc biệt là sinh học, có một số đặc tính khiến việc đánh giá thông qua một bộ tiêu chuẩn trở nên đặc biệt khó khăn.

1. Trong sinh học, có nhiều cách "đúng" khác nhau để làm một việc

Nếu chỉ có một cách đúng để trả lời một câu hỏi nghiên cứu, các nghiên cứu sinh tiến sĩ sẽ lấy bằng trong vài tháng, các phòng ban R&D của công ty sẽ không tồn tại, và không có poster hội chợ khoa học nào cần phần "Phương pháp". Cách một nhà khoa học giải quyết vấn đề phụ thuộc vào kỹ năng và nền tảng của họ, các nguồn lực sẵn có, và sở thích nghiên cứu của họ.

Hãy xem xét một câu hỏi tưởng chừng đơn giản đã làm các nhà nghiên cứu chuyển hóa bối rối trong nhiều năm: tại sao một số bệnh nhân tiểu đường loại 2 đáp ứng với thuốc uống metformin trong khi những người khác thì không? Để trả lời câu hỏi này, bạn có thể thực hiện một nghiên cứu liên kết toàn bộ bộ gen (GWAS) trên những người đáp ứng so với những người không đáp ứng và tìm kiếm các biến thể di truyền dự đoán, hoặc giải trình tự hệ vi sinh đường ruột của cả hai nhóm, vì metformin một phần được chuyển hóa bởi vi khuẩn đường ruột. Cả hai đều là những hướng đi hợp lý, và cách bạn tiến hành thường chỉ phụ thuộc vào chuyên môn và nguồn lực.

BixBench xử lý vấn đề này tốt bằng cách chấm điểm mô hình dựa trên kết luận của nó thay vì phương pháp được sử dụng để đạt được chúng. Sự đánh đổi là những kết luận đó được tạo ra bởi một nhà khoa học cá nhân, người đã đưa ra một loạt các lựa chọn chủ quan trong quá trình thực hiện, có thể đã định hình chính câu trả lời. Điều này, đến lượt nó, lại có những cạm bẫy riêng…

2. Các quyết định nghiên cứu cá nhân mang tính chủ quan cao và có thể dẫn đến những kết luận hoàn toàn khác nhau trong các tập dữ liệu nhiễu

Ngay cả trong một hướng nghiên cứu đã chọn, các quyết định cá nhân có thể mang tính chủ quan cao: một nhà khoa học có thể chấp thuận một quyết định, trong khi một nhà nghiên cứu khác có thể có những phản đối nghiêm trọng. Chỉ cần hỏi bất kỳ tác giả nào đã từng thất vọng vì nhận được những gợi ý mâu thuẫn từ một vòng đánh giá ngang hàng! Điều làm cho việc này trở nên khó khăn hơn nữa là thực tế các tập dữ liệu sinh học thường đủ nhiễu để những khác biệt nhỏ trong các quyết định nghiên cứu có thể dẫn đến những kết luận hoàn toàn khác nhau về dữ liệu.

Trong cuộc tìm kiếm kéo dài hàng thập kỷ về các yếu tố dự đoán đáp ứng metformin, những khác biệt nhỏ trong thiết kế nghiên cứu đã dẫn đến những kết luận hoàn toàn khác nhau về đáp ứng metformin. Một bài báo năm 2011 đã báo cáo một biến thể dự đoán đáp ứng metformin được tái tạo trong hai nhóm, với một cơ chế hợp lý liên quan đến kích hoạt AMPK. Một năm sau, Chương trình Phòng ngừa Tiểu đường đã thử nghiệm cùng biến thể đó ở những người tiền tiểu đường và không tìm thấy gì. Cuối cùng, thay vì tự tiến hành nghiên cứu của riêng mình, một phân tích tổng hợp năm 2012 đã gộp năm nhóm và một lần nữa quyết định hiệu ứng của bài báo năm 2011 là có thật nhưng khiêm tốn hơn so với báo cáo ban đầu.

Cách thông minh của SciGym để xử lý sự mơ hồ này là chọn các nhiệm vụ có câu trả lời được xác định rõ ràng. Bởi vì mạng lưới sinh học cơ bản là một trình mô phỏng, trên thực tế, có một sự thật cơ bản, và nhiễu được kiểm soát thay vì kế thừa từ một hệ thống sống phức tạp. Tuy nhiên, không rõ hiệu suất trong phòng thí nghiệm mô phỏng theo sát hiệu suất trên dữ liệu thực tế đến mức nào.

3. Có nhiều câu hỏi sinh học mà con người chưa thể trả lời

Các nhiệm vụ nghiên cứu mà các mô hình có thể có tác động lớn nhất là những nhiệm vụ mà con người vẫn chưa tự mình giải quyết được. Và cuối cùng, đó chính xác là những nhiệm vụ mà chúng ta muốn có thể đánh giá các mô hình. Ví dụ, cơ chế hoạt động của metformin là gì? Ba mươi năm sau khi được phát triển, lĩnh vực này vẫn chưa chắc chắn về mục tiêu chính. Việc khám phá ra nó, hoặc tìm ra một chất tương đồng của metformin rẻ hơn để tổng hợp và ổn định hơn, sẽ có ý nghĩa vô cùng to lớn.

Học máy từ lâu đã giải quyết các vấn đề mà con người thực hiện kém, như dự đoán trình tự và mô hình hóa protein, bằng cách dựa vào dữ liệu thực nghiệm thay vì trực giác chuyên gia. ProteinGym chấm điểm các mô hình về tác động của đột biến đối với sự phù hợp bằng cách sử dụng các thí nghiệm Quét Đột biến Sâu làm cơ sở xác thực, và cuộc thi CASP kéo dài đánh giá sự gấp nếp protein dựa trên các cấu trúc tinh thể chưa được công bố. Cả hai đều dựa trên các phép đo thực nghiệm mà không chuyên gia nào tin tưởng mình có thể tái tạo. Tuy nhiên, các bộ tiêu chuẩn này được xây dựng xung quanh một tập hợp nhiệm vụ hẹp và không nắm bắt được toàn bộ phạm vi công việc tin sinh học mà chúng ta thực sự muốn đo lường.

Đánh giá các mô hình trên các nhiệm vụ sinh học có thể kiểm chứng bằng BioMysteryBench

Vì không có bộ tiêu chuẩn nào xử lý hoàn hảo ba thách thức đã nêu ở trên, chúng tôi đã phát triển BioMysteryBench. BioMysteryBench sử dụng dữ liệu tin sinh học thực tế, phức tạp, mà không để sự phức tạp và thách thức cố hữu trong dữ liệu này làm hỏng chất lượng đánh giá.

BioMysteryBench bao gồm 99 câu hỏi từ nhiều lĩnh vực tin sinh học khác nhau, được viết bởi các chuyên gia trong lĩnh vực. Các chuyên gia được hướng dẫn thu thập một tập dữ liệu và tạo một câu hỏi dựa trên các thuộc tính khách quan, có kiểm soát của dữ liệu, thay vì các kết luận khoa học không thể kiểm chứng. Bằng cách rút ra câu trả lời từ một phát hiện thực nghiệm hoặc lâm sàng, có thể phát triển các câu hỏi mà không yêu cầu chúng phải giải được bởi con người.

Mặc dù những câu hỏi này được tạo ra từ sự thật cơ bản đã được xác minh, chúng vẫn mang cùng một "hương vị" như các nhiệm vụ mà một nhà khoa học nghiên cứu muốn trả lời. Claude được giao mỗi câu hỏi và được đặt trong một môi trường chứa một bộ công cụ tin sinh học chuẩn tối thiểu, khả năng cài đặt các công cụ bổ sung qua pip và conda, và quyền truy cập vào các cơ sở dữ liệu tin sinh học chuẩn (như NCBI và Ensembl) để tải xuống các tài nguyên bổ sung như bộ gen tham chiếu.

BioMysteryBench có bốn đặc tính độc đáo khiến nó trở thành một bộ tiêu chuẩn đặc biệt mạnh mẽ cho khoa học, và giải quyết các thách thức trên:

Nó không phụ thuộc vào phương pháp, cho phép tự do và sáng tạo trong nghiên cứu. Claude được cấp quyền truy cập tương đối không hạn chế để tải xuống các công cụ và truy cập cơ sở dữ liệu, cho phép Claude chọn các bộ chiến lược đa dạng để giải quyết vấn đề. Hơn nữa, các quỹ đạo được chấm điểm dựa trên câu trả lời cuối cùng của chúng, thay vì con đường mà mô hình đã đi để đạt được điều đó. Điều này giải phóng BioMysteryBench khỏi các lựa chọn chủ quan của bất kỳ nhà nghiên cứu nào—các mô hình được thưởng khi đưa ra kết luận sinh học đúng, bất kể chúng chọn con đường phân tích nào.
Các câu hỏi có câu trả lời khách quan, có cơ sở xác thực. Các câu trả lời không được rút ra từ kết luận của các nhà khoa học (vốn gặp phải những thách thức trên) mà từ các thuộc tính có thể kiểm soát của dữ liệu, hoặc siêu dữ liệu được xác thực độc lập. Ví dụ, "Cấu trúc tinh thể này thuộc về sinh vật nào?" có một câu trả lời khách quan, và "Bệnh nhân người bị nhiễm loài virus nào, dựa trên dữ liệu RNA-seq?" là một thuộc tính siêu dữ liệu của một mẫu đã được xác thực bằng xét nghiệm PCR.
Nó cho phép tạo ra các câu hỏi "siêu nhân". Bằng cách tìm nguồn vấn đề từ các thuộc tính có thể kiểm soát của dữ liệu, BioMysteryBench không phụ thuộc vào khả năng giải quyết vấn đề của con người. Đặc biệt, BioMysteryBench chứa một số vấn đề mà—mặc dù có các giải pháp khách quan, có cơ sở xác thực—con người thấy khó hoặc không thể tự giải quyết.

Các câu hỏi ví dụ

Trong quá trình phát triển đánh giá này, các câu hỏi chủ yếu được rút ra từ dữ liệu giải trình tự DNA hoặc RNA thô hoặc được xử lý tối thiểu, vì đây là nơi bắt đầu của nhiều quy trình xử lý sinh học (WGS, scRNA-seq, methylation, ChIP-seq, metagenomics, Hi-C), và cũng bao gồm một số câu hỏi từ proteomics và metabolomics.

Các nhà phát triển câu hỏi đã đưa ra bao gồm:

Tập dữ liệu RNA-seq đơn bào loại tế bào này được lấy từ cơ quan nào của con người?
Gen nào đã bị loại bỏ trong các mẫu thử nghiệm so với các mẫu đối chứng dựa trên dữ liệu RNA-seq?
Từ các trình tự WGS, cái gì

Đọc bài gốc

Đánh giá khả năng nghiên cứu tin sinh học của Claude với BioMysteryBench

Bài liên quan

Anthropic tăng cường suy luận Claude trên Colossus, hợp tác với SpaceX

Alex Albert tại Code with Claude: Gặp gỡ và theo dõi buổi nói chuyện

Xin chào từ Code with Claude!

Nghiên cứu mới của Anthropic Fellows: Model Spec Midtraining (MSM)