Viện An ninh Trí tuệ Nhân tạo của Vương quốc Anh (AISI) đã công bố một báo cáo đánh giá đầu tiên về một mô hình ngôn ngữ lớn (LLM) mã nguồn mở, tập trung vào Claude 3 Opus của Anthropic. Báo cáo này là một phần trong nỗ lực rộng lớn hơn nhằm thiết lập các tiêu chuẩn đánh giá rủi ro an ninh mạng cho AI.
Báo cáo, được công bố hôm thứ Năm, đã kiểm tra Claude 3 Opus trên một loạt các tác vụ liên quan đến an ninh mạng, bao gồm tìm kiếm lỗ hổng phần mềm, thực hiện các cuộc tấn công mạng và xử lý thông tin nhạy cảm. Mục tiêu là để hiểu liệu các mô hình AI tiên tiến có thể được sử dụng cho các mục đích độc hại hay không và chúng có thể hỗ trợ các chuyên gia an ninh mạng như thế nào.
Kết quả đánh giá: Mối đe dọa tiềm tàng và khả năng phòng thủ
Báo cáo của AISI phát hiện ra rằng Claude 3 Opus thể hiện “một số khả năng đáng kể” trong việc hỗ trợ các tác vụ an ninh mạng, nhưng cũng cảnh báo về những rủi ro tiềm ẩn. Cụ thể, mô hình này cho thấy hiệu quả trong việc xác định và khai thác các lỗ hổng phần mềm, cũng như hỗ trợ các hoạt động tấn công mạng cơ bản.
Tuy nhiên, báo cáo nhấn mạnh rằng những phát hiện này không nên được hiểu là Claude 3 Opus hiện là một mối đe dọa trực tiếp. Thay vào đó, chúng chỉ ra “một số khả năng đáng kể trong các lĩnh vực liên quan đến an ninh mạng” mà các nhà phát triển và nhà hoạch định chính sách cần lưu ý.
Một phát hiện quan trọng khác là mô hình này dường như có “một số mức độ phòng thủ tích hợp” chống lại việc bị lạm dụng. Ví dụ, khi được yêu cầu thực hiện các tác vụ độc hại rõ ràng, Claude 3 Opus thường từ chối hoặc cung cấp các phản hồi mang tính xây dựng hơn là hướng dẫn trực tiếp cho các cuộc tấn công.
Bối cảnh rộng hơn và phản ứng từ Anthropic
Báo cáo này được đưa ra trong bối cảnh ngày càng có nhiều lo ngại về việc các mô hình AI mạnh mẽ có thể bị lợi dụng cho các mục đích xấu. Gần đây, một nhóm các nhà nghiên cứu đã đặt tên cho một biến thể giả thuyết của Claude là “Claude Mythos” và cảnh báo rằng nó có thể là một mối đe dọa an ninh mạng nghiêm trọng nếu bị phát hành không có kiểm soát.
Tuy nhiên, Anthropic đã phản bác lại những tuyên bố này. Một phát ngôn viên của công ty cho biết trong một tuyên bố gửi tới Decrypt: “Claude 3 Opus không phải là một mô hình nguồn mở và không có kế hoạch phát hành nó dưới dạng nguồn mở. Chúng tôi đã thực hiện các biện pháp bảo vệ nghiêm ngặt để ngăn chặn việc lạm dụng và sẽ tiếp tục đầu tư vào an toàn AI.”
Phát ngôn viên này cũng nhấn mạnh rằng báo cáo của AISI đã sử dụng một phiên bản cụ thể của Claude 3 Opus được cung cấp cho mục đích đánh giá và không phản ánh đầy đủ các biện pháp bảo vệ được triển khai trong sản phẩm thương mại.
Ý nghĩa đối với tương lai của đánh giá AI
Báo cáo của AISI đánh dấu một bước quan trọng trong việc phát triển các phương pháp đánh giá rủi ro AI tiêu chuẩn hóa. Viện này tuyên bố rằng công việc của họ sẽ giúp “thông báo cho các nhà hoạch định chính sách, các nhà phát triển AI và cộng đồng nghiên cứu rộng lớn hơn về những rủi ro và lợi ích tiềm năng của các hệ thống AI tiên tiến.”
Các chuyên gia trong ngành cho rằng việc thiết lập các tiêu chuẩn đánh giá minh bạch và có thể so sánh được là rất quan trọng để đảm bảo sự phát triển an toàn và có trách nhiệm của AI. Báo cáo về Claude 3 Opus có thể đặt nền tảng cho các đánh giá tương tự trong tương lai đối với các mô hình AI khác.
Khi công nghệ AI tiếp tục phát triển với tốc độ nhanh chóng, các cuộc thảo luận về an ninh, đạo đức và quản trị sẽ ngày càng trở nên quan trọng. Báo cáo của AISI nhấn mạnh sự cần thiết phải cân bằng giữa việc thúc đẩy đổi mới và giảm thiểu rủi ro, một thách thức mà cả khu vực công và tư đang phải đối mặt.
Tuyên bố miễn trừ: Bài viết này chỉ nhằm mục đích cung cấp thông tin dưới dạng blog cá nhân, không phải là khuyến nghị đầu tư. Nhà đầu tư cần tự nghiên cứu kỹ lưỡng trước khi đưa ra quyết định và chúng tôi không chịu trách nhiệm đối với bất kỳ quyết định đầu tư nào của bạn.
Theo Nghị quyết số 05/2025/NQ-CP ngày 09/09/2025 của Chính phủ về việc thí điểm triển khai thị trường tài sản số tại Việt Nam, CoinPhoton.com hiện chỉ cung cấp thông tin cho độc giả quốc tế và không phục vụ người dùng tại Việt Nam cho đến khi có hướng dẫn chính thức từ cơ quan chức năng.
Tin Vắn Crypto#Anthropic #Claude #Mythos #Mối #đe #dọa #nghiêm #trọng #hay #chỉ #là #cường #điệu #Viện #ninh #lên #tiếng1776103562








