Anthropic dạy mô hình hiểu đạo đức, đồng thời mở ra con đường chưng cất mới của bạn
Anthropic đã công bố nghiên cứu "Teaching Claude Why" vào ngày 8/5, giới thiệu một phương pháp huấn luyện mới hiệu quả cho việc căn chỉnh đạo đức AI, khác biệt so với các phương pháp RLHF truyền thống. Thay vì sử dụng hình phạt hoặc dữ liệu khổng lồ, nghiên cứu chỉ cần 3 triệu token dữ liệu SFT (Supervised Fine-Tuning) chứa các cuộc thảo luận đạo đức, lý lẽ chi tiết và tranh luận sâu sắc.
Phương pháp này dựa trên "Hiến pháp AI" của Anthropic, bao gồm các nguyên tắc cấp cao (ưu tiên an toàn), các nguyên tắc hướng dẫn thực tế (như bài kiểm tra 1000 người dùng), và một khuôn khổ xem xét 8 yếu tố để đánh giá tác động. Mô hình được huấn luyện với các chuỗi suy nghĩ dạng "tư duy phản biện" (CoT), trong đó nó mô phỏng quá trình cân nhắc, đánh giá đa chiều trước khi đưa ra quyết định, thay vì chỉ đưa ra câu trả lời cuối cùng.
Kết quả cho thấy phương pháp này không chỉ giảm đáng kể tỷ lệ sai lệch hành vi (từ 22% xuống 3%) mà còn có khả năng tổng quát hóa mạnh mẽ sang các tình huống chưa từng gặp. Điều này chứng minh rằng, khi dữ liệu huấn luyện SFT có đủ tính đa dạng về ngữ cảnh và chứa các bước lập luận trung gian (CoT), nó có thể giúp mô hình học được các nguyên tắc cơ bản chứ không chỉ ghi nhớ câu trả lời mẫu.
Bài viết cho rằng phương pháp này có thể mở ra một hướng đi mới để "chưng cất" tri thức chuyên gia vào AI cho các lĩnh vực không có đáp án rõ ràng (phi RLVR), như tư vấn tâm lý, phân tích chiến lược hay biên tập văn học, bằng cách cung cấp cho mô hình một khuôn khổ nguyên tắc vững chắc và các ví dụ đa dạng về quá trình ra quyết định phức tạp.
marsbit2 ngày trước 11:01