Các mô hình thiết kế Agent: Cuốn sách khiến tôi phải suy ngẫm lại "Chính xác thì Agent là gì?"
Tác giả: Yanhua
Antonio Gullí là giám đốc kỹ thuật tại Google. Ông đã viết một cuốn sách dài 453 trang, phân tách quá trình phát triển AI Agent thành 21 mô hình thiết kế.
Nhưng đây không phải là một bài đánh giá sách. Động lực để tôi đọc cuốn sách này rất cụ thể: Tôi đã viết về Harness Engineering, chia sẻ những sai lầm của mình với Clawdbot và thảo luận về bảy bước ngoặt từ quan điểm "AI agent không phải là phép thuật", chuyển từ việc tiêu tốn token sang thực sự hữu ích. Sau mỗi bài viết, tôi vẫn còn một câu hỏi chưa được suy nghĩ thấu đáo: Liệu có một logic nền tảng có thể tái sử dụng đằng sau những thứ này không?
Cuốn sách này đã cho tôi câu trả lời, và nó sâu sắc hơn tôi mong đợi.
Có thể bạn hoàn toàn chưa viết một Agent nào cả
Nhận định khắc nghiệt nhất trong cuốn sách nằm ẩn trong phần mở đầu.
Hầu hết các "AI" mà mọi người đang sử dụng chỉ ở Cấp độ 0: LLM thuần túy, không có công cụ, không có bộ nhớ và không có hành động. Nếu bạn hỏi nó bộ phim nào hay nhất tại Oscar 2025, nó sẽ đoán. Cuốn sách khẳng định rõ ràng: Cấp độ 0 không phải là một Agent.
Tiến lên phía trên mới là nơi các Agent thực thụ tồn tại:
Cấp độ 1: Người dùng công cụ (Tool User)
Agent bắt đầu sử dụng các công cụ: tìm kiếm, API, cơ sở dữ liệu. Nhưng không chỉ là "có khả năng gọi giao diện"; nó còn cần đánh giá khi nào nên gọi, gọi cái gì và cách sử dụng kết quả ra sao. Cuốn sách đưa ra một ví dụ rất cụ thể: khi người dùng hỏi "Gần đây có chương trình gì mới không?", Agent nhận ra thông tin này không có trong dữ liệu huấn luyện và chủ động gọi công cụ tìm kiếm để tìm, sau đó tổng hợp kết quả. Bước quan trọng là "tự nhận thức". Không phải con người bảo nó "hãy tìm kiếm đi", mà là nó tự đánh giá rằng nó cần phải tìm kiếm. Khả năng phán đoán này là ngưỡng cửa cho Cấp độ 1.
Cấp độ 2: Nhà tư duy chiến lược (Strategic Thinker)
Hai yếu tố nữa được thêm vào: lập kế hoạch và Kỹ thuật Ngữ cảnh. Cuốn sách định nghĩa Kỹ thuật Ngữ cảnh: không chỉ là chất đống thông tin, mà là lựa chọn, cắt tỉa và đóng gói ngữ cảnh một cách cẩn thận. Một ví dụ thông minh được đưa ra: người dùng muốn tìm một quán cà phê giữa hai địa điểm. Agent trước tiên gọi công cụ bản đồ để thu thập dữ liệu, sau đó đánh giá rằng "tiếp theo chỉ cần tên đường", cắt tỉa đầu ra của bản đồ thành một danh sách ngắn và đưa nó vào công cụ tìm kiếm địa phương. Mỗi bước đều nhằm giảm nhiễu trong thông tin.
Có một câu trong cuốn sách mà tôi đã đọc đi đọc lại nhiều lần: "Để đạt được độ chính xác cao nhất với AI, nó phải được cung cấp ngữ cảnh ngắn gọn, tập trung và mạnh mẽ." Kỹ thuật Ngữ cảnh chính là việc thực hiện điều này.
Ở cấp độ này, Agent cũng có thể tự phản tư. Sau khi hoàn thành một nhiệm vụ, nó xem xét công việc của mình, xác định các vấn đề và tự thực hiện các điều chỉnh. Tôi sẽ giải thích chi tiết hơn về điều này sau.
Cấp độ 3: Hợp tác đa Agent (Multi-Agent Collaboration)
Quan điểm của cuốn sách rất rõ ràng: đừng nghĩ đến việc tạo ra một siêu Agent toàn năng. Cách tiếp cận thực sự đáng tin cậy là xây dựng một đội ngũ, ví dụ như Agent quản lý dự án + Agent nghiên cứu + Agent thiết kế + Agent viết nội dung. Ví dụ trong sách là một đợt ra mắt sản phẩm mới: một "Agent quản lý dự án" điều phối mọi thứ, phân công nhiệm vụ cho "Agent nghiên cứu thị trường", "Agent thiết kế sản phẩm" và "Agent tiếp thị". Chìa khóa nằm ở giao tiếp: cách các Agent truyền dữ liệu, đồng bộ hóa trạng thái và xử lý xung đột. Chương này minh họa sáu loại cấu trúc liên kết giao tiếp, từ Agent đơn lẻ đơn giản nhất đến sự kết hợp tùy chỉnh linh hoạt nhất, cùng giải thích về kịch bản phù hợp cho từng loại.
Sau khi đọc bốn cấp độ này, tôi chợt hiểu tại sao nhiều người nói "Agent của tôi không hữu ích". Mô hình không phải là vấn đề; vấn đề là bạn đang đối xử với nó như một chatbot, và thậm chí nó có thể chưa đạt đến Cấp độ 1.
Kỹ thuật Ngữ cảnh: Khái niệm bị đánh giá thấp nhất trong cuốn sách
Tôi đã viết một bài về Harness Engineering, thảo luận về việc thiết kế đường chạy quan trọng hơn mã lực của động cơ. Sau khi đọc cuốn sách này, tôi nhận ra rằng Kỹ thuật Ngữ cảnh chính là sự ánh xạ của Harness Engineering ở cấp độ prompt.
Kỹ thuật Prompt truyền thống chỉ quan tâm đến "cách bạn hỏi". Kỹ thuật Ngữ cảnh trong cuốn sách quan tâm đến "ngữ cảnh nào đang ở trước mặt Agent trước khi hỏi". Nó bao gồm bốn lớp thông tin:
Lớp thứ nhất, system prompt. Xác định Agent là ai, sử dụng tông giọng nào và thiết lập các ranh giới. Hầu hết mọi người chỉ viết lớp này.
Lớp thứ hai, dữ liệu bên ngoài. Các tài liệu được truy xuất bởi RAG, giá trị trả về từ các lệnh gọi công cụ, dữ liệu API thời gian thực. Đây là nơi hầu hết mọi người gặp khó khăn: họ biết mình cần cung cấp dữ liệu nhưng không biết cách thực hiện mà không làm quá tải mô hình.
Lớp thứ ba, dữ liệu ngầm định. Danh tính người dùng, lịch sử tương tác, trạng thái môi trường. Những thứ không được nêu rõ ràng nhưng Agent nên biết. Ví dụ, nếu bạn nói với Agent "Giúp tôi gửi email cho John để xác nhận cuộc họp ngày mai", nó nên biết cuộc họp ngày mai trong lịch của bạn là gì và mối quan hệ của bạn với John ra sao.
Lớp thứ tư, vòng lặp phản hồi. Sau mỗi đầu ra, Agent tự động đánh giá chất lượng và điều chỉnh chiến lược ngữ cảnh cho lần tiếp theo. Cuốn sách gọi đây là "tối ưu hóa ngữ cảnh tự động", và Vertex AI Prompt Optimizer của Google là một triển khai kỹ thuật của ý tưởng này.
Khi đọc đến đây, tôi nhớ lại một trải nghiệm trước đây mà tôi đã chia sẻ trong "AI agents không phải là phép thuật", nơi tôi đề cập rằng "agent của bạn cần các quy tắc, và rất nhiều quy tắc". Nhìn lại, những quy tắc đó về cơ bản là phiên bản thủ công của Kỹ thuật Ngữ cảnh, vốn đã được cuốn sách hệ thống hóa.
Phản tư: Hai Agent thực sự tốt hơn một
Đây là mô hình có giá trị thực tiễn nhất trong toàn bộ cuốn sách đối với tôi.
Cốt lõi của Phản tư rất đơn giản: Agent xem xét công việc của mình sau khi hoàn thành nhiệm vụ và tự thực hiện các chỉnh sửa. Nhưng phương pháp thực hiện mới là yếu tố then chốt. Cuốn sách nêu rõ: Producer (Người tạo) và Critic (Người phê bình) phải sử dụng hai Agent khác nhau, với các system prompt khác nhau. Một cá tính duy nhất tự xem xét công việc của chính mình sẽ luôn có những điểm mù. Nếu bạn để cùng một LLM viết mã rồi tự xem xét mã của chính nó, rất có khả năng nó sẽ nói "Khá tốt đấy".
Cuốn sách cung cấp một ví dụ mã hoàn chỉnh.
Prompt của Producer là "Bạn là một lập trình viên Python, hãy viết một hàm để tính giai thừa, xử lý các trường hợp biên và ngoại lệ."
Prompt của Critic là "Bạn là một kỹ sư cấp cao khó tính, hãy xem xét mã từng dòng một, kiểm tra lỗi, phong cách, các trường hợp biên bị bỏ sót và các lĩnh vực cần cải thiện. Nếu nó hoàn hảo, hãy xuất
CODE_IS_PERFECT; nếu không, hãy liệt kê tất cả các vấn đề."Sau đó là một vòng lặp for: Producer viết mã → Critic xem xét → Producer thực hiện thay đổi dựa trên phản hồi → Critic xem xét lại → cho đến khi Critic nói
CODE_IS_PERFECThoặc đạt đến số lần lặp tối đa.
Đơn giản vậy thôi. Nhưng cuốn sách nhắc nhở chúng ta về một vấn đề chi phí dễ bị bỏ qua: mỗi vòng lặp phản tư là một lệnh gọi LLM mới, và càng nhiều lần lặp, chi phí càng cao. Ngoài ra, khi lịch sử trò chuyện mở rộng, cửa sổ ngữ cảnh sẽ bị lấp đầy bởi các phiên bản trước đó và các lời phê bình, làm giảm không gian suy luận thực tế có thể sử dụng. Do đó, thực tiễn tốt nhất cho Phản tư là: đặt số lần lặp tối đa hợp lý (cuốn sách sử dụng 3) và dừng lại khi Critic hài lòng; đừng theo đuổi sự hoàn hảo.
Các ứng dụng vượt xa việc viết mã. Viết bài, lập kế hoạch, tóm tắt tài liệu, giải quyết các vấn đề logic—tất cả đều có thể áp dụng mô hình Producer-Critic. Cuốn sách liệt kê bảy kịch bản ứng dụng, với logic cốt lõi giống nhau: tạo trước, sau đó xem xét và cuối cùng là chỉnh sửa.
Đa Agent không phải cứ phức tạp hơn là tốt hơn
Điều tôi thích nhất ở chương Hợp tác đa Agent là sáu sơ đồ cấu trúc liên kết giao tiếp. Nhiều người lao ngay vào sự phức tạp, nhưng trong hầu hết các kịch bản, ba loại là đủ:
Agent đơn lẻ (Thực thi độc lập): Các nhiệm vụ có thể được chia thành các bài toán con độc lập, mỗi Agent xử lý phần của riêng mình. Đơn giản và dễ bảo trì.
Mạng ngang hàng (Peer-to-Peer): Các Agent giao tiếp trực tiếp với nhau, không có nút điều khiển trung tâm. Phi tập trung và có khả năng chịu lỗi; nếu một Agent thất bại, nó không ảnh hưởng đến toàn bộ hệ thống. Tuy nhiên, chi phí phối hợp cao và dễ trở nên hỗn loạn.
Người giám sát (Điều phối trung tâm): Một Agent giám sát quản lý một nhóm Agent thực thi. Nó phân bổ nhiệm vụ, thu thập kết quả và giải quyết xung đột. Hệ thống phân cấp rõ ràng và dễ quản lý. Tuy nhiên, người giám sát là điểm lỗi duy nhất và là nút thắt hiệu suất.
Ba loại còn lại (Supervisor-as-Tool, phân cấp, kết hợp tùy chỉnh) là các biến thể và kết hợp của ba loại đầu tiên. Cuốn sách khẳng định một cách thực tế: Cấu trúc liên kết bạn cần phụ thuộc vào độ phức tạp của nhiệm vụ. Nhiệm vụ càng phân mảnh, chi phí giao tiếp càng cao; đến một mức độ nào đó, mô hình Người giám sát có thể hiệu quả hơn mô hình phân cấp.
Kinh nghiệm của tôi là nhiều người dành 80% thời gian cho các giao thức giao tiếp khi xây dựng đa Agent mà quên đặt một câu hỏi cơ bản hơn: liệu nhiệm vụ này có thực sự cần nhiều Agent không? Cuốn sách nêu rõ rằng một Agent đơn lẻ Cấp độ 2 với Phản tư thường là đủ. Cấp độ 3 dành cho các kịch bản mà một Agent đơn lẻ thực sự không thể xử lý.
Mô hình ba lớp bộ nhớ, tôi đã có cảm giác mơ hồ về nó nhưng chưa đặt tên được
Chương Bộ nhớ gây ấn tượng với tôi nhất vì khi tôi viết các bài về Obsidian + Claude, tôi liên tục suy ngẫm một câu hỏi: bộ nhớ của Agent nên được phân lớp như thế nào?
Cuốn sách đưa ra câu trả lời:
Phiên (Lớp hội thoại): Cửa sổ ngữ cảnh của cuộc trò chuyện hiện tại, là bộ nhớ ngắn nhất và biến mất sau khi cuộc trò chuyện kết thúc. Các mô hình ngữ cảnh dài chỉ đơn giản là mở rộng cửa sổ này, nhưng về bản chất nó vẫn là tạm thời, và mỗi lần suy luận đều phải xử lý toàn bộ cửa sổ, điều này rất tốn kém và chậm chạp.
Trạng thái (Lớp trạng thái): Dữ liệu tạm thời trong nhiệm vụ hiện tại. Ví dụ: "Nhiệm vụ hiện tại là gì?", "Nó đã tiến triển đến đâu?", "Dữ liệu nào đã được tạo ra ở giữa?" Dài hơn Phiên, nhưng bị xóa sau khi nhiệm vụ kết thúc; cuốn sách sử dụng cơ chế Trạng thái của Google ADK làm ví dụ hoàn chỉnh.
Bộ nhớ (Lớp bền vững): Bộ nhớ dài hạn trải dài qua các phiên và nhiệm vụ. Tùy chọn người dùng, kinh nghiệm đã học, các quyết định lịch sử quan trọng được lưu trữ trong cơ sở dữ liệu hoặc kho lưu trữ vector, với khả năng truy xuất ngữ nghĩa. Cuốn sách nhấn mạnh một điểm quan trọng: Bộ nhớ không chỉ là lưu trữ; nó còn đòi hỏi thiết kế một chiến lược hoàn chỉnh cho "cái gì cần lưu trữ, khi nào lưu trữ và cách truy xuất". Lưu trữ quá nhiều sẽ tạo ra nhiễu, trong khi lưu trữ quá ít là không đủ.
Trong bài viết trước về Clawdbot, tôi đã đề cập đến "tệp trạng thái" và "tài liệu không gian làm việc", về cơ bản đó là những nỗ lực thủ công của tôi trong việc tạo ra các lớp Trạng thái và Bộ nhớ, và cuốn sách đã định hình quá trình này.
Năm giả định, giả định thứ năm là vô lý nhất
Ở cuối cuốn sách, năm giả định về tương lai của các Agent được đề cập, với bốn giả định đầu tiên vẫn nằm trong phạm vi ngoại suy hợp lý: các Agent đa năng phát triển từ lập trình sang quản lý dự án, khám phá chủ động được cá nhân hóa sâu sắc các nhu cầu của bạn, trí tuệ hiện thân di chuyển từ màn hình vào thế giới vật lý và các Agent trở thành các thực thể kinh tế độc lập.
Giả định thứ năm làm tôi sốc: Đa Agent tự biến đổi (Transforming Multi-Agent).
Bạn chỉ cần khai báo một mục tiêu, chẳng hạn như "tạo một doanh nghiệp thương mại điện tử bán cà phê cao cấp". Hệ thống tự động quyết định: trước tiên tạo một "Agent nghiên cứu thị trường" và một "Agent xây dựng thương hiệu". Sau khi chạy một số dữ liệu, nó đánh giá rằng Agent xây dựng thương hiệu không còn cần thiết nữa và chia nó thành ba Agent mới: "Agent thiết kế logo", "Agent xây dựng trang web" và "Agent chuỗi cung ứng". Nếu Agent xây dựng trang web trở thành nút thắt cổ chai, hệ thống sẽ tự động sao chép ba Agent song song để làm việc trên các trang khác nhau cùng lúc. Trong suốt quá trình, hệ thống liên tục tối ưu hóa prompt của từng Agent và tổ chức lại cấu trúc đội ngũ.
Cuốn sách gọi đây là "hệ thống đa Agent tự biến đổi, hướng mục tiêu". Nó không thực thi một kế hoạch bạn đã viết; nó tự tạo ra kế hoạch, điều chỉnh kế hoạch và tự tổ chức lại đội ngũ thực thi của mình.
Điều này làm tôi nhớ đến AutoResearch của Karpathy: viết một program.md, xác định mục tiêu, chỉ số và ranh giới, rồi nhấn "bắt đầu". Con người nằm ngoài vòng lặp. Nhưng cuốn sách này đẩy nó đi xa hơn: ngay cả cách đội ngũ Agent được hình thành và tổ chức lại cũng để cho hệ thống quyết định. Con người chỉ khai báo "những gì họ muốn".
Ba hành động bạn có thể thực hiện ngay lập tức
Sau khi đọc xong cuốn sách này, tôi có ba hành động ngay lập tức mà tôi có thể triển khai:
Thứ nhất, thêm một Critic vào Agent hiện tại của bạn. Cho dù bạn đang sử dụng Claude Code, CrewAI hay một khung mà bạn tự xây dựng, hãy thêm một bước vào cuối quy trình làm việc hiện tại của bạn: để một Agent khác (với system prompt khác) xem xét đầu ra của bước trước đó. Tạo mã cộng với xem xét mã, viết bài cộng với kiểm tra thực tế, lập kế hoạch cộng với đánh giá tính khả thi. Nó thêm một lệnh gọi LLM nữa, nhưng sự cải thiện chất lượng thường tăng gấp đôi. Mô hình Producer-Critic trong sách là cắm-và-chạy.
Thứ hai, bắt đầu thực hiện Kỹ thuật Ngữ cảnh, không chỉ là Kỹ thuật Prompt. Nhìn lại các tệp hướng dẫn bạn đã viết cho Agent. Nếu chúng đều là các quy tắc về "bạn nên làm thế nào", thiếu ngữ cảnh về "môi trường bạn đang đối mặt ngay lúc này", hãy điền vào đó. Hãy cho Agent biết nó hiện đang ở trong dự án nào, những quyết định nào đã được đưa ra trước đó và tùy chọn người dùng là gì. Chương Kỹ thuật Ngữ cảnh trong sách và
AGENTS.mdcủa bạn là hai cách diễn đạt của cùng một thứ.Thứ ba, đừng vội vàng lao vào Đa Agent. Hãy đưa Agent đơn lẻ của bạn lên Cấp độ 2: với các công cụ, Phản tư và Bộ nhớ. Cuốn sách liên tục nhấn mạnh rằng một Agent đơn lẻ Cấp độ 2 kết hợp với Producer-Critic và Kỹ thuật Ngữ cảnh có thể bao phủ phần lớn các kịch bản thực tế. Cấp độ 3 dành cho các nhiệm vụ thực sự đòi hỏi sự phân công lao động liên ngành, đa giai đoạn và song song. Vấn đề của hầu hết mọi người không phải là họ thiếu Agent, mà là họ chưa tối ưu hóa một Agent đơn lẻ.
Cuốn sách này có 453 trang và sẽ được Springer xuất bản vào năm 2025. Các ví dụ mã bao gồm LangChain/LangGraph, Google ADK, CrewAI và OpenAI API. Lời tựa được viết bởi Phó chủ tịch AI của Google Cloud, và có một lời giới thiệu từ CIO của Goldman Sachs, được viết hay một cách bất ngờ.
Nhưng lý do tôi giới thiệu nó không phải vì sự "toàn diện". Đó là vì sau khi đọc nó, bạn sẽ nhận ra một điều: những cạm bẫy bạn gặp phải với các Agent trong sáu tháng qua đã được người khác tổ chức thành các mô hình. Bạn không cần phải phát minh lại Phản tư, bạn không cần phải đoán cách phân lớp Bộ nhớ và bạn không cần phải thử nghiệm xem nên sử dụng cấu trúc liên kết giao tiếp nào cho Đa Agent.
Ai đó đã vẽ bản đồ cho bạn; tất cả những gì còn lại là bước đi trên đó.
Bạn có đang sử dụng AI Agent để phát triển không? Agent hiện tại của bạn đang ở cấp độ nào?
Bạn cũng có thể thích

Chủ tịch Cục Dự trữ Liên bang giàu nhất trong 112 năm đã xuất hiện: Kevin Warsh đang viết lại các quy tắc

Vitalik chia sẻ về tương lai của Ethereum Foundation: một con tàu nhỏ gọn hơn, khác biệt hơn nhưng bền bỉ hơn

Điểm tin chính: Toàn văn bài phát biểu của Giám đốc Khoa học Google Shanahan

Giấc mơ khám phá Sao Hỏa của SuperEx: Tiền kỹ thuật số là chìa khóa mở ra các giao dịch kinh tế trong kỷ nguyên liên sao

Tin sáng | Michael Saylor cho biết tuần này ông đã mua trái phiếu thay vì Bitcoin; StablR bị tấn công và mất khoảng 2,8 triệu USD; Quốc hội Mỹ tiếp tục thúc đẩy Đạo luật Dự trữ Bitcoin

a16z: 7 biểu đồ giúp hiểu cách token hóa thay đổi bản chất của tài sản

Giải mã bí quyết thành công của Hyperliquid từ cấu trúc tài chính năm lớp

Sau khi Futu Securities bị cấm, liệu mua cổ phiếu trên chuỗi (on-chain) có phải là giải pháp mới?
Tại sao các nhà giao dịch tiền điện tử lại tiếp tục theo dõi Vàng và Nasdaq trong năm 2026

AIDC, cho thuê năng lực tính toán và đám mây: "Luận thuyết ba phần" về quá trình chuyển đổi AI tại các trang trại đào tiền mã hóa

Futu bị tịch thu toàn bộ lợi nhuận bất hợp pháp, lời cảnh tỉnh cho các sàn giao dịch tiền mã hóa
Pizza, Poker & Giao dịch AI: Nhìn lại sự kiện WEEX Crypto Pizza Day tại Dubai

IOSG Founder: Please tell Vitalik the truth, let the OGs who have enjoyed the industry's dividends enlighten the young people

Morning Report | SpaceX reveals it holds approximately $1.45 billion in Bitcoin; Nvidia's Q1 financial report shows revenue of $81.6 billion; Manus plans to raise $1 billion for buyback business

Insiders: DeepSeek is forming a Harness team to compete with Claude Code

SpaceX officially submitted its prospectus, unveiling the largest IPO in history

The financial changes under the new SEC regulations: Opportunities and regulatory red lines behind "tokenized stocks"






