Có một file đang gây tranh cãi khắp Twitter công nghệ, cộng đồng SEO và các diễn đàn lập trình. Nó tên là llms.txt, và tùy theo người bạn hỏi, đây có thể là tương lai của việc AI khám phá nội dung web — hoặc chỉ là lãng phí thời gian.
Điều kỳ lạ là: hơn 844.000 website đã triển khai nó — theo thống kê của BuiltWith tính đến tháng 10/2025. Các tên tuổi lớn như Anthropic (tài liệu Claude), Cloudflare và Stripe đều đang dùng. Thế nhưng chưa có nền tảng AI lớn nào chính thức xác nhận rằng họ thực sự đọc những file này.
Vậy chuyện gì đang xảy ra?
Vấn đề mà llms.txt cố gắng giải quyết
Hình dung thế này: ai đó hỏi ChatGPT hoặc Claude về sản phẩm của bạn. AI cần lấy thông tin từ website của bạn ngay lúc đó, trong khi đang trả lời.
Nhưng có một vấn đề.
Website của bạn có menu điều hướng, banner cookie, footer, sidebar, layout nặng JavaScript, và nội dung marketing rải rác khắp nơi. Thông tin thực sự hữu ích? Chôn vùi đâu đó trong đống nhiễu đó. Và AI chỉ có vài giây để tìm, cộng với giới hạn “cửa sổ ngữ cảnh” để xử lý.
Điều này khác hoàn toàn với cách Google hoạt động. Google crawl site của bạn trong nhiều ngày hoặc nhiều tuần, lập chỉ mục tất cả, phục vụ kết quả từ cache. Các hệ thống AI cần lấy nội dung theo thời gian thực trong khi đang hội thoại với người dùng. Lộn xộn. Tốn tài nguyên. Thường không chính xác.
llms.txt ra đời như một giải pháp — một file text đơn giản đặt tại yourdomain.com/llms.txt với ý nghĩa: “Này AI, bỏ qua hết đống rác đó đi. Đây là 10 trang quan trọng nhất của tôi, đã ở định dạng Markdown sạch sẽ.”
Jeremy Howard từ Answer.AI đề xuất ý tưởng này vào tháng 9/2024. Ý tưởng lan nhanh. Nhưng liệu nó có thực sự hoạt động? Đó là lúc mọi thứ trở nên phức tạp.
llms.txt trông như thế nào trong thực tế
Định dạng file cố ý giữ đơn giản — chỉ là Markdown. Bạn bắt đầu với tên site dưới dạng tiêu đề H1. Thêm mô tả ngắn trong blockquote. Sau đó tổ chức các trang chính dưới tiêu đề H2 như “Tài liệu”, “Bắt đầu” hoặc “API Reference”.
Mỗi link theo mẫu: [Tên trang](URL): Mô tả ngắn nội dung.
Vậy thôi. Không có cú pháp phức tạp, không có XML schema, không có file cấu hình. Một lập trình viên có thể viết tay trong 20 phút.
Ngoài ra còn có llms-full.txt — phiên bản đầy đủ chứa toàn bộ tài liệu trong một file khổng lồ thay vì chỉ có link. Phiên bản của Cloudflare có 3,7 triệu token. Của Vercel được ví như “một cuốn tiểu thuyết 400.000 từ”. Logic ở đây là: tại sao bắt AI theo link khi bạn có thể cung cấp tất cả ngay từ đầu?
Trang cũng có thể cung cấp phiên bản Markdown của từng trang bằng cách thêm .md vào URL (ví dụ: page.html.md). Điều này cho AI văn bản thuần không cần phân tích HTML.
Ai đang dùng llms.txt?
Danh sách triển khai kể một câu chuyện. Đó không phải các site nhỏ ngẫu nhiên — mà là công cụ dành cho lập trình viên, nền tảng tài liệu và các công ty kỹ thuật nơi AI coding assistant đóng vai trò quan trọng.
Mintlify tạo ra tác động lớn nhất. Vào tháng 11/2024, họ bật tính năng tự động tạo llms.txt cho mọi trang tài liệu họ host. Hàng nghìn tài liệu kỹ thuật — bao gồm Anthropic, Cursor, Pinecone và Windsurf — có ngay file llms.txt. Điều này cho thấy ngành công nghiệp nhìn nhận giá trị của tài liệu có cấu trúc phục vụ AI.
Các công ty công nghệ lớn có những cách triển khai thú vị. Anthropic có cả llms.txt (8.364 token) và llms-full.txt (481.349 token) bao phủ toàn bộ tài liệu API. Cloudflare tổ chức theo sản phẩm, để AI chỉ lấy ngữ cảnh liên quan cho từng dịch vụ. NVIDIA tách giữa tài liệu kỹ thuật (1.259 token) và site chính (252.607 token). Stripe cấu trúc theo danh mục sản phẩm.
Công cụ cho lập trình viên chiếm đa số. Supabase, Zapier, Modal và hàng chục cái tên khác đã triển khai. Hợp lý thôi — người dùng của họ phụ thuộc nhiều vào AI coding assistant, và file llms.txt chính xác có thể cải thiện chất lượng gợi ý code từ AI.
Ba thư mục cộng đồng đang theo dõi việc triển khai: llms-text.com/directory liệt kê hơn 788 site đã xác minh, llmstxt.site hiển thị hàng trăm site kèm số token, và directory.llmstxt.cloud phân loại theo ngành.
Sự thật khó chịu về việc AI có thực sự đọc llms.txt không
Chưa có nền tảng AI lớn nào chính thức cam kết sử dụng llms.txt.
Không một cái nào. Tuyệt đối không.
John Mueller của Google thẳng thắn phát biểu trên Reddit và Bluesky: “Không có hệ thống AI nào hiện đang dùng llms.txt.” OpenAI chưa thông báo ChatGPT hay GPTBot đọc những file này. Anthropic — dù tự xuất bản llms.txt của mình — chưa xác nhận hệ thống Claude tham chiếu đến nó trong các cuộc hội thoại. Google, Microsoft, Perplexity và Meta? Im lặng hoàn toàn.
Một số chuyên gia SEO thấy các crawler của OpenAI ping file llms.txt 15 phút một lần trong log của họ. Nhưng crawl một file không có nghĩa là sử dụng nó cho bất kỳ điều gì có ý nghĩa. Dữ liệu từ Profound’s GEO tracking cho thấy bot của Microsoft và OpenAI đang chủ động lấy cả llms.txt và llms-full.txt — nhưng đây có thể chỉ là crawl thăm dò.
Cách hiểu lạc quan: các nền tảng đang âm thầm thử nghiệm trước khi cam kết. Cách hiểu hoài nghi: họ sẽ không bao giờ áp dụng vì các giải pháp tốt hơn đã tồn tại hoặc sắp xuất hiện.
Tại sao một số chuyên gia gọi đây là lãng phí thời gian
Phe hoài nghi không ngại lên tiếng.
Lập luận cốt lõi của họ là: không có bằng chứng đã được chứng minh rằng llms.txt cải thiện khả năng truy xuất của AI, tăng traffic, hay nâng cao độ chính xác của model. Và không có nhà cung cấp nào chính thức cam kết xử lý nó.
Ngoài ra còn có vấn đề niềm tin. File riêng biệt tạo điều kiện cho thao túng. Bạn có thể đặt nội dung khác trong llms.txt so với những gì người dùng thực sự thấy trên trang. Điều này phá vỡ nguyên tắc cơ bản của việc lập chỉ mục đáng tin cậy.
Nghiên cứu cũng ủng hộ lo ngại về gian lận. Một bài báo có tên “Adversarial Search Engine Optimization for Large Language Models” chứng minh rằng các prompt được tạo ra khéo léo có thể khiến LLM có khả năng gợi ý nội dung mục tiêu cao hơn 2,5 lần. Nếu website có thể đặt các hướng dẫn đặc biệt trong llms.txt mà không xuất hiện trong HTML hiển thị, tiềm năng lạm dụng là rất lớn.
John Mueller của Google khuyên các SEO nên “đặt câu hỏi về mọi thứ” và phát hiện thông tin sai lệch trước khi đầu tư thời gian vào những việc không cần thiết.
Lập luận phản đối dựa trên các thực tế cụ thể:
- Không có nền tảng nào chính thức hỗ trợ sau 18 tháng kể từ khi đề xuất
- Không có trường hợp được xác nhận nào về việc LLM dùng llms.txt để cải thiện phản hồi
- Không có nghiên cứu độc lập nào chứng minh hiệu quả
- Tiềm năng gian lận và thao túng đã được ghi nhận
Các công cụ SEO như Rank Math và SEMrush đánh dấu thiếu llms.txt là vấn đề của site. Điều này tạo ra áp lực triển khai mà không có bằng chứng về giá trị — một vòng tròn tự thực hiện xây dựng trên hy vọng, không phải dữ liệu.
Tại sao người ủng hộ vẫn khuyên nên triển khai
Các lập luận phản biện tập trung vào định vị logic và tín hiệu thực tế.
Carolyn Shelby từ Yoast đặt vấn đề theo hướng chuẩn bị cho tương lai: “Xếp hạng không còn là phần thưởng — sự hiện diện mới là.” Logic của bà: các hệ thống AI cần sự rõ ràng và cấu trúc. Dù các nền tảng chưa cam kết, việc cung cấp cấu trúc đó định vị bạn cho khi họ làm vậy.
Bằng chứng ủng hộ mạnh nhất đến từ các cuộc trò chuyện trực tiếp. Windsurf nhấn mạnh rằng llms.txt tiết kiệm thời gian và token khi AI agent phân tích tài liệu — một lợi ích kỹ thuật cụ thể. Anthropic đặc biệt yêu cầu llms.txt và llms-full.txt cho tài liệu của họ trên Mintlify, cho thấy sự quan tâm rõ ràng từ một công ty AI hàng đầu.
Google đưa llms.txt vào giao thức Agents to Agents (A2A), báo hiệu ít nhất là sự quan tâm thử nghiệm. Phép tính chi phí thấp – lợi ích tiềm năng thu hút những người áp dụng sớm: triển khai chỉ mất 1-4 giờ và không có downside được chứng minh nếu các nền tảng cuối cùng áp dụng tiêu chuẩn này.
Jeremy Howard đã phát biểu vào tháng 3/2025: “Năm 2025 rồi mà hầu hết nội dung vẫn viết cho con người thay vì LLM. 99,9% sự chú ý sắp là sự chú ý của LLM, không phải của con người.”
Tuyên bố táo bạo. Có thể là tầm nhìn xa, có thể còn quá sớm.
So sánh với các chuẩn web đã thực sự thành công
Robots.txt thành công vì nó giải quyết vấn đề chung với chi phí tối thiểu. Website cần kiểm soát crawl. Công cụ tìm kiếm muốn truy cập có kiểm soát. Tất cả đều được lợi. Các nền tảng lớn (Google, Bing, OpenAI, Anthropic) chính thức tuân theo nó.
Schema.org thành công vì Google, Microsoft, Yahoo và Yandex cùng nhau phát triển. Công cụ tìm kiếm chứng minh sử dụng nó cho rich results. Lợi ích có thể đo được — rich snippets tăng tỷ lệ click qua.
Sitemap.xml theo mô hình tương tự — hỗ trợ từ nhiều nền tảng có trước khi được áp dụng rộng rãi.
llms.txt? Chưa có bất kỳ đặc điểm nào trong số này.
Đây là đề xuất từ một bên mà không có sự tham gia của W3C hay các tổ chức đồng thuận. Không có nhà cung cấp LLM lớn nào thông báo hỗ trợ. Tiềm năng gian lận đáng kể. Và quan trọng nhất: không có giá trị được chứng minh — cải thiện traffic, xếp hạng hay độ chính xác vẫn chỉ là lý thuyết.
Sự so sánh cho thấy điều gì thường khiến các tiêu chuẩn web thành công: sự tham gia của nhiều bên liên quan, lợi ích rõ ràng và có thể thực thi, tiềm năng gian lận thấp, tích hợp với cơ sở hạ tầng hiện có, và cam kết rõ ràng từ các nền tảng.
llms.txt có… hy vọng.
Điều thực sự có tác dụng ngay hôm nay để AI tìm thấy bạn
Bất kể llms.txt, một số chiến thuật rõ ràng cải thiện cách AI hiểu và trích dẫn nội dung của bạn:
- Viết câu trả lời trực tiếp ngay đoạn đầu — AI ưu tiên nội dung nằm ở đầu bài
- Dùng ngôn ngữ tự nhiên khớp với cách người dùng thực sự đặt câu hỏi
- Tạo cấu trúc heading rõ ràng (H2, H3, H4) để nội dung dễ quét
- Dùng danh sách bullet và bảng so sánh
- Cung cấp ví dụ cụ thể kèm số liệu và trích dẫn
- Triển khai schema markup
- Xây dựng internal link kết nối các khái niệm liên quan
- Giữ thông tin cập nhật với timestamp rõ ràng
- Thể hiện chuyên môn có thẩm quyền được hỗ trợ bởi kinh nghiệm thực tế
Đây không phải những thủ thuật riêng cho AI — đây là chiến lược nội dung tốt tình cờ phục vụ AI rất tốt.
Nghiên cứu về Generative Engine Optimization (GEO) cho thấy một số chiến thuật cải thiện khả năng hiển thị trên AI: thêm trích dẫn có thẩm quyền, dùng thống kê rõ ràng, bao gồm các quote liên quan, và viết bằng ngôn ngữ tự nhiên.
Vercel báo cáo 10% lượng đăng ký đến từ ChatGPT nhờ các nỗ lực GEO. Sự thay đổi là từ “xếp hạng” sang “được trích dẫn” — thành công có nghĩa là xuất hiện trong câu trả lời do AI tạo ra, không chỉ là kết quả tìm kiếm thông thường.
Kết luận: Có nên triển khai llms.txt không?
llms.txt đứng ở giao điểm giữa hy vọng và thực dụng. Nó giải quyết một vấn đề thực — cách AI tìm nội dung tốt nhất của bạn một cách hiệu quả — nhưng có thể hoặc không thể trở thành giải pháp thực sự.
Lập luận để triển khai: Chi phí thực tế là không đáng kể (1-4 giờ), không có downside rõ ràng, và nó là cách chuẩn bị cho tương lai khi AI ngày càng là kênh khám phá nội dung chính. Nếu các nền tảng AI không bao giờ áp dụng llms.txt, site của bạn không mất gì — file chỉ nằm đó vô hại. Nếu họ có, bạn đã sẵn sàng.
Nhưng quan trọng hơn: Hãy tiếp tục làm những điều thực sự có tác dụng — viết nội dung tốt hơn, cải thiện kiến trúc thông tin, duy trì tài liệu mới, xây dựng chuyên môn thực sự. Những nền tảng này thúc đẩy khả năng hiển thị trong cả tìm kiếm của con người lẫn AI. llms.txt là một công cụ khuếch đại cho nội dung đã hoạt động tốt.
12-24 tháng tới sẽ quyết định liệu nó có gia nhập robots.txt và sitemap.xml như cơ sở hạ tầng web thiết yếu, hay mờ dần như một thí nghiệm thú vị đã giải quyết vấn đề theo cách khác.
Dù thế nào, sự chú ý mà nó đang nhận cho thấy ngành công nghiệp đang nghiêm túc đối xử với việc tối ưu nội dung có thể đọc bởi AI. Và sự nghiêm túc đó? Hoàn toàn có lý.
Nguồn gốc bài viết: The Complete Guide to llms.txt – Publii Blog. Bản dịch và biên tập tiếng Việt.

