O que é llms.txt
llms.txt é um arquivo em formato Markdown que fica na raiz de um site (acessível em `seusite.com/llms.txt`) e fornece uma visão estruturada do conteúdo para sistemas de IA generativa. É o equivalente ao robots.txt para LLMs — enquanto o robots.txt diz aos bots o que podem ou não acessar, o llms.txt diz aos LLMs o que o site é, o que oferece e onde encontrar o conteúdo mais relevante.
O padrão foi proposto em setembro de 2024 por Jeremy Howard, co-fundador da fast.ai, para resolver um problema prático: LLMs precisam entender sites, mas suas janelas de contexto são limitadas demais para processar sites inteiros, e converter HTML complexo com navegação, anúncios e JavaScript em texto legível é impreciso e ineficiente.
O llms.txt resolve isso oferecendo um resumo curado, em Markdown puro, com as informações essenciais e links para páginas detalhadas.
Por que o llms.txt importa para GEO
A maioria dos crawlers de IA (GPTBot, ClaudeBot, PerplexityBot) não executa JavaScript. Isso significa que sites com renderização client-side (React, Vue, Angular sem SSR) podem retornar páginas essencialmente vazias para esses bots. Mesmo sites com renderização server-side podem ter estruturas de navegação complexas que dificultam a extração de informação.
O llms.txt contorna esses problemas oferecendo um ponto de acesso direto: um arquivo estático, em texto puro, que qualquer crawler pode ler instantaneamente.
Organizações como Cloudflare, Anthropic, Perplexity e ElevenLabs já adotaram o padrão em seus sites. O hub llmstxthub.com rastreia implementações e já registra centenas de sites que adotaram o formato.
Como é a estrutura de um llms.txt
O formato segue uma especificação precisa em Markdown:
1. H1 com o nome do projeto ou site (obrigatório)
2. Blockquote com descrição curta — informação essencial para entender o resto do arquivo
3. Parágrafos de contexto — detalhes adicionais sobre o projeto
4. Seções H2 com listas de links — cada seção agrupa URLs por tema, com links em formato Markdown e descrições opcionais
5. Seção "Optional" — URLs que podem ser ignoradas quando o LLM precisa de contexto mais curto
Exemplo simplificado:
# Nome do Site
> Descrição curta do que o site faz e por que importa.
Informações adicionais relevantes.
## Páginas principais
- [Home](https://seusite.com/): Visão geral do produto
- [Blog](https://seusite.com/blog): Artigos e guias
## Optional
- [Termos de uso](https://seusite.com/termos): Informação legalllms.txt vs. llms-full.txt: qual a diferença
O padrão define dois arquivos complementares:
llms.txt é a versão concisa — um guia de navegação com links para as páginas mais importantes. Funciona como um índice que ajuda o LLM a entender a estrutura do site rapidamente.
llms-full.txt é a versão expandida — contém o conteúdo completo de todas as páginas relevantes em um único arquivo Markdown. Funciona como um ponto de ingestão única, permitindo que um LLM absorva todo o conteúdo do site de uma vez.
Na prática, o llms.txt é sempre útil. O llms-full.txt é mais valioso para sites com documentação técnica, APIs, ou conteúdo extenso que beneficia de ingestão completa.
llms.txt e outros padrões: como coexistem
O llms.txt é complementar aos padrões existentes:
robots.txt controla o acesso dos crawlers (quem pode entrar). O llms.txt fornece contexto sobre o conteúdo (o que encontrar e como interpretar).
sitemap.xml lista todas as páginas indexáveis. O llms.txt é uma seleção curada das páginas mais relevantes, com contexto — não uma lista exaustiva.
Schema Markup fornece dados estruturados dentro das páginas. O llms.txt fornece uma visão de alto nível entre páginas.
Uma estratégia de GEO técnico completa usa os quatro: robots.txt para garantir acesso, sitemap.xml para indexação, Schema Markup para contexto por página, e llms.txt para navegação otimizada para LLMs.
FAQ
Os crawlers de IA realmente leem o llms.txt?
O padrão ainda é emergente e não há garantia de que todos os crawlers o utilizam sistematicamente. Porém, a adoção está crescendo rapidamente, com empresas como Cloudflare, Anthropic e Perplexity já implementando. O custo de implementação é mínimo e os benefícios potenciais são significativos.
Preciso ter llms.txt se meu site já tem robots.txt e sitemap.xml?
Sim — eles servem propósitos diferentes. O robots.txt controla acesso, o sitemap.xml lista páginas, e o llms.txt fornece contexto estruturado otimizado para LLMs. São complementares.
O llms.txt substitui a necessidade de SSR/SSG?
Não. O llms.txt é um complemento, não um substituto. Ele ajuda os LLMs a entender a estrutura do site, mas o conteúdo das páginas individuais ainda precisa ser acessível em HTML. Sites com renderização client-side pura continuam tendo o problema de conteúdo invisível para crawlers.
Qual o tamanho ideal de um llms.txt?
Não há limite definido, mas a proposta é que seja conciso o suficiente para caber na janela de contexto de um LLM. Para a maioria dos sites, entre 500 e 2000 palavras é adequado. Para conteúdo extenso, use o llms-full.txt como complemento.
A ShapefAI implementou llms.txt e llms-full.txt como parte da sua estratégia de GEO técnico, e recomenda a implementação para todas as marcas que monitoramos. [Saiba mais](https://shapefai.com).