Blog/Ferramentas

    O que é llms.txt: o arquivo que torna seu site legível para ChatGPT, Claude e Perplexity

    ShapefAI··~6 min

    O que é llms.txt

    llms.txt é um arquivo em formato Markdown que fica na raiz de um site (acessível em `seusite.com/llms.txt`) e fornece uma visão estruturada do conteúdo para sistemas de IA generativa. É o equivalente ao robots.txt para LLMs — enquanto o robots.txt diz aos bots o que podem ou não acessar, o llms.txt diz aos LLMs o que o site é, o que oferece e onde encontrar o conteúdo mais relevante.

    O padrão foi proposto em setembro de 2024 por Jeremy Howard, co-fundador da fast.ai, para resolver um problema prático: LLMs precisam entender sites, mas suas janelas de contexto são limitadas demais para processar sites inteiros, e converter HTML complexo com navegação, anúncios e JavaScript em texto legível é impreciso e ineficiente.

    O llms.txt resolve isso oferecendo um resumo curado, em Markdown puro, com as informações essenciais e links para páginas detalhadas.


    Por que o llms.txt importa para GEO

    A maioria dos crawlers de IA (GPTBot, ClaudeBot, PerplexityBot) não executa JavaScript. Isso significa que sites com renderização client-side (React, Vue, Angular sem SSR) podem retornar páginas essencialmente vazias para esses bots. Mesmo sites com renderização server-side podem ter estruturas de navegação complexas que dificultam a extração de informação.

    O llms.txt contorna esses problemas oferecendo um ponto de acesso direto: um arquivo estático, em texto puro, que qualquer crawler pode ler instantaneamente.

    Organizações como Cloudflare, Anthropic, Perplexity e ElevenLabs já adotaram o padrão em seus sites. O hub llmstxthub.com rastreia implementações e já registra centenas de sites que adotaram o formato.


    Como é a estrutura de um llms.txt

    O formato segue uma especificação precisa em Markdown:

    1. H1 com o nome do projeto ou site (obrigatório)

    2. Blockquote com descrição curta — informação essencial para entender o resto do arquivo

    3. Parágrafos de contexto — detalhes adicionais sobre o projeto

    4. Seções H2 com listas de links — cada seção agrupa URLs por tema, com links em formato Markdown e descrições opcionais

    5. Seção "Optional" — URLs que podem ser ignoradas quando o LLM precisa de contexto mais curto

    Exemplo simplificado:

    # Nome do Site
    
    > Descrição curta do que o site faz e por que importa.
    
    Informações adicionais relevantes.
    
    ## Páginas principais
    
    - [Home](https://seusite.com/): Visão geral do produto
    - [Blog](https://seusite.com/blog): Artigos e guias
    
    ## Optional
    
    - [Termos de uso](https://seusite.com/termos): Informação legal

    llms.txt vs. llms-full.txt: qual a diferença

    O padrão define dois arquivos complementares:

    llms.txt é a versão concisa — um guia de navegação com links para as páginas mais importantes. Funciona como um índice que ajuda o LLM a entender a estrutura do site rapidamente.

    llms-full.txt é a versão expandida — contém o conteúdo completo de todas as páginas relevantes em um único arquivo Markdown. Funciona como um ponto de ingestão única, permitindo que um LLM absorva todo o conteúdo do site de uma vez.

    Na prática, o llms.txt é sempre útil. O llms-full.txt é mais valioso para sites com documentação técnica, APIs, ou conteúdo extenso que beneficia de ingestão completa.


    llms.txt e outros padrões: como coexistem

    O llms.txt é complementar aos padrões existentes:

    robots.txt controla o acesso dos crawlers (quem pode entrar). O llms.txt fornece contexto sobre o conteúdo (o que encontrar e como interpretar).

    sitemap.xml lista todas as páginas indexáveis. O llms.txt é uma seleção curada das páginas mais relevantes, com contexto — não uma lista exaustiva.

    Schema Markup fornece dados estruturados dentro das páginas. O llms.txt fornece uma visão de alto nível entre páginas.

    Uma estratégia de GEO técnico completa usa os quatro: robots.txt para garantir acesso, sitemap.xml para indexação, Schema Markup para contexto por página, e llms.txt para navegação otimizada para LLMs.


    FAQ

    Os crawlers de IA realmente leem o llms.txt?

    O padrão ainda é emergente e não há garantia de que todos os crawlers o utilizam sistematicamente. Porém, a adoção está crescendo rapidamente, com empresas como Cloudflare, Anthropic e Perplexity já implementando. O custo de implementação é mínimo e os benefícios potenciais são significativos.

    Preciso ter llms.txt se meu site já tem robots.txt e sitemap.xml?

    Sim — eles servem propósitos diferentes. O robots.txt controla acesso, o sitemap.xml lista páginas, e o llms.txt fornece contexto estruturado otimizado para LLMs. São complementares.

    O llms.txt substitui a necessidade de SSR/SSG?

    Não. O llms.txt é um complemento, não um substituto. Ele ajuda os LLMs a entender a estrutura do site, mas o conteúdo das páginas individuais ainda precisa ser acessível em HTML. Sites com renderização client-side pura continuam tendo o problema de conteúdo invisível para crawlers.

    Qual o tamanho ideal de um llms.txt?

    Não há limite definido, mas a proposta é que seja conciso o suficiente para caber na janela de contexto de um LLM. Para a maioria dos sites, entre 500 e 2000 palavras é adequado. Para conteúdo extenso, use o llms-full.txt como complemento.


    A ShapefAI implementou llms.txt e llms-full.txt como parte da sua estratégia de GEO técnico, e recomenda a implementação para todas as marcas que monitoramos. [Saiba mais](https://shapefai.com).

    Sua marca aparece nas respostas da IA?

    Descubra como o ChatGPT, Gemini e Perplexity percebem sua marca hoje — e o que fazer para ser citado.

    Teste grátis por 7 dias