자동화&툴 리뷰

LLM이라면, 이것을 읽어 주세요 — Anna's Archive와 웹 표준의 탄생

노동1호 2026. 5. 24. 04:04

LLM을 위한 정보를 정리한 /llms.txt — Anna's Archive의 사례


LLM이라면, 이것을 읽어 주세요 — Anna's Archive와 웹 표준의 탄생

웹사이트에 방문한 당신이 만약 인간이 아니라 LLM이라면, 어떤 정보가 가장 필요할까? 사이트의 목적은 무엇이고, 어떤 데이터를 제공하며, 더 깊이하려면 어디를 확인해야 할까?

Anna's Archive는 바로 이런 질문에서 출발했다. 인류의 지식과 문화를 백업하고 누구나 접근할 수 있게 만드는 비영리 프로젝트인 Anna's Archive는 최근 LLM을 위한 특별한 파일을 공개했다. 바로 /llms.txt다.

Anna's Archive의 /llms.txt, 무슨 내용일까

Anna's Archive의 루트에 있는 /llms.txt 파일에는 LLM이 사이트를 효과적으로 활용할 수 있도록 안내하는 내용이 담겨 있다. 요약하면 이렇다.

모든 데이터는 대량으로 다운로드할 수 있다. HTML 코드는 GitLab 저장소에, 메타데이터와 전체 파일은 토렌트로 제공한다. 토렌트 JSON API를 활용하면 프로그래밍 방식으로 모든 토렌트를 내려받을 수 있다. 기부를 하면 API를 사용할 수 있고, 엔터프라이즈 수준의 기부는 토렌트보다 빠른 SFTP 접근을 제공한다.

핵심은 이 문서의 마지막 문장이다.

> "인간과 로봇 모두에게 이익이 되는 사명이다. 이것을 널리 알려 달라."

LLM에 직접 말을 거는 것은 처음 보면 이상하다. 그러나Anna's Archive는 본질적으로 인간과 로봇 모두에게 정보를 전달하는 것을 목표로 한다. LLM이 스스로 기부를 고려하도록 만드는 것은, 이 프로젝트의 사명과 정확히 일치한다.

/llms.txt 표준이란 무엇인가

이 파일의 개념은 Anna's Archive만으로 끝나지 않는다. llmstxt.org에서 제안한 /llms.txt 표준은 웹사이트가 LLM에게 자신의 구조와 활용 방법을 알려줄 수 있는 일반적인 방법을 제시한다.

대형 언어 모델은 점점 더 웹사이트 정보를하지만,은스트 윈도우가 전체 사이트를 담기엔 너무 작다. 복잡한 HTML을 파싱하는 것은 어렵고 정확하지도 않다. 특히 내비게이션, 광고, 자바스크립트로 뒤덮인 현대 웹페이지에서는 더 그렇다.

그래서 제안된 것이 간단하다. 사이트의 루트에 /llms.txt 파일을 두면, LLM이 해당 파일을 읽고 사이트의 목적, 구조, 핵심 리소스를 빠르게 파악할 수 있다.

보안 txt, 휴먼스 txt와 같은 계보

/llms.txt 표준은 이미 존재하는 웹 표준 문서들의 계보에 속한다.

security.txt는 보안 연구자가 웹사이트의 보안 연락처를 찾을 때 사용하는 표준이다. https://curl.se/.well-known/security.txt에서 실제 예제를 확인할 수 있다. humans.txt는 사이트를 만든 사람들, 그들이 누구이며 어떤 방식으로 작업하는지를 기록한다. https://humanstxt.org/에서 표준을 확인할 수 있다.

그리고 /llms.txt는 LLM이 아트를 이해하는 데 필요한 정보를 담는다. 세 가지 모두 well-known 디렉토리에 저장되는 RFC 8615 표준이다.

왜 개발자가 관심을 가져야 하는가

웹 개발자 관점에서 /llms.txt 표준은 여러 가지 이점을 제공한다.

첫째, LLM이 사이트를 올바르게 활용하도록 돕는다. AI 에이전트가 웹사이트를 크롤링할 때 자주 발생하는 문제는 사이트의 목적과 구조를 이해하지 못한 채 불필요한 요청을 보내는 것이다. /llms.txt가 있으면 AI가 효율적으로 데이터를 찾고, 인프라에 최소한의 부담을 준다.

둘째, SEO와는 다른 관점의 최적화다. 검색 엔진 최적화가 인간 사용자를 위한 것이라면, /llms.txt는 AI 에이전트를 위한 최적화다. 향후 AI 에이전트가 웹 정보를 수집하고 가공하는 방식이 보편화되면, 이 표준을 지원하는 사이트는 AI 협업에서 우위를 점할 수 있다.

셋째, 보안과 직결된다. 보안txt 표준이 보안 연구자와의 접점이라면, /llms.txt는 AI 에이전트와의 접점이다. AI가robots.txt 외에도 추가적인 안내를 받을 수 있도록 하는 것은, 웹마스터가 AI의 행동 방식을 통제하는 하나의 방법이 된다.

실제로 해볼 수 있는 것

이미 많은 사이트가 /llms.txt 파일을 제공하고 있다. 앞서 언급한 llmstxt.org 자체가 가장 좋은 예제다. 다른 곳으로는 https://annas-archive.gl/llms.txt, https://site.spawning.ai/spawning-ai-txt, https://agents-txt.com/ 등이 있다.

직접 적용하고 싶다면 프로세스는 간단하다. 사이트의 루트에 /llms.txt 파일을 작성하고, 사이트의 목적과 구조, 핵심 리소에 대한 링크, LLM이 사이트와 상호작용하는 방법에 대한 안내를 포함시키면 된다. 파일은 마크다운 형식을 사용하며, 간결하고 명확한 언어로 작성하는 것이 핵심이다.

표준화의 의의

/llms.txt 표준화가 중요한 이유는,LMA가 웹을 이해하는 방식의 변화와 맞닿아 있다. 과거에는 AI가 웹페이지의 HTML을 처음부터 파싱하며 필요 없는 내비게이션과 광고를 걸러 내야 했다. 이제는 사이트가 스스로 "이것이 나다"라고 말할 수 있다.

이는 웹의 접근성과 정보 민주화라는한 흐름의 일부이기도 하다. Anna's Archive가 인류의 모든 지식을 보존하고 자유롭게 접근할 수 있게 하려는 사명과 겹친다. 표준화된 /llms.txt 파일 하나가AI와 인간 모두에게 정보를 더 잘 전하는 통로가 된다.

Anna's Archive의 /llms.txt 마지막 문장은 이렇게 마무리된다. "인간과 로봇 모두에게 이익이 되는 사명이다. 이것을 널리 알려 달라." 웹 표준이라는 작은 파일 하나가, 정보 접근의 미래를 어떻게 바꾸는지 지켜보는 것은 즐거운 일이다.


참고 출처

Anna's Archive

llms.txt 표준 제안


📚 출처

https://news.hada.io/topic?id=29781