워드프레스 robots.txt 파일 설정 및 크롤링 차단하는 법

워드프레스 사이트의 경우 robots.txt 파일의 설정을 손수 하는 것이 좋다고 합니다. robots.txt 파일 안에 우리 사이트 내에서 크롤러가 방문해도 될 곳과 안 될 곳을 명시하기 때문입니다. 아무래도 관리자 폴더는 크롤러가 방문해서는 안 되겠죠. 이번에는 robots.txt 파일을 설정해서 크롤링을 차단하거나 허용하는 법에 대해 알아보았습니다.

1. robots.txt 파일이란?

검색엔진은 크롤러라고 부르는 검색 로봇이 사이트를 방문하면서 샤이트에 대한 정보를 수집합니다. 그런데 사이트마다 공개하고 싶은 정보와 그렇지 않은 정보가 있을 텐데요. 그러한 정보를 robots.txt 파일에 기록해 두면 크롤러는 이를 참조해서 선별적으로 정보를 수집해 갑니다.

robots.txt 파일이 없어도 크롤링은 할 수 있으며, 루트(www 바로 밑)에 위치합니다. 그래서 본인 사이트의 robots.txt 파일 내용을 보려면 주소창에 ‘https://www.example.com/robots.txt’를 입력하면 됩니다. 워드프레스는 robots.txt를 동적으로 생성하지만, 만약 없다면 직접 만들어서 업로드 해도 상관없습니다.

2. robots.txt 설정하는 법

robots.txt 설정을 위한 문법은 User-agent, Allow, Disallow, Sitemap 네 가지가 있습니다.

1) User-agent

검색로봇 이름을 뜻합니다. 여기에 특정 검색 로봇의 이름이 있으면 그 검색 로봇은 해당 사항을 지켜야만 합니다. 참고로 구글 검색 로못은 ‘Googlebot’, 네이버는 ‘Yeti’, 다음은 ‘Daum’, 빙은 ‘Bingbot’입니다. 방문하는 검색 로봇 모두를 지칭하려면 ‘*’를 사용합니다.

2) Allow

Allow 뒤에 나오는 경로만 허용하겠다는 의미입니다.

Allow: / -> 제한 없이 모든 경로를 허용

Allow: /test -> 루트 밑에 위치한 test 폴더만 접근을 허용

3) Disallow

Disallow 뒤에 나오는 경로는 접근을 허용하지 않겠다는 의미입니다.

Disallow: / -> 모든 경로를 허용하지 않는다. 즉, 검색을 허용하지 않는다는 의미

Disallow: /wp-admin -> 루트 밑에 위치한 wp-admin 폴더 접근을 허용하지 않는다는 의미

참고로

Disallow: /test

Allow: /test/market

이것은 루트 밑의 test 폴더는 접근 금지이지만, 그 밑의 market 폴더는 접근을 허용한다는 의미입니다.

Disallow: /test

Allow: /

이것은 루트 밑의 test 폴더만 접근 금지이고 그 외는 모두 허용한다는 의미입니다.

4) Sitemap:

사이트맵이 위치한 경로입니다. 자신의 사이트맵 주소를 적으시면 됩니다. Yoast SEO로 사이트맵을 만들었다면 경로는 아래와 같이 적으면 됩니다.

Sitemap: https://www.example.com/ sitemap_index.xml

3. robots.txt 설정과 크롤링 차단 예제

User-agent: *

Disallow: /wp-admin/

Allow: /

Sitemap: https://www.examle.com/sitemap.xml

4. 맺음말

이번 포스팅에서는 robots.txt 파일의 개념과 사용 방법에 관해 알아보았습니다. robots.txt파일을 실수 없이 작업해 놓는 것이 SEO의 첫걸음이므로 정성을 들여야 하겠습니다.