로봇이란? 얀덱스 로봇

robots.txt 파일을 적절하게 구성하면 인덱싱 중에 발생할 수 있는 문제를 제거할 수 있습니다.

특히, 사이트 소유자는 리소스의 서비스 및 개인 섹션의 인덱싱을 제한할 수 있습니다. 파일을 만들고 다른 검색 엔진과 인기 있는 CMS에 맞게 구성하는 방법 - 이 간행물에서 다룰 것입니다.

robots.txt 파일은 무엇을 위한 것입니까?

짐작할 수 있듯이 이 파일에는 검색 봇을 위한 지침이 포함되어 있습니다. 봇이 robots.txt에 설정된 조건을 읽어 페이지 색인을 생성하기 시작하는 루트 디렉토리에 위치해야 합니다.

따라서 파일은 색인을 생성할 수 있는 사이트 디렉토리와 이 프로세스가 적용되지 않는 사이트 디렉토리를 검색 로봇에 표시합니다.

파일의 존재가 순위 결정 과정에 영향을 미치지 않는다는 점을 감안할 때, 많은 사이트에는 robots.txt가 포함되어 있지 않습니다. 그러나 이것은 올바른 방법이 아닙니다. robots.txt가 리소스에 제공하는 이점을 살펴보겠습니다.

리소스의 전체 또는 일부에 대한 인덱싱을 금지하고, 인덱싱 권한이 있는 검색 로봇의 범위를 제한할 수 있습니다. 이 프로세스에서 리소스를 완전히 보호할 수 있습니다(예: 사이트 생성 또는 재구성 시).

또한 robots 파일은 모든 종류의 스팸 로봇에 대한 리소스에 대한 액세스를 제한합니다. 그 목적은 사이트에서 스팸을 보내는 데 사용할 이메일 주소를 검색하는 것입니다. 우리는 이것이 어떤 결과를 초래할 수 있는지에 대해서는 다루지 않을 것입니다. 그래서 그것은 분명합니다.

인덱싱에서 검색 엔진을 대상으로 하지 않는 사이트 섹션을 숨길 수 있지만 특정 범위의 사용자를 위해 비공개 및 기타 유사한 정보가 포함된 섹션을 숨길 수 있습니다.

올바른 robots.txt를 만드는 방법

올바른 로봇은 다양한 생성자에 의존하지 않고 손으로 쓰기 쉽습니다. 프로세스는 일반 메모장 파일에 필요한 지시문을 작성하는 것입니다. 그런 다음 "robots"라는 이름으로 저장하고 자신의 리소스의 루트 디렉터리에 업로드해야 합니다. 한 사이트에는 이러한 파일이 하나 필요합니다. 여기에서 필요한 모든 검색 엔진의 검색 봇에 대한 지침을 작성할 수 있습니다. 즉, 검색엔진별로 별도의 파일을 만들 필요가 없습니다.

파일에 무엇을 작성해야 합니까? User-agent 및 Disallow의 두 가지 지시문을 반드시 사용해야 합니다. 첫 번째는 이 메시지의 주소를 지정하는 봇을 결정하고, 두 번째는 리소스의 어떤 페이지 또는 디렉터리가 인덱싱되지 않는지 보여줍니다.

모든 봇에 대해 동일한 규칙을 설정하려면 User-agent 지시문에서 이름 대신 별표 기호를 사용할 수 있습니다.
이 경우 robots.txt 파일은 다음과 같습니다.

그건 그렇고, Google 개발자는 robots.txt 파일의 크기가 500KB를 초과해서는 안 된다고 웹마스터에게 반복해서 상기시켰습니다. 이것은 확실히 인덱싱 오류로 이어질 것입니다. 파일을 수동으로 생성하는 경우 이 크기에 "도달"하는 것은 물론 비현실적입니다. 그러나 여기에 robots.txt의 콘텐츠를 자동으로 생성하고 상당한 "가중치"를 줄 수 있는 일부 CMS가 있습니다.

모든 검색 엔진을 위한 손쉬운 파일 생성

파일을 작성할 때 실수를 하는 것이 두렵다면(또는 너무 게으른 경우) 필요한 지시문 생성을 생성자에게 위임할 수 있습니다. 두 번 2만큼 간단하지만 작업 방법에 대한 약간의 설명을 계속할 것입니다.

첫 번째 필드에는 리소스의 주소가 포함됩니다. 그 후에야 사용자는 이러한 규칙이 설정된 검색 엔진을 선택할 수 있습니다(여러 검색 엔진을 순서대로 선택할 수 있음). 다음으로, 액세스가 거부될 폴더와 파일을 지정하고, 사이트 미러의 주소를 지정하고, 리소스 맵의 위치를 ​​지정해야 합니다.

하단 필드의 필드를 채우면 필요한 디렉토리가 작성됩니다. 결국 필요한 것은 파일을 txt 파일로 복사하고 이름을 robots.txt로 지정하는 것입니다.

robots.txt 파일의 효율성을 확인하는 방법

Yandex에서 파일의 효과를 분석하려면 Yandex.Webmaster 섹션의 해당 페이지로 이동하십시오. 대화 상자에서 사이트 이름을 입력하고 "다운로드" 버튼을 클릭합니다.

시스템은 robots.txt 파일을 분석하고 검색 로봇이 색인 생성이 금지된 페이지를 우회할지 여부를 나타냅니다. 문제가 있는 경우 대화 상자에서 직접 지시문을 편집하고 확인한 다음 편집된 텍스트를 복사하여 루트 디렉터리의 robots.txt 파일에 붙여넣을 수 있습니다.

유사한 서비스가 Google 검색 엔진의 "웹마스터 도구" 서비스에서 제공됩니다.

WordPress, Joomla 및 Ucoz용 robots.txt 만들기

우리의 열린 공간에서 널리 인기를 얻은 다양한 CMS는 사용자에게 자신의 robots.txt 파일 버전을 제공합니다(또는 전혀 갖고 있지 않음). 종종 이러한 파일은 너무 보편적이어서 사용자 리소스의 특성을 고려하지 않거나 여러 가지 중요한 단점이 있습니다.

수동으로 변경을 시도하거나(지식이 부족하면 그다지 효과적이지 않음) 보다 전문적인 동료의 경험을 사용할 수 있습니다. 그들이 말했듯이 모든 것이 우리 앞에서 이미 이루어졌습니다. 예를 들어 WordPress용 robots.txt는 다음과 같습니다.


물론 www.site.ru 행은 사용자 사이트 주소로 대체되어야 합니다.

robots.txt 파일은 사이트의 루트 디렉토리에 있습니다. 예를 들어 www.example.com에서 robots.txt 파일의 주소는 www.example.com/robots.txt가 됩니다. robots.txt 파일은 로봇 예외 표준을 준수하는 일반 텍스트 파일이며 하나 이상의 규칙을 포함하며, 각 규칙은 특정 크롤러가 사이트의 특정 경로에 액세스하는 것을 거부하거나 허용합니다.

다음은 두 가지 규칙이 있는 간단한 robots.txt 파일의 예입니다. 아래는 설명입니다.

# 그룹 1 사용자 에이전트: Googlebot 허용하지 않음: /nogooglebot/ # 그룹 2 사용자 에이전트: * 허용: / 사이트맵: http://www.example.com/sitemap.xml

설명

  1. Googlebot이라는 사용자 에이전트는 http://example.com/nogooglebot/ 디렉토리 및 해당 하위 디렉토리를 크롤링해서는 안 됩니다.
  2. 다른 모든 사용자 에이전트는 전체 사이트에 액세스할 수 있습니다(기본적으로 전체 액세스 권한이 부여되므로 생략 가능, 결과는 동일함).
  3. 사이트맵 파일이 사이트는 http://www.example.com/sitemap.xml에 있습니다.

다음은 robots.txt 파일 작업에 대한 몇 가지 팁입니다. 이러한 파일을 만드는 데 사용된 구문 규칙은 명확하지 않고 이해해야 하므로 이러한 파일의 전체 구문을 연구하는 것이 좋습니다.

형식 및 레이아웃

UTF-8 인코딩을 지원하는 거의 모든 텍스트 편집기에서 robots.txt 파일을 만들 수 있습니다. 워드 프로세서는 종종 독점 형식으로 파일을 저장하고 검색 로봇이 인식하지 못하는 둥근 따옴표와 같은 잘못된 문자를 파일에 추가하므로 사용하지 마십시오.

robots.txt 파일을 만들고 테스트할 때 테스트 도구를 사용하세요. 이를 통해 파일 구문을 분석하고 사이트에서 파일이 어떻게 작동하는지 알아낼 수 있습니다.

파일 형식 및 위치 규칙

  • 파일 이름은 robots.txt여야 합니다.
  • 사이트에는 이러한 파일이 하나만 있어야 합니다.
  • robots.txt 파일은 다음 위치에 있어야 합니다. 루트 디렉토리대지. 예를 들어 http://www.example.com/ 의 모든 페이지 크롤링을 제어하려면 robots.txt 파일을 http://www.example.com/robots.txt 에 배치합니다. 하위 디렉토리에 있으면 안 됩니다.(예를 들어, http://example.com/pages/robots.txt). 루트 디렉터리에 액세스하는 데 문제가 있는 경우 호스팅 제공업체에 문의하세요. 사이트의 루트 디렉터리에 액세스할 수 없는 경우 메타 태그와 같은 대체 차단 방법을 사용합니다.
  • robots.txt 파일은 다음을 사용하여 주소에 추가할 수 있습니다. 하위 도메인(예: http:// 웹사이트.example.com/robots.txt) 또는 비표준 포트(예: http://example.com: 8181 /robots.txt).
  • # 기호 뒤의 모든 텍스트는 주석으로 간주됩니다.

통사론

  • robots.txt 파일은 UTF-8로 인코딩된 텍스트 파일이어야 합니다(ASCII 문자 코드 포함). 다른 문자 집합은 사용할 수 없습니다.
  • robots.txt 파일은 다음으로 구성됩니다. 여러 떼.
  • 그룹여러 개를 포함할 수 있습니다 규칙, 한 줄에 하나씩. 이러한 규칙을 지시.
  • 그룹에는 다음 정보가 포함됩니다.
    • 누구에게 사용자 에이전트그룹 지시문이 적용됩니다.
    • 접근 권한이 있다.
    • 이 에이전트에는 어떤 디렉토리 또는 파일이 있습니까? 접근 금지.
  • 그룹 지침은 위에서 아래로 읽습니다. 로봇은 가장 근접하게 일치하는 사용자 에이전트가 있는 한 그룹의 규칙만 따릅니다.
  • 기본값이 가정됨페이지 또는 디렉토리에 대한 액세스가 Disallow: 규칙에 의해 차단되지 않으면 사용자 에이전트가 이를 처리할 수 있습니다.
  • 규칙 대소문자 구분. 예를 들어 Disallow: /file.asp 규칙은 URL http://www.example.com/file.asp 에 적용되지만 http://www.example.com/File.asp 에는 적용되지 않습니다.

robots.txt 파일에 사용된 지시문

  • 사용자 에이전트: 필수 지시문, 그룹에 여러 개 있을 수 있습니다.. 어떤 검색 엔진을 결정 로봇규칙이 적용되어야 합니다. 각 그룹은 이 줄로 시작합니다. Googlebot과 관련된 대부분의 사용자 에이전트는 전용 목록과 인터넷 로봇 데이터베이스에서 찾을 수 있습니다. 와일드카드 문자 *는 접두사, 경로 접미사 또는 전체 경로를 나타내기 위해 지원됩니다. 아래 예와 같이 * 기호를 사용하여 모든 크롤러( AdsBot 로봇 제외별도로 지정해야 함). Google 로봇 목록을 숙지하는 것이 좋습니다. 예:# 예제 1: Googlebot만 비활성화 User-agent: Googlebot Disallow: / # 예제 2: Googlebot 및 AdsBot 비활성화 User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # 예제 3: AdsBot User-를 제외한 모든 봇 비활성화 에이전트: * 허용하지 않음: /
  • 허용하지 않음: . 위에서 정의한 사용자 에이전트가 크롤링할 수 없는 루트 도메인과 관련된 디렉토리 또는 페이지를 가리킵니다. 이것이 페이지인 경우 브라우저의 주소 표시줄에서와 같이 해당 페이지의 전체 경로를 지정해야 합니다. 디렉토리인 경우 경로는 슬래시(/)로 끝나야 합니다. 와일드카드 문자 *는 접두사, 경로 접미사 또는 전체 경로를 나타내기 위해 지원됩니다.
  • 허용하다: 최소 하나의 Disallow: 또는 Allow: 지시문이 각 그룹에 있어야 합니다.. 위에서 정의한 사용자 에이전트가 스캔할 수 있는 루트 도메인과 관련된 디렉토리 또는 페이지를 가리킵니다. Disallow 지시문을 무시하고 검색을 위해 닫힌 디렉터리의 하위 디렉터리나 페이지 검색을 허용하는 데 사용됩니다. 이것이 페이지인 경우 브라우저의 주소 표시줄에서와 같이 해당 페이지의 전체 경로를 지정해야 합니다. 디렉토리인 경우 경로는 슬래시(/)로 끝나야 합니다. 와일드카드 문자 *는 접두사, 경로 접미사 또는 전체 경로를 나타내기 위해 지원됩니다.
  • 사이트맵: 선택적 지시문으로 파일에 여러 개 또는 전혀 없을 수 있습니다.이 사이트에서 사용하는 Sitemap의 위치를 ​​가리킵니다. URL은 완전해야 합니다. Google은 http 및 https 접두사가 있거나 www 요소가 있거나 없는 변형 URL을 처리하거나 검증하지 않습니다. 사이트맵은 Google에 어떤 콘텐츠인지 알려줍니다. 필요한스캔한 콘텐츠와 이를 구별하는 방법 ~ 할 수있다또는 그것은 금지되어있다주사. 예시:사이트맵: https://example.com/sitemap.xml 사이트맵: http://www.example.com/sitemap.xml

다른 규칙은 무시됩니다.

한 가지 더 예

robots.txt 파일은 그룹으로 구성됩니다. 각각은 규칙을 따라야 하는 로봇을 지정하는 사용자 에이전트 문자열로 시작합니다. 다음은 두 그룹과 두 그룹에 대한 설명이 있는 파일의 예입니다.

# example.com/directory1/... 및 example.com/directory2/...에 대한 Googlebot의 액세스를 차단하지만 directory2/subdirectory1/...에 대한 액세스는 허용합니다. # 다른 모든 디렉토리에 대한 액세스는 기본적으로 허용됩니다. User-agent: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # 다른 검색 엔진이 전체 사이트에 접근하는 것을 차단합니다. 사용자 에이전트: othercrawler 허용 안 함: /

robots.txt 파일의 전체 구문

전체 구문은 이 문서에 설명되어 있습니다. robots.txt 파일의 구문에는 몇 가지 중요한 뉘앙스가 있으므로 숙지하는 것이 좋습니다.

유용한 규칙

다음은 robots.txt 파일에 대한 몇 가지 일반적인 규칙입니다.

규칙 예시
전체 사이트의 크롤링을 방지합니다.경우에 따라 사이트 URL이 크롤링되지 않은 경우에도 색인에 포함될 수 있습니다. 이 규칙은 별도로 나열되어야 하는 AdsBot에는 적용되지 않습니다. 사용자 에이전트: * 허용하지 않음: /
디렉토리 및 모든 컨텐츠 스캔을 비활성화하려면, 디렉토리 이름 뒤에 슬래시를 넣으십시오. 기밀 정보를 보호하기 위해 robots.txt 파일을 사용하지 마십시오! 이러한 목적을 위해 인증을 사용해야 합니다. robots.txt 파일에 의해 차단된 URL은 색인될 수 있고 robots.txt 파일의 내용은 모든 사용자가 볼 수 있으므로 기밀 정보가 있는 파일의 위치를 ​​찾을 수 있습니다. 사용자 에이전트: * 허용하지 않음: /calendar/ 허용하지 않음: /junk/
하나의 크롤러에 대해서만 크롤링을 허용하려면 사용자 에이전트: Googlebot-news 허용: / 사용자 에이전트: * 허용 안함: /
하나를 제외한 모든 크롤러에 대한 크롤링을 허용하려면 User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /

개별 페이지 스캔을 비활성화하려면, 슬래시 뒤에 이 페이지를 지정하십시오.

사용자 에이전트: * 허용하지 않음: /private_file.html

Google 이미지 봇에서 특정 이미지를 숨기려면

사용자 에이전트: Googlebot-Image Disallow: /images/dogs.jpg

Google 이미지 봇에서 사이트의 모든 이미지를 숨기려면

사용자 에이전트: Googlebot-Image Disallow: /

특정 유형의 모든 파일 검사를 방지하려면(이 경우 GIF)

사용자 에이전트: Googlebot 허용 안 함: /*.gif$

사이트의 특정 페이지를 차단하지만 해당 페이지에 계속해서 애드센스 광고를 게재하려면, Mediapartners-Google을 제외한 모든 로봇에 대해 Disallow 규칙을 사용합니다. 결과적으로 이 로봇은 특정 사용자에게 표시할 광고를 선택하기 위해 검색 결과에서 제거된 페이지에 액세스할 수 있습니다.

사용자 에이전트: * 허용 안 함: / 사용자 에이전트: Mediapartners-Google 허용: /
특정 조각으로 끝나는 URL을 지정하려면, $ 기호를 사용합니다. 예를 들어 .xls 로 끝나는 URL의 경우 다음 코드를 사용하세요. 사용자 에이전트: Googlebot 허용 안 함: /*.xls$

이 정보가 도움이 되었나요?

이 기사를 어떻게 개선할 수 있습니까?

검색 봇이 사이트에 올 때 가장 먼저 하는 일은 robots.txt 파일을 검색하고 읽는 것입니다. 이 파일은 무엇입니까? 검색 엔진에 대한 일련의 지침입니다.

사이트의 루트 디렉토리에 있는 확장자가 txt인 텍스트 파일입니다. 이 지침 세트는 색인을 생성할 페이지와 사이트 파일을 검색 로봇에 알려줍니다. 또한 사이트의 기본 미러와 사이트맵을 찾을 위치를 나타냅니다.

robots.txt 파일은 무엇을 위한 것입니까? 사이트의 적절한 인덱싱을 위해. 검색, 다양한 서비스 페이지 및 문서에 중복 페이지가 없도록 합니다. 로봇에서 지시문을 올바르게 설정하면 인덱싱 및 사이트 미러링과 관련된 많은 문제로부터 사이트를 구할 수 있습니다.

올바른 robots.txt를 작성하는 방법

robots.txt를 컴파일하는 것은 충분히 쉽습니다. 표준 Windows 메모장에서 텍스트 문서를 만듭니다. 이 파일에 검색 엔진에 대한 지시문을 작성합니다. 그런 다음 이 파일을 "robots"라는 이름과 "txt"라는 텍스트 확장자로 저장합니다. 이제 모든 것을 호스팅, 사이트의 루트 폴더에 업로드할 수 있습니다. 사이트당 하나의 로봇 문서만 만들 수 있습니다. 사이트에 이 파일이 없으면 봇은 모든 항목을 인덱싱할 수 있다고 자동으로 "결정"합니다.

하나이기 때문에 모든 검색 엔진에 대한 지침이 포함되어 있습니다. 또한 각 PS에 대한 별도의 지침과 모든 것에 대한 일반 지침을 모두 즉시 작성할 수 있습니다. 다른 검색 봇에 대한 지침의 분리는 User-agent 지시문을 통해 수행됩니다. 이에 대해서는 아래에서 더 이야기하겠습니다.

robots.txt 지시문

"로봇" 파일에는 User-agent, Disallow, Allow, Sitemap, Host, Crawl-delay, Clean-param과 같은 인덱싱 지시문이 포함될 수 있습니다. 각 지침을 더 자세히 살펴보겠습니다.

사용자 에이전트 지시문

사용자 에이전트 지시문- 지침이 있는 검색 엔진을 나타냅니다(더 정확하게는 특정 봇에 대해). "*"이면 모든 로봇에 대한 지침입니다. Googlebot과 같은 특정 봇이 나열되는 경우 지침은 기본 Google 인덱싱 봇에만 해당됩니다. 또한 Googlebot과 다른 모든 PS에 대한 지침이 별도로 있는 경우 Google은 자체 지침만 읽고 일반적인 지침은 무시합니다. Yandex 봇도 마찬가지입니다. 지시문 항목의 예를 살펴보겠습니다.

사용자 에이전트: YandexBot - 기본 Yandex 인덱싱 봇 전용 지침
사용자 에이전트: Yandex - 모든 Yandex 봇에 대한 지침
사용자 에이전트: * - 모든 봇에 대한 지침

Disallow 및 Allow 지시문

Disallow 및 Allow 지시문- 인덱싱할 항목과 그렇지 않은 항목을 명령에 지정합니다. Disallow는 사이트의 페이지 또는 전체 섹션을 인덱싱하지 않는 명령을 제공합니다. 반대로 Allow는 인덱싱해야 하는 항목을 나타냅니다.

허용하지 않음: / - 전체 사이트 인덱싱을 금지합니다.
허용하지 않음: /papka/ - 폴더의 전체 내용을 인덱싱하는 것을 금지합니다.
허용하지 않음: /files.php - 파일 files.php의 색인 생성을 금지합니다.

허용: /cgi-bin - cgi-bin 페이지 인덱싱 허용

Disallow 및 Allow 지시문에 특수 문자를 사용하는 것이 가능하고 종종 필요합니다. 정규식을 정의하는 데 필요합니다.

특수 문자 * - 모든 문자 시퀀스를 대체합니다. 기본적으로 각 규칙의 끝에 추가됩니다. 등록하지 않아도 PS에서 알아서 등록해줍니다. 사용 예:

금지: /cgi-bin/*.aspx - 확장자가 .aspx인 모든 파일의 인덱싱을 금지합니다.
Disallow: /*foto - foto라는 단어가 포함된 파일 및 폴더의 인덱싱을 금지합니다.

특수 문자 $ - 규칙 끝에서 특수 문자 "*"의 효과를 취소합니다. 예를 들어:

금지: /example$ - '/example' 색인 생성을 금지하지만 '/example.html'은 금지하지 않습니다.

$ 특수 문자 없이 작성하면 명령이 다르게 작동합니다.

Disallow: /example - '/example'과 '/example.html'을 모두 허용하지 않습니다.

사이트맵 지침

사이트맵 지침- 호스팅에 사이트맵이 있는 위치를 검색엔진 로봇에게 알려주도록 설계되었습니다. 사이트맵 형식은 sitemaps.xml이어야 합니다. 보다 빠르고 완전한 사이트 색인 생성을 위해서는 사이트맵이 필요합니다. 또한 사이트맵은 반드시 하나의 파일이 아니라 여러 개일 수 있습니다. 지시문 입력 형식:

사이트맵: http://site/sitemaps1.xml
사이트맵: http://site/sitemaps2.xml

호스트 지시문

호스트 지시문- 로봇에게 사이트의 메인 미러를 나타냅니다. 사이트의 미러 인덱스에 무엇이 있든 항상 이 지시문을 지정해야 합니다. 지정하지 않으면 Yandex 로봇은 www가 있거나 없는 사이트의 최소 두 가지 버전을 색인화합니다. 미러 로봇이 그것들을 붙일 때까지. 녹음 예:

호스트: www.site
호스트: 사이트

첫 번째 경우 로봇은 www가 있는 버전을 색인화하고 두 번째 경우에는 www가 없는 버전을 색인화합니다. robots.txt 파일에는 하나의 호스트 지시문만 허용됩니다. 그 중 여러 개를 작성하면 봇이 첫 번째 것만 처리하고 고려합니다.

유효한 호스트 지시문에는 다음 데이터가 있어야 합니다.
— 연결 프로토콜(HTTP 또는 HTTPS)을 나타냅니다.
- 올바르게 작성된 도메인 이름(IP 주소를 작성할 수 없음)
- 필요한 경우 포트 번호(예: 호스트: site.com:8080).

잘못 작성된 지시문은 단순히 무시됩니다.

크롤링 지연 지시문

크롤링 지연 지시문서버의 부하를 줄일 수 있습니다. 귀하의 사이트가 다양한 봇의 공격을 받기 시작하는 경우에 필요합니다. Crawl-delay 지시문은 검색 봇이 한 페이지 다운로드가 끝나고 사이트의 다른 페이지 다운로드가 시작될 때까지 기다리라고 지시합니다. 지시문은 "Disallow" 및/또는 "Allow" 지시문 항목 바로 뒤에 와야 합니다. Yandex 검색 로봇은 분수 값을 읽을 수 있습니다. 예: 1.5(1.5초).

클린 매개변수 지침

클린 매개변수 지침페이지에 동적 매개변수가 포함된 사이트에서 필요합니다. 우리는 페이지의 내용에 영향을 미치지 않는 것에 대해 이야기하고 있습니다. 세션 식별자, 사용자, 참조자 등 다양한 서비스 정보입니다. 따라서 이러한 페이지의 중복을 피하기 위해 이 지시문이 사용됩니다. 재출근 정보를 다시 업로드하지 않도록 PS에 알려줍니다. 서버의 부하와 로봇이 사이트를 크롤링하는 데 걸리는 시간도 줄어듭니다.

깨끗한 매개변수: s /forum/showthread.php

이 항목은 s 매개변수가 /forum/showthread.php로 시작하는 모든 URL에 대해 중요하지 않은 것으로 간주될 것임을 PS에 알려줍니다. 최대 레코드 길이는 500자입니다.

지시문을 알아냈으니 로봇 설정으로 넘어갑시다.

robots.txt 설정

robots.txt 파일 설정을 직접 진행합니다. 최소한 두 개의 항목을 포함해야 합니다.

사용자 에이전트:- 아래 지침이 어떤 검색 엔진에 적용되는지 나타냅니다.
허용하지 않음:- 인덱싱되지 않을 사이트 부분을 지정합니다. 사이트의 별도 페이지와 전체 섹션을 모두 인덱싱하여 닫을 수 있습니다.

또한 이러한 지시문이 모든 검색 엔진 또는 특정 검색 엔진을 대상으로 하도록 지정할 수 있습니다. 이것은 User-agent 지시문에 지정됩니다. 모든 봇이 지침을 읽게 하려면 별표를 입력하세요.

특정 로봇에 대한 지침을 작성하고 싶지만 해당 로봇의 이름을 지정해야 하는 경우.

사용자 에이전트: YandexBot

적절하게 구성된 robots 파일의 간단한 예는 다음과 같습니다.

사용자 에이전트: *
허용하지 않음: /files.php
허용하지 않음: /섹션/
호스트: 사이트

어디에, * 지침이 모든 PS를 위한 것이라고 말합니다.
허용하지 않음: /files.php- file.php 파일 색인 생성을 금지합니다.
허용하지 않음: /사진/- 모든 첨부 파일과 함께 전체 "사진" 섹션을 인덱싱하는 것을 금지합니다.
호스트: 사이트- 인덱싱할 미러를 로봇에 알려줍니다.

사이트에 색인 생성에서 닫아야 하는 페이지가 없는 경우 robots.txt 파일은 다음과 같아야 합니다.

사용자 에이전트: *
허용하지 않음:
호스트: 사이트

Yandex(Yandex)용 Robots.txt

이 지침이 Yandex 검색 엔진을 위한 것임을 나타내려면 사용자 에이전트 지시문에 Yandex를 지정해야 합니다. 또한 "Yandex"를 작성하면 모든 Yandex 로봇에 의해 사이트가 인덱싱되고 "YandexBot"을 지정하면 기본 인덱싱 로봇에 대해서만 명령이 됩니다.

사이트의 메인 미러를 지정하는 "호스트" 지시문도 등록해야 합니다. 위에서 썼듯이 이것은 중복 페이지를 방지하기 위해 수행됩니다. Yandex에 대한 올바른 robots.txt는 다음과 같습니다.

로봇.txt검색 엔진 로봇이 인터넷에서 귀하의 사이트를 탐색하기 위한 특별 지침이 포함된 텍스트 파일입니다. 그러한 지시를 지시- 사이트의 일부 페이지에 대한 인덱싱을 금지하고 도메인의 올바른 "미러링" 등을 표시할 수 있습니다.

Nubex 플랫폼에서 실행되는 사이트의 경우 지시문이 있는 파일이 자동으로 생성되고 domen.ru/robots.txt에 위치합니다. 여기서 domen.ru는 site..ru/robots.txt의 도메인 이름입니다.

사이트 관리자 패널에서 robots.txt를 변경하고 검색 엔진에 대한 추가 지시문을 처방할 수 있습니다. 이렇게 하려면 제어판에서 섹션을 선택합니다. "설정", 그리고 그 안에 - 포인트 검색 엔진 최적화.

필드 찾기 "robots.txt 파일의 텍스트"필요한 지시문을 작성하십시오. "robots.txt에 자동으로 생성된 sitemap.xml 파일에 대한 링크 추가" 확인란을 활성화하는 것이 좋습니다. 이렇게 하면 검색 봇이 사이트맵을 로드하고 인덱싱에 필요한 모든 페이지를 찾을 수 있습니다.

robots txt 파일에 대한 기본 지시문

robots.txt를 로드할 때 크롤러는 먼저 다음으로 시작하는 항목을 찾습니다. 사용자 에이전트: 이 필드의 값은 이 항목에 액세스 권한이 설정된 로봇의 이름이어야 합니다. 저것들. User-agent 지시어는 로봇에 대한 일종의 호출입니다.

1. 사용자 에이전트 필드의 값에 " * "를 입력하면 이 항목에 지정된 액세스 권한이 /robots.txt 파일을 요청하는 모든 검색 로봇에 적용됩니다.

2. 항목에 둘 이상의 로봇 이름이 지정되면 액세스 권한이 지정된 모든 이름으로 확장됩니다.

3. 대문자 또는 소문자는 중요하지 않습니다.

4. 문자열 User-agent: BotName이 발견되면 User-agent: *에 대한 지시문이 고려되지 않습니다(다른 로봇에 대해 여러 항목을 만드는 경우). 저것들. 로봇은 먼저 User-agent: MyName 항목에 대한 텍스트를 스캔하고 찾으면 다음 지침을 따릅니다. 그렇지 않은 경우 User-agent: * 항목(모든 봇용)의 지침에 따라 작동합니다.

그건 그렇고, 각각의 새로운 User-agent 지시문 앞에 빈 줄 바꿈(Enter)을 삽입하는 것이 좋습니다.

5. User-agent: BotName 및 User-agent: * 행이 없으면 로봇에 대한 액세스가 제한되지 않는 것으로 간주됩니다.

사이트 인덱싱의 금지 및 허용: Disallow 및 Allow 지시문

검색 봇이 사이트의 특정 페이지에 액세스하는 것을 방지하거나 허용하기 위해 지시문이 사용됩니다. 허용하지 않음그리고 허용하다각기.

이 지시문의 값은 섹션에 대한 전체 또는 부분 경로를 지정합니다.

  • 허용하지 않음: /admin/- 관리 섹션 내 모든 페이지의 인덱싱을 금지합니다.
  • 허용하지 않음: /help— /help.html 및 /help/index.html의 색인 생성을 금지합니다.
  • 허용하지 않음: /help/ -/help/index.html만 닫습니다.
  • 허용하지 않음: /- 전체 사이트에 대한 액세스를 차단합니다.

Disallow 값을 지정하지 않으면 액세스가 제한되지 않습니다.

  • 허용하지 않음:- 사이트의 모든 페이지에 대한 인덱싱이 허용됩니다.

허용 지시문을 사용하여 예외를 설정할 수 있습니다. 허용하다. 예를 들어, 이러한 항목은 경로가 /search로 시작하는 섹션을 제외하고 로봇이 사이트의 모든 섹션을 인덱싱하지 못하게 합니다.

인덱싱을 거부하고 허용하는 지시문이 나열되는 순서는 중요하지 않습니다. 읽을 때 로봇은 URL 접두사의 길이(가장 작은 것부터 큰 것까지)별로 분류하고 순차적으로 적용합니다. 즉, 봇의 인식에서 위의 예는 다음과 같습니다.

- /search로 시작하는 페이지만 인덱싱할 수 있습니다. 따라서 지시문의 순서는 결과에 어떤 영향도 미치지 않습니다.

호스트 지시문: 기본 사이트 도메인을 지정하는 방법

여러 도메인 이름이 사이트에 연결되어 있는 경우(기술 주소, 미러 등) 검색 엔진은 이들이 모두 다른 사이트라고 결정할 수 있습니다. 그리고 같은 내용으로. 해결책? 목욕까지! 그리고 한 봇은 주요 도메인 또는 기술 도메인 중 어느 도메인이 "처벌"될 것인지 알고 있습니다.

이 문제를 피하려면 사이트가 검색에 참여하고 있는 주소를 검색 로봇에 알려야 합니다. 이 주소는 기본 주소로 지정되고 나머지는 사이트의 미러 그룹을 형성합니다.

당신은 이것을 할 수 있습니다 호스트 지시문. Disallow 및 Allow 지시문 바로 뒤에 User-Agent로 시작하는 항목에 추가해야 합니다. Host 지시문의 값에서 기본 도메인을 포트 번호(기본값은 80)로 지정해야 합니다. 예를 들어:

호스트: test-o-la-la.ru

이러한 항목은 사이트가 www.test-o-la-la.ru 및 s10364.. 위의 스크린샷이 아닌 test-o-la-la.ru 도메인에 대한 링크와 함께 검색 결과에 표시됨을 의미합니다.

Nubex 생성자에서 Host 지시문은 관리자 패널에서 기본 도메인을 지정할 때 robots.txt 파일의 텍스트에 자동으로 추가됩니다.

host 지시문은 robots.txt에서 한 번만 사용할 수 있습니다. 여러 번 작성하면 로봇은 첫 번째 항목만 순서대로 수락합니다.

크롤링 지연 지시문: 페이지 로딩 간격 설정 방법

로봇에게 한 페이지 로드를 마치고 다음 페이지 로드 시작 사이의 최소 간격을 나타내려면 다음을 사용하십시오. 크롤링 지연 지시문. Disallow 및 Allow 지시문 바로 뒤에 User-Agent로 시작하는 항목에 추가해야 합니다. 지시문 값에서 시간을 초 단위로 지정하십시오.

페이지를 처리할 때 이 지연을 사용하면 과부하된 서버에 편리합니다.

크롤러에 대한 다른 지시문도 있지만 설명된 다섯 가지는 - 사용자 에이전트, 허용하지 않음, 허용, 호스트 및크롤링 지연 - 일반적으로 robots.txt 파일의 텍스트를 구성하기에 충분합니다.

SEO에는 작은 것이 없습니다. 때로는 하나의 작은 파일인 Robots.txt가 웹사이트 프로모션에 영향을 미칠 수 있습니다.검색 로봇이 필요한 페이지를 우회하도록 사이트의 색인을 생성하려면 해당 페이지에 대한 권장 사항을 작성해야 합니다.

"가능한가요?", - 물어.아마도. 이렇게 하려면 사이트에 robots.txt 파일이 있어야 합니다.파일을 만드는 방법 로봇, 구성 및 사이트에 추가 - 이 기사에서 이해합니다.

robots.txt란 무엇이며 무엇을 위한 것입니까?

Robots.txt는 일반 텍스트 파일입니다., 검색 로봇에 대한 권장 사항이 포함되어 있습니다. 크롤링해야 하는 페이지와 크롤링하지 않아야 하는 페이지.

중요: 파일은 UTF-8로 인코딩되어야 합니다. 그렇지 않으면 검색 로봇이 이를 수락하지 않을 수 있습니다.

이 파일이 없는 사이트가 색인에 포함됩니까?하지만 로봇은 검색 결과에서 바람직하지 않은 페이지(예: 로그인 페이지, 관리자 패널, 개인 사용자 페이지, 미러 사이트 등)를 "가져올" 수 있습니다. 이 모든 것은 "검색 쓰레기"로 간주됩니다.

검색 결과에 개인 정보가 포함되면 귀하와 사이트 모두에게 피해를 줄 수 있습니다. 또 다른 요점 - 이 파일이 없으면 사이트 인덱싱이 더 오래 걸립니다.

Robots.txt 파일에서 검색 스파이더에 대한 세 가지 유형의 명령을 지정할 수 있습니다.

  • 스캔은 금지되어 있습니다.
  • 스캔이 허용됩니다.
  • 스캔은 부분적으로 허용됩니다.

이 모든 것은 지시문을 사용하여 작성되었습니다.

웹 사이트에 대한 올바른 Robots.txt 파일을 만드는 방법

Robots.txt 파일은 기본적으로 모든 컴퓨터에서 사용할 수 있는 메모장 프로그램에서 간단하게 만들 수 있습니다. 파일을 처방하는 것은 초보자도 최대 30분의 시간이 걸립니다(명령을 알고 있는 경우).

메모장과 같은 다른 프로그램을 사용할 수도 있습니다. 파일을 자동으로 생성할 수 있는 온라인 서비스도 있습니다. 예를 들어,CYPR.com또는 미디어소바.

규칙을 설정해야 하는 검색 엔진의 사이트 주소, 메인 미러(www가 있거나 없는)만 지정하면 됩니다. 그러면 서비스가 모든 것을 스스로 할 것입니다.

개인적으로 메모장에 파일을 수동으로 등록하는 오래된 "할아버지" 방식을 선호합니다. "게으른 방법"도 있습니다 - 이것으로 개발자를 당황하게 합니다 🙂 하지만 이 경우에도 모든 것이 올바르게 작성되었는지 확인해야 합니다. 따라서 바로 이 파일을 컴파일하는 방법과 파일이 어디에 위치해야 하는지 알아보겠습니다.

완성된 Robots.txt 파일은 사이트의 루트 폴더에 있어야 합니다. 폴더 없이 파일만:

귀하의 사이트에 있는지 확인하고 싶으십니까? 주소 표시줄에 다음을 입력합니다. site.ru/robots.txt. 다음 페이지가 표시됩니다(파일이 있는 경우):

파일은 들여쓰기로 구분된 여러 블록으로 구성됩니다. 각 블록에는 다양한 검색 엔진의 검색 로봇에 대한 권장 사항(모든 사람을 위한 일반 규칙이 있는 블록 포함)과 사이트맵 링크가 있는 별도의 블록(Sitemap)이 포함되어 있습니다.

하나의 검색 로봇에 대한 규칙으로 블록 내부를 들여쓸 필요가 없습니다.

각 블록은 User-agent 지시문으로 시작합니다.

각 지시문 뒤에는 공백이 있는 ":" 기호(콜론)가 오고 그 뒤에 값이 표시됩니다(예: 인덱싱에서 닫을 페이지).

절대 주소가 아닌 상대 페이지 주소를 지정해야 합니다. 상대 - "www.site.ru"가 없습니다. 예를 들어 페이지 인덱싱을 비활성화해야 합니다.www.site.ru/shop. 따라서 콜론 뒤에 공백, 슬래시 및 "shop"을 입력합니다.

허용하지 않음: /shop.

별표(*)는 문자 집합을 나타냅니다.

달러 기호($)는 줄의 끝입니다.

아무 사이트에서나 파일을 열고 자신에게 복사할 수 있다면 왜 처음부터 파일을 작성해야 하는지 결정할 수 있습니다.

각 사이트에 대해 고유한 규칙을 규정해야 합니다. 기능을 고려해야합니다 CMS. 예를 들어 동일한 관리자 패널은 WordPress 엔진의 /wp-admin에 있으며 다른 주소에서는 다릅니다. 개별 페이지의 주소, 사이트 맵 등도 마찬가지입니다.

Robots.txt 파일 설정: 인덱싱, 메인 미러, 지시문

스크린샷에서 이미 보았듯이 User-agent 지시문이 먼저 나옵니다. 아래 규칙이 적용되는 검색 로봇을 나타냅니다.

사용자 에이전트: * - 모든 검색 로봇, 즉 모든 검색 엔진(Google, Yandex, Bing, Rambler 등)에 대한 규칙입니다.

사용자 에이전트: Googlebot - Google 검색 스파이더에 대한 규칙을 나타냅니다.

사용자 에이전트: Yandex - Yandex 검색 로봇에 대한 규칙입니다.

어떤 검색 로봇이 먼저 규칙을 규정할지에 대해서는 차이가 없습니다. 그러나 일반적으로 모든 로봇에 대한 권장 사항이 먼저 작성됩니다.

Disallow: 인덱싱 금지

사이트 전체 또는 개별 페이지의 인덱싱을 비활성화하려면 Disallow 지시문을 사용합니다.

예를 들어, 인덱싱에서 사이트를 완전히 닫을 수 있습니다(리소스가 완료되고 있고 이 상태의 검색 결과에 포함되지 않도록 하려는 경우). 이렇게 하려면 다음을 작성하십시오.

사용자 에이전트: *

허용하지 않음: /

따라서 모든 검색 로봇은 사이트의 콘텐츠를 인덱싱할 수 없습니다.

색인 생성을 위해 사이트를 여는 방법은 다음과 같습니다.

사용자 에이전트: *

허용하지 않음:

따라서 사이트를 닫으려면 Disallow 지시문 뒤에 슬래시가 있는지 확인하십시오. 나중에 열려면 규칙을 제거하는 것을 잊지 마십시오(이는 종종 발생합니다).

인덱싱에서 개별 페이지를 닫으려면 해당 주소를 지정해야 합니다. 나는 이미 그것이 어떻게 끝났는지 썼습니다.

사용자 에이전트: *

허용하지 않음: /wp-admin

따라서 관리자 패널은 타사 보기에서 사이트에서 닫혔습니다.

인덱싱에서 반드시 닫아야 할 사항:

  • 관리 패널;
  • 사용자의 개인 페이지
  • 바구니;
  • 사이트 검색 결과;
  • 로그인, 등록, 인증 페이지.

인덱싱 및 특정 유형의 파일에서 닫을 수 있습니다. 사이트에 색인을 생성하고 싶지 않은 .pdf 파일이 있다고 가정해 보겠습니다. 그리고 검색 로봇은 사이트에 업로드된 파일을 매우 쉽게 검색합니다. 다음과 같이 인덱싱에서 닫을 수 있습니다.

사용자 에이전트: *

허용하지 않음: /*. PDF$

인덱싱을 위해 사이트를 여는 방법

인덱싱에서 완전히 닫힌 사이트에서도 로봇의 특정 파일이나 페이지에 대한 경로를 열 수 있습니다. 사이트를 재설계하지만 서비스 디렉토리는 그대로 남아 있다고 가정해 보겠습니다. 검색 로봇이 해당 섹션을 계속 인덱싱하도록 지시할 수 있습니다. 이를 위해 Allow 지시문이 사용됩니다.

사용자 에이전트: *

허용: /services

허용하지 않음: /

메인 웹사이트 미러

2018년 3월 20일까지 Yandex 검색 로봇용 robots.txt 파일에서 Host 지시문을 통해 메인 사이트 미러를 지정해야 했습니다. 이제 당신은 이것을 할 필요가 없습니다 - 그것으로 충분합니다 페이지별 301 리디렉션 설정 .

메인 미러는 무엇입니까? 이것은 귀하의 사이트 주소가 www가 있든 없든 주요 주소입니다. 리디렉션을 설정하지 않으면 두 사이트가 모두 인덱싱됩니다. 즉, 모든 페이지가 중복됩니다.

사이트맵: robots.txt 사이트맵

로봇에 대한 모든 지시문을 작성한 후에는 Sitemap에 대한 경로를 지정해야 합니다. 사이트맵은 색인을 생성해야 하는 모든 URL이 특정 주소에 있다는 로봇을 보여줍니다. 예를 들어:

사이트맵: site.ru/sitemap.xml

로봇이 사이트를 크롤링할 때 이 파일에 변경된 사항이 표시됩니다. 결과적으로 새 페이지의 색인이 더 빨리 생성됩니다.

클린 매개변수 지침

2009년에 Yandex는 Clean-param이라는 새로운 지침을 도입했습니다. 페이지 내용에 영향을 주지 않는 동적 매개변수를 설명하는 데 사용할 수 있습니다. 대부분의 경우 이 지시문은 포럼에서 사용됩니다. 여기에는 많은 쓰레기가 있습니다(예: 세션 ID, 정렬 매개변수). 이 지시문을 등록하면 Yandex 검색 로봇은 중복된 정보를 반복적으로 다운로드하지 않습니다.

robots.txt 파일의 아무 곳에나 이 지시문을 작성할 수 있습니다.

로봇이 고려할 필요가 없는 매개변수는 & 기호를 통해 값의 첫 번째 부분에 나열됩니다.

깨끗한 매개변수: sid&sort /forum/viewforum.php

이 지시문은 동적 URL(물음표 포함)이 있는 중복 페이지를 방지합니다.

크롤링 지연 지시문

이 지시문은 서버가 약한 사람들에게 도움이 될 것입니다.

검색 로봇의 도착은 서버에 대한 추가 부하입니다. 사이트 트래픽이 많으면 리소스가 단순히 견디지 못하고 "누워"있을 수 있습니다. 결과적으로 로봇은 5xx 오류 메시지를 받게 됩니다. 이러한 상황이 지속적으로 반복될 경우 해당 사이트는 검색 엔진에서 작동하지 않는 것으로 인식될 수 있습니다.

당신이 일하고 있고 동시에 전화에 끊임없이 응답해야한다고 상상해보십시오. 그러면 생산성이 떨어집니다.

서버도 마찬가지입니다.

지시문으로 돌아가자. 크롤링 지연을 사용하면 서버의 로드를 줄이기 위해 웹사이트 페이지 스캔 지연을 설정할 수 있습니다. 즉, 사이트의 페이지가 로드되는 기간을 설정합니다. 이 매개변수는 정수로 초 단위로 지정됩니다.

관련 출판물