Kuidas Koostada Robotite Txt-fail

Sisukord:

Kuidas Koostada Robotite Txt-fail
Kuidas Koostada Robotite Txt-fail

Video: Kuidas Koostada Robotite Txt-fail

Video: Kuidas Koostada Robotite Txt-fail
Video: Robotex 2012 - 3. veebiklipp - Uurime, kuidas läheb kolmel võistkonnal robotite ehitus 2024, Mai
Anonim

Üks tööriistu saitide indekseerimise haldamiseks otsingumootorite poolt on fail robots.txt. Seda kasutatakse peamiselt selleks, et takistada kõigi või ainult teatud robotite teatud leherühmade sisu allalaadimist. See võimaldab teil otsingumootori tulemustes vabaneda "prügist" ja mõnel juhul oluliselt parandada ressursi järjestust. Eduka rakenduse jaoks on oluline õige fail robots.txt.

Kuidas koostada robotite txt-fail
Kuidas koostada robotite txt-fail

Vajalik

tekstiredaktor

Juhised

Samm 1

Koostage loetelu robotitest, mille jaoks kehtestatakse spetsiaalsed välistamisreeglid, või laiendatud robots.txt standardi direktiive, samuti mittestandardseid ja spetsiifilisi direktiive (konkreetse otsingumootori laiendusi). Sisestage sellesse loendisse valitud robotite saidiserverisse saadetud HTTP-päringute päiste väljade User-Agent väärtused. Robotite nimed leiate ka otsingumootorite saitide viiteosadest.

2. samm

Valige saidi ressursside URL-ide rühmad, millele tuleks kõigis robotites loata juurdepääs esimeses etapis koostatud loendis. Tehke sama toiming kõigi teiste robotite puhul (määramatu indekseerimisrobotite komplekt). Teisisõnu peaks tulemus olema mitu loendit, mis sisaldavad linke saidi jaotistele, lehtede rühmadele või meediumisisu allikatele, mille indekseerimine on keelatud. Iga loend peab vastama erinevale robotile. Samuti peaks olema kõigi teiste robotite keelatud URL-ide loend. Koostage loendid, mis põhinevad saidi loogilise struktuuri võrdlemisel serveris olevate andmete füüsilise asukohaga, samuti rühmitades lehtede URL-id vastavalt nende funktsionaalsed omadused. Näiteks võite keeldumisloenditesse lisada mis tahes teenuse kataloogide (rühmitatud asukoha järgi) või kõigi kasutajaprofiilide lehtede (rühmitatud eesmärgi järgi) sisu.

3. samm

Valige URL-märgid iga teises etapis koostatud loendites sisalduva ressursi jaoks. Kui töötlete robotite välistamisloendeid, kasutades ainult standardseid robots.txt direktiive ja määratlemata roboteid, tõstke esile maksimaalse pikkusega unikaalsed URL-i osad. Ülejäänud aadressikomplektide jaoks saate luua malle vastavalt konkreetsete otsingumootorite spetsifikatsioonidele.

4. samm

Looge fail robots.txt. Lisage sellele direktiivide rühmad, millest igaüks vastab konkreetse roboti keelavate reeglite kogumile, mille loend koostati esimeses etapis. Viimasele peaks järgnema rühm direktiive kõigi teiste robotite kohta. Eraldage reeglirühmad ühe tühja reaga. Iga reeglistik peab algama roboti identifitseerimise direktiiviga User-agent, millele järgneb käsk Disallow, mis keelab URL-i rühmade indekseerimise. Tehke kolmandas etapis saadud read vastavalt direktiivide Keela väärtustele. Eraldage direktiivid ja nende tähendused kooloniga. Vaatleme järgmist näidet: Kasutajaagent: YandexDisallow: / temp / andmed / pildid / Kasutajaagent: * Keela: / temp / andmed / See direktiivide kogum juhendab Yandexi otsingumootor ei indekseeri URL-i. Mis sisaldab alamstringi / temp / data / images /. Samuti takistab see kõiki teisi robote indekseerimast URL-e, mis sisaldavad / temp / data /.

5. samm

Täiendage robots.txt laiendatud standarddirektiivide või konkreetsete otsingumootorite direktiividega. Selliste direktiivide näited on: host, saidiplaan, taotluste määr, külastuse aeg, indekseerimise viivitus.

Soovitan: