เสิร์ชเอ็นจิ้นติดตั้งโรบ็อตหรือที่เรียกว่าสไปเดอร์หรือบอทซึ่งรวบรวมข้อมูลและจัดทำดัชนีหน้าเว็บ หากไซต์หรือเพจของคุณอยู่ระหว่างการพัฒนาหรือมีเนื้อหาที่ละเอียดอ่อน คุณอาจต้องการบล็อกบอทจากการรวบรวมข้อมูลและจัดทำดัชนีไซต์ของคุณ เรียนรู้วิธีบล็อกเว็บไซต์ หน้า และลิงก์ทั้งหมดด้วยไฟล์ robots.txt และบล็อกบางหน้าและลิงก์ด้วยแท็ก html อ่านต่อไปเพื่อค้นพบวิธีบล็อกบอทบางตัวไม่ให้เข้าถึงเนื้อหาของคุณ
ขั้นตอน
วิธีที่ 1 จาก 2: การบล็อกเครื่องมือค้นหาด้วยไฟล์ robots.txt
ขั้นตอนที่ 1. ทำความเข้าใจไฟล์ robots.txt
ไฟล์ robots.txt เป็นไฟล์ข้อความธรรมดาหรือ ASCII ที่แจ้งสไปเดอร์ของเครื่องมือค้นหาถึงสิ่งที่พวกเขาได้รับอนุญาตให้เข้าถึงบนไซต์ของคุณ ไฟล์และโฟลเดอร์ที่อยู่ในไฟล์ robots.txt ไม่สามารถรวบรวมข้อมูลและจัดทำดัชนีโดยสไปเดอร์ของเครื่องมือค้นหา คุณอาจต้องใช้ไฟล์ robots.txt หาก:
- คุณต้องการบล็อกเนื้อหาเฉพาะจากสไปเดอร์ของเครื่องมือค้นหา
- คุณกำลังพัฒนาไซต์สดและไม่ได้เตรียมที่จะให้สไปเดอร์ของเครื่องมือค้นหารวบรวมข้อมูลและจัดทำดัชนีไซต์
- คุณต้องการจำกัดการเข้าถึงบอทที่มีชื่อเสียง
ขั้นตอนที่ 2 สร้างและบันทึกและไฟล์ robots.txt
ในการสร้างไฟล์ ให้เรียกใช้โปรแกรมแก้ไขข้อความธรรมดาหรือโปรแกรมแก้ไขโค้ด บันทึกไฟล์เป็น: robots.txt ชื่อไฟล์ต้องเป็นตัวพิมพ์เล็กทั้งหมด
- อย่าลืมตัว "s"
- เมื่อคุณบันทึกไฟล์ ให้เลือกนามสกุล “'.txt”' หากคุณกำลังใช้ Word ให้เลือกตัวเลือก "ข้อความธรรมดา"
ขั้นตอนที่ 3 เขียนไฟล์ robots.txt ที่ไม่อนุญาตแบบเต็ม
เป็นไปได้ที่จะบล็อกสไปเดอร์ของเครื่องมือค้นหาที่มีชื่อเสียงทุกตัวไม่ให้รวบรวมข้อมูลและจัดทำดัชนีเว็บไซต์ของคุณด้วย robots.txt “ไม่อนุญาตทั้งหมด” เขียนบรรทัดต่อไปนี้ในไฟล์ข้อความของคุณ:
ตัวแทนผู้ใช้: * ไม่อนุญาต: /
ขั้นตอนที่ 4 เขียนไฟล์ robots.txt แบบมีเงื่อนไข
แทนที่จะบล็อกบอททั้งหมด ให้พิจารณาบล็อกสไปเดอร์บางตัวจากบางพื้นที่ของไซต์ของคุณ คำสั่งอนุญาตแบบมีเงื่อนไขทั่วไป ได้แก่:
- บล็อกบอทเฉพาะ: แทนที่เครื่องหมายดอกจันที่อยู่ถัดจาก ตัวแทนผู้ใช้ กับ googlebot, googlebot-news, googlebot-image, bingbot, หรือ เทโอมา.
-
บล็อกไดเร็กทอรีและเนื้อหา:
User-agent: * ไม่อนุญาต: /sample-directory/
-
บล็อกหน้าเว็บ:
User-agent: * ไม่อนุญาต: /private_file.html
-
บล็อกรูปภาพ:
User-agent: googlebot-image ไม่อนุญาต: /images_mypicture.jpg
-
บล็อกรูปภาพทั้งหมด:
User-agent: googlebot-image ไม่อนุญาต: /
-
บล็อกรูปแบบไฟล์เฉพาะ:
User-agent: * ไม่อนุญาต: /p*.gif$
ขั้นตอนที่ 5 ส่งเสริมให้บอทจัดทำดัชนีและรวบรวมข้อมูลไซต์ของคุณ
หลายคนต้องการต้อนรับ แทนที่จะบล็อก สไปเดอร์ของเครื่องมือค้นหาเพราะพวกเขาต้องการให้มีการจัดทำดัชนีเว็บไซต์ทั้งหมด เพื่อให้บรรลุเป้าหมายนี้ คุณมีสามตัวเลือก ขั้นแรก คุณสามารถเลือกที่จะไม่สร้างไฟล์ robots.txt ได้ เมื่อโรบ็อตไม่พบไฟล์ robots.txt ไฟล์นั้นก็จะรวบรวมข้อมูลและจัดทำดัชนีทั้งไซต์ของคุณต่อไป ประการที่สอง คุณสามารถสร้างไฟล์ robots.txt ที่ว่างเปล่าได้ โดยโรบ็อตจะค้นหาไฟล์ robots.txt ทราบว่าไฟล์นั้นว่างเปล่า และรวบรวมข้อมูลและจัดทำดัชนีเว็บไซต์ของคุณต่อไป สุดท้าย คุณสามารถเขียนไฟล์ robots.txt ที่อนุญาตแบบเต็ม ใช้รหัส:
ตัวแทนผู้ใช้: * ไม่อนุญาต:
ขั้นตอนที่ 6 บันทึกไฟล์ txt ไปที่รูทของโดเมนของคุณ
หลังจากที่คุณเขียนไฟล์ robots.txt แล้ว ให้บันทึกการเปลี่ยนแปลง อัปโหลดไฟล์ไปยังไดเร็กทอรีรากของไซต์ของคุณ ตัวอย่างเช่น หากโดเมนของคุณคือ www.yourdomain.com, วางไฟล์ robots.txt ไว้ที่ www.yourdomain.com/robots.txt.
วิธีที่ 2 จาก 2: การบล็อกเครื่องมือค้นหาด้วย Meta Tags
ขั้นตอนที่ 1 ทำความเข้าใจเมตาแท็กของโรบ็อต HTML
เมตาแท็กของโรบ็อตช่วยให้โปรแกรมเมอร์สามารถตั้งค่าพารามิเตอร์สำหรับบอทหรือสไปเดอร์ของเครื่องมือค้นหา แท็กเหล่านี้ใช้เพื่อบล็อกบอทจากการจัดทำดัชนีและรวบรวมข้อมูลทั้งไซต์หรือเพียงบางส่วนของไซต์ คุณยังสามารถใช้แท็กเหล่านี้เพื่อบล็อกสไปเดอร์ของเครื่องมือค้นหาบางตัวไม่ให้สร้างดัชนีเนื้อหาของคุณ แท็กเหล่านี้ปรากฏในส่วนหัวของไฟล์ HTML ของคุณ
วิธีนี้มักใช้โดยโปรแกรมเมอร์ที่ไม่มีสิทธิ์เข้าถึงไดเรกทอรีรากของเว็บไซต์
ขั้นตอนที่ 2 บล็อกบอทจากหน้าเดียว
เป็นไปได้ที่จะบล็อกบอททั้งหมดจากการจัดทำดัชนีหน้าและหรือจากการติดตามลิงก์ของหน้า แท็กนี้มักใช้เมื่อไซต์ที่ใช้งานจริงอยู่ระหว่างการพัฒนา เมื่อไซต์เสร็จสมบูรณ์ ขอแนะนำอย่างยิ่งให้คุณลบแท็กนี้ หากคุณไม่ลบแท็ก หน้าของคุณจะไม่ได้รับการจัดทำดัชนีหรือค้นหาผ่านเครื่องมือค้นหา
- คุณสามารถบล็อกบอทจากการจัดทำดัชนีหน้าและจากการติดตามลิงก์ใด ๆ:
- คุณอาจบล็อกบอททั้งหมดไม่ให้สร้างดัชนีหน้า:
- คุณสามารถบล็อกบอททั้งหมดไม่ให้ติดตามลิงก์ของหน้า:
ขั้นตอนที่ 3 อนุญาตให้บอทสร้างดัชนีหน้า แต่อย่าติดตามลิงก์
หากคุณอนุญาตให้บอทสร้างดัชนีหน้า หน้านั้นจะถูกจัดทำดัชนี หากคุณป้องกันไม่ให้สไปเดอร์ติดตามลิงก์ เส้นทางของลิงก์จากหน้านี้ไปยังหน้าอื่นจะพัง แทรกบรรทัดของรหัสต่อไปนี้ในส่วนหัวของคุณ:
ขั้นตอนที่ 4 ให้สไปเดอร์ของเครื่องมือค้นหาติดตามลิงก์แต่ไม่สร้างดัชนีหน้า
หากคุณอนุญาตให้บอทติดตามลิงก์ เส้นทางลิงก์จากหน้านี้ไปยังหน้าอื่น ๆ จะยังคงอยู่ในชั้นเชิง หากคุณจำกัดไม่ให้สร้างดัชนีหน้าเว็บ หน้าเว็บของคุณจะไม่ปรากฏในดัชนี แทรกบรรทัดของรหัสต่อไปนี้ในส่วนหัวของคุณ:
ขั้นตอนที่ 5 บล็อกลิงก์ขาออกเดียว
หากต้องการซ่อนลิงก์เดียวในหน้า ให้ฝัง a เรล แท็กภายในแท็กลิงค์ คุณอาจต้องการใช้แท็กนี้เพื่อบล็อกลิงก์ในหน้าอื่นๆ ที่นำไปสู่หน้าที่คุณต้องการบล็อก
แทรกลิงก์ไปยังเพจที่ถูกบล็อก
ขั้นตอนที่ 6 บล็อกแมงมุมเครื่องมือค้นหาเฉพาะ
แทนที่จะบล็อกบอททั้งหมดจากหน้าเว็บของคุณ คุณอาจต้องการป้องกันไม่ให้บอทตัวหนึ่งรวบรวมข้อมูลและจัดทำดัชนีหน้าเว็บ ในการทำสิ่งนี้ให้สำเร็จ ให้แทนที่ “'robot”' ภายในเมตาแท็กด้วยชื่อของบอทเฉพาะ ตัวอย่าง ได้แก่ googlebot, googlebot-news, googlebot-image, bingbot, และ เทโอมา.
ขั้นตอนที่ 7 ส่งเสริมให้บอทรวบรวมข้อมูลและจัดทำดัชนีหน้าเว็บของคุณ
หากคุณต้องการให้แน่ใจว่าหน้าของคุณได้รับการจัดทำดัชนีและจะมีการติดตามลิงก์ คุณสามารถแทรก follow-allow เมตา "หุ่นยนต์" แท็กในส่วนหัวของคุณ ใช้รหัสต่อไปนี้: