วิธีบล็อกเครื่องมือค้นหา (พร้อมรูปภาพ)

2024 ผู้เขียน: Gilbert Ryder | [email protected]. แก้ไขล่าสุด: 2023-12-16 17:43

เสิร์ชเอ็นจิ้นติดตั้งโรบ็อตหรือที่เรียกว่าสไปเดอร์หรือบอทซึ่งรวบรวมข้อมูลและจัดทำดัชนีหน้าเว็บ หากไซต์หรือเพจของคุณอยู่ระหว่างการพัฒนาหรือมีเนื้อหาที่ละเอียดอ่อน คุณอาจต้องการบล็อกบอทจากการรวบรวมข้อมูลและจัดทำดัชนีไซต์ของคุณ เรียนรู้วิธีบล็อกเว็บไซต์ หน้า และลิงก์ทั้งหมดด้วยไฟล์ robots.txt และบล็อกบางหน้าและลิงก์ด้วยแท็ก html อ่านต่อไปเพื่อค้นพบวิธีบล็อกบอทบางตัวไม่ให้เข้าถึงเนื้อหาของคุณ

ขั้นตอน

วิธีที่ 1 จาก 2: การบล็อกเครื่องมือค้นหาด้วยไฟล์ robots.txt

ขั้นตอนที่ 1. ทำความเข้าใจไฟล์ robots.txt

ไฟล์ robots.txt เป็นไฟล์ข้อความธรรมดาหรือ ASCII ที่แจ้งสไปเดอร์ของเครื่องมือค้นหาถึงสิ่งที่พวกเขาได้รับอนุญาตให้เข้าถึงบนไซต์ของคุณ ไฟล์และโฟลเดอร์ที่อยู่ในไฟล์ robots.txt ไม่สามารถรวบรวมข้อมูลและจัดทำดัชนีโดยสไปเดอร์ของเครื่องมือค้นหา คุณอาจต้องใช้ไฟล์ robots.txt หาก:

คุณต้องการบล็อกเนื้อหาเฉพาะจากสไปเดอร์ของเครื่องมือค้นหา
คุณกำลังพัฒนาไซต์สดและไม่ได้เตรียมที่จะให้สไปเดอร์ของเครื่องมือค้นหารวบรวมข้อมูลและจัดทำดัชนีไซต์
คุณต้องการจำกัดการเข้าถึงบอทที่มีชื่อเสียง

ขั้นตอนที่ 2 สร้างและบันทึกและไฟล์ robots.txt

ในการสร้างไฟล์ ให้เรียกใช้โปรแกรมแก้ไขข้อความธรรมดาหรือโปรแกรมแก้ไขโค้ด บันทึกไฟล์เป็น: robots.txt ชื่อไฟล์ต้องเป็นตัวพิมพ์เล็กทั้งหมด

อย่าลืมตัว "s"
เมื่อคุณบันทึกไฟล์ ให้เลือกนามสกุล “'.txt”' หากคุณกำลังใช้ Word ให้เลือกตัวเลือก "ข้อความธรรมดา"

ขั้นตอนที่ 3 เขียนไฟล์ robots.txt ที่ไม่อนุญาตแบบเต็ม

เป็นไปได้ที่จะบล็อกสไปเดอร์ของเครื่องมือค้นหาที่มีชื่อเสียงทุกตัวไม่ให้รวบรวมข้อมูลและจัดทำดัชนีเว็บไซต์ของคุณด้วย robots.txt “ไม่อนุญาตทั้งหมด” เขียนบรรทัดต่อไปนี้ในไฟล์ข้อความของคุณ:

ตัวแทนผู้ใช้: * ไม่อนุญาต: /

ไม่แนะนำให้ใช้ไฟล์ robots.txt “full-disallow” เมื่อบอท เช่น Bingbot อ่านไฟล์นี้ จะไม่สร้างดัชนีไซต์ของคุณและเครื่องมือค้นหาจะไม่แสดงเว็บไซต์ของคุณ
ตัวแทนผู้ใช้: นี่เป็นอีกคำหนึ่งสำหรับสไปเดอร์ของเครื่องมือค้นหาหรือโรบ็อต
*: เครื่องหมายดอกจันหมายถึงรหัสที่ใช้กับตัวแทนผู้ใช้ทั้งหมด
ไม่อนุญาต: /: เครื่องหมายทับแสดงว่าทั้งไซต์ถูกจำกัดให้บอท

ขั้นตอนที่ 4 เขียนไฟล์ robots.txt แบบมีเงื่อนไข

แทนที่จะบล็อกบอททั้งหมด ให้พิจารณาบล็อกสไปเดอร์บางตัวจากบางพื้นที่ของไซต์ของคุณ คำสั่งอนุญาตแบบมีเงื่อนไขทั่วไป ได้แก่:

บล็อกบอทเฉพาะ: แทนที่เครื่องหมายดอกจันที่อยู่ถัดจาก ตัวแทนผู้ใช้ กับ googlebot, googlebot-news, googlebot-image, bingbot, หรือ เทโอมา.
บล็อกไดเร็กทอรีและเนื้อหา:
```
User-agent: * ไม่อนุญาต: /sample-directory/
```

บล็อกหน้าเว็บ:

User-agent: * ไม่อนุญาต: /private_file.html

บล็อกรูปภาพ:

User-agent: googlebot-image ไม่อนุญาต: /images_mypicture.jpg

บล็อกรูปภาพทั้งหมด:

User-agent: googlebot-image ไม่อนุญาต: /

บล็อกรูปแบบไฟล์เฉพาะ:
```
User-agent: * ไม่อนุญาต: /p*.gif$
```

ขั้นตอนที่ 5 ส่งเสริมให้บอทจัดทำดัชนีและรวบรวมข้อมูลไซต์ของคุณ

หลายคนต้องการต้อนรับ แทนที่จะบล็อก สไปเดอร์ของเครื่องมือค้นหาเพราะพวกเขาต้องการให้มีการจัดทำดัชนีเว็บไซต์ทั้งหมด เพื่อให้บรรลุเป้าหมายนี้ คุณมีสามตัวเลือก ขั้นแรก คุณสามารถเลือกที่จะไม่สร้างไฟล์ robots.txt ได้ เมื่อโรบ็อตไม่พบไฟล์ robots.txt ไฟล์นั้นก็จะรวบรวมข้อมูลและจัดทำดัชนีทั้งไซต์ของคุณต่อไป ประการที่สอง คุณสามารถสร้างไฟล์ robots.txt ที่ว่างเปล่าได้ โดยโรบ็อตจะค้นหาไฟล์ robots.txt ทราบว่าไฟล์นั้นว่างเปล่า และรวบรวมข้อมูลและจัดทำดัชนีเว็บไซต์ของคุณต่อไป สุดท้าย คุณสามารถเขียนไฟล์ robots.txt ที่อนุญาตแบบเต็ม ใช้รหัส:

ตัวแทนผู้ใช้: * ไม่อนุญาต:

เมื่อบ็อต เช่น googlebot อ่านไฟล์นี้ จะสามารถเยี่ยมชมทั้งไซต์ของคุณได้
ตัวแทนผู้ใช้: นี่เป็นอีกคำหนึ่งสำหรับสไปเดอร์ของเครื่องมือค้นหาหรือโรบ็อต
*: เครื่องหมายดอกจันหมายถึงรหัสที่ใช้กับตัวแทนผู้ใช้ทั้งหมด
ไม่อนุญาต: คำสั่ง disallow ว่างระบุว่าไฟล์และโฟลเดอร์ทั้งหมดสามารถเข้าถึงได้

ขั้นตอนที่ 6 บันทึกไฟล์ txt ไปที่รูทของโดเมนของคุณ

หลังจากที่คุณเขียนไฟล์ robots.txt แล้ว ให้บันทึกการเปลี่ยนแปลง อัปโหลดไฟล์ไปยังไดเร็กทอรีรากของไซต์ของคุณ ตัวอย่างเช่น หากโดเมนของคุณคือ www.yourdomain.com, วางไฟล์ robots.txt ไว้ที่ www.yourdomain.com/robots.txt.

วิธีที่ 2 จาก 2: การบล็อกเครื่องมือค้นหาด้วย Meta Tags

ขั้นตอนที่ 1 ทำความเข้าใจเมตาแท็กของโรบ็อต HTML

เมตาแท็กของโรบ็อตช่วยให้โปรแกรมเมอร์สามารถตั้งค่าพารามิเตอร์สำหรับบอทหรือสไปเดอร์ของเครื่องมือค้นหา แท็กเหล่านี้ใช้เพื่อบล็อกบอทจากการจัดทำดัชนีและรวบรวมข้อมูลทั้งไซต์หรือเพียงบางส่วนของไซต์ คุณยังสามารถใช้แท็กเหล่านี้เพื่อบล็อกสไปเดอร์ของเครื่องมือค้นหาบางตัวไม่ให้สร้างดัชนีเนื้อหาของคุณ แท็กเหล่านี้ปรากฏในส่วนหัวของไฟล์ HTML ของคุณ

วิธีนี้มักใช้โดยโปรแกรมเมอร์ที่ไม่มีสิทธิ์เข้าถึงไดเรกทอรีรากของเว็บไซต์

ขั้นตอนที่ 2 บล็อกบอทจากหน้าเดียว

เป็นไปได้ที่จะบล็อกบอททั้งหมดจากการจัดทำดัชนีหน้าและหรือจากการติดตามลิงก์ของหน้า แท็กนี้มักใช้เมื่อไซต์ที่ใช้งานจริงอยู่ระหว่างการพัฒนา เมื่อไซต์เสร็จสมบูรณ์ ขอแนะนำอย่างยิ่งให้คุณลบแท็กนี้ หากคุณไม่ลบแท็ก หน้าของคุณจะไม่ได้รับการจัดทำดัชนีหรือค้นหาผ่านเครื่องมือค้นหา

คุณสามารถบล็อกบอทจากการจัดทำดัชนีหน้าและจากการติดตามลิงก์ใด ๆ:
คุณอาจบล็อกบอททั้งหมดไม่ให้สร้างดัชนีหน้า:
คุณสามารถบล็อกบอททั้งหมดไม่ให้ติดตามลิงก์ของหน้า:

ขั้นตอนที่ 3 อนุญาตให้บอทสร้างดัชนีหน้า แต่อย่าติดตามลิงก์

หากคุณอนุญาตให้บอทสร้างดัชนีหน้า หน้านั้นจะถูกจัดทำดัชนี หากคุณป้องกันไม่ให้สไปเดอร์ติดตามลิงก์ เส้นทางของลิงก์จากหน้านี้ไปยังหน้าอื่นจะพัง แทรกบรรทัดของรหัสต่อไปนี้ในส่วนหัวของคุณ:

ขั้นตอนที่ 4 ให้สไปเดอร์ของเครื่องมือค้นหาติดตามลิงก์แต่ไม่สร้างดัชนีหน้า

หากคุณอนุญาตให้บอทติดตามลิงก์ เส้นทางลิงก์จากหน้านี้ไปยังหน้าอื่น ๆ จะยังคงอยู่ในชั้นเชิง หากคุณจำกัดไม่ให้สร้างดัชนีหน้าเว็บ หน้าเว็บของคุณจะไม่ปรากฏในดัชนี แทรกบรรทัดของรหัสต่อไปนี้ในส่วนหัวของคุณ:

ขั้นตอนที่ 5 บล็อกลิงก์ขาออกเดียว

หากต้องการซ่อนลิงก์เดียวในหน้า ให้ฝัง a เรล แท็กภายในแท็กลิงค์ คุณอาจต้องการใช้แท็กนี้เพื่อบล็อกลิงก์ในหน้าอื่นๆ ที่นำไปสู่หน้าที่คุณต้องการบล็อก

แทรกลิงก์ไปยังเพจที่ถูกบล็อก

ขั้นตอนที่ 6 บล็อกแมงมุมเครื่องมือค้นหาเฉพาะ

แทนที่จะบล็อกบอททั้งหมดจากหน้าเว็บของคุณ คุณอาจต้องการป้องกันไม่ให้บอทตัวหนึ่งรวบรวมข้อมูลและจัดทำดัชนีหน้าเว็บ ในการทำสิ่งนี้ให้สำเร็จ ให้แทนที่ “'robot”' ภายในเมตาแท็กด้วยชื่อของบอทเฉพาะ ตัวอย่าง ได้แก่ googlebot, googlebot-news, googlebot-image, bingbot, และ เทโอมา.

ขั้นตอนที่ 7 ส่งเสริมให้บอทรวบรวมข้อมูลและจัดทำดัชนีหน้าเว็บของคุณ

หากคุณต้องการให้แน่ใจว่าหน้าของคุณได้รับการจัดทำดัชนีและจะมีการติดตามลิงก์ คุณสามารถแทรก follow-allow เมตา "หุ่นยนต์" แท็กในส่วนหัวของคุณ ใช้รหัสต่อไปนี้: