在某些情况下,较旧的服务器可能无法处理每秒默认的 URL 请求数。我们建议对每秒扫描的 URL 数量进行限制,以防万一,避免使网站服务器的工作复杂化。最好让客户知道您何时计划扫描网站,以防他们可能对未知用户代理采取保护措施。一方面,他们可能需要在您扫描网站之前将您的 IP 或用户代理列入白名单。在最糟糕的情况下,您可能会向服点或如何扫描站点而不崩溃务器发送过多请求并无意中导致您的网站崩溃。
要更改扫描速度,请从配置菜单中选择速度,然后在弹出窗口中选择应同时运行的最大线程数。在此菜单中,您还可以选择每秒请求的最大 URL 数量。
提示:如果您发现在扫描过程中出现大量服务器错误,请转到 Spider Configuration 菜单中的 Advanced 选项卡,并增加 Response Timeout 和 5xx Response Retries 值,以获得更好的结果。
如何抓取需要 Cookie 的网站
尽管搜索引擎机器人不接受 cookies,但如果您正在抓取 印度尼西亚数据 某个网点或如何扫描站点而不崩溃站并且想要允许 cookies,只需在“蜘蛛配置”菜单的“高级”选项卡上选择“允许 Cookies”即可。
如何使用不同的 User-Agent 进行扫描
要使用不同的用户代理进行扫描,请从配置菜单中选择用户代理,然后点或如 事情是如何发生的 何扫描站点而不崩溃从下拉列表中选择一个爬虫或输入所需的用户代理字符串。
由于 Google 现在是移动优先,请尝试以 Googlebot 智 加拿大數據 能手机身份抓点或如何扫描站点而不崩溃取您的网站,或将用户代理更改为 Googlebot 智能手机。这很重要,原因有二:
- 使用 Googlebot 智能手机用户代理抓取您的网站可以帮助识别 Google 在抓取和显示您网站内容时遇到的任何问题。
- 使用修改版的 Googlebot 智能手机用户代理将帮助您在分析服务器日志时区分您的抓取和 Google 的抓取。