原视频https://www.bilibili.com/video/BV1w54y1q7uf
搜索引擎大致分为:爬虫,索引,搜索,排序4个阶段
爬虫需要遵循robots.txt,他会限制爬虫爬取信息
如淘宝就限制了百度的爬虫
淘宝等网站限制一些爬虫爬取的原因我个人认为有3点:
1.可能爬取用户登陆后的一些信息,安全系数不高
2.影响网站内部推荐,影响流量
3.大量的爬虫访问爬取,对服务器请求多,影响其他用户体验
那么如何让搜索引擎更好的检索内容呢?
这是评论区的课代表记得的,比较完整
*标点符号均为英文,以谷歌为例,大部分百度或其他搜索引擎同样支持
1.准确搜索:
给关键词加上英文双引号 eg: “人工智能算法”
2. 排除关键词:
在搜索内容后面加上空格减号需要排除的关键词 eg: 苹果 -iPhone -iPad
3. 用OR逻辑搜索:
用大写的OR和空格隔开关键词 eg: 百度 OR 谷歌
4. 模糊搜索:用*代替文字或单词
eg: study * home
5. filetype:
在关键词后加上filetype:文件类型 eg: 高等数学 filetype:pdf
6. site:
在关键词后加上site:指定的网站 eg: 后浪 site:bilibili.com
7. inurl/allinurl:
site是在一个网站搜索,而inurl是在多个网站搜索
在关键词后加上inurl:需要筛选的url关键字,allinurl必须同时包含关键词 eg: 民法典 inurl:gov.cn
8. intitle/allintitle:
在关键词后加上intitle:需要筛选的title关键字,allintitle必须同时包含关键词 eg: machine learning intitle:stanford mit
9. define:
通过define:关键词得到准确定义 eg: define:internet
组合示例:"machine learning" -vision -drive site:stanford.edu filetype:pdf