- 在线播放
- 分集下载
- 1.1.1、基本要求
- 1.1.2、网页搜索基础简介
- 1.1.3、预处理基础简介
- 1.1.4、查询服务基础简介
- 1.1.5、体系结构
- 2.1、页面搜集原理、技术和系统-基础知识
- 2.2、页面搜集原理、技术和系统-搜集过程
- 2.3、页面搜集原理、技术和系统-天网存储结构定义
- 2.4、页面搜集原理、技术和系统-如何避免网页重复搜集
- 2.5、页面搜集原理、技术和系统-如何首先搜集重要的网页
- 2.6、页面搜集原理、技术和系统-可扩展搜索子系统
- 2.6.1、可扩展搜索子系统-节点间URL的划分策略
- 2.6.2、可扩展搜索子系统-系统的动态可配置性设计
- 3.1、搜集信息的预处理-系统结构
- 3.1.1、搜集信息的预处理-索引网页库
- 3.1.2、搜集信息的预处理-中文分词技术
- 3.1.3、搜集信息的预处理-分析页面和建立倒排文件
- 3.2、搜集信息的预处理-网页净化和消重
- 3.2.1、搜集信息的预处理-净化与数据提取
- 3.2.2、搜集信息的预处理-网页消重
- 4.1、搜集引擎信息查询服务-网页信息检索
- 4.2、搜集引擎信息查询服务-中文自动摘要
- 4.3、搜集引擎信息查询服务-生成搜索结果页
- 4.4、搜集引擎信息查询服务-搜索结果页缓存
- 5.1、用户行为分析-用户查询与点击日志
- 5.2、用户行为分析-查询日志分析
- 5.3、用户行为分析-点击日志分析
- 6.1、相关排序-网页权重的计算
- 6.2、相关排序-网页词项权重的计算
- 6.3、相关排序-链接权值的计算
- 6.4、相关排序-用户评价权值的计算
- 6.5、相关排序-最终权值的计算
- 7、中文网页自动分类技术
- 8、总结
- 附1、WIN7下使用Virtualbox安装Ubuntu
- 附2、如何搭建TSE搜索引擎
- 附3、如何让TSE搜索引擎重新抓取网页
黄聪:搜索引擎的工作原理系列视频教程的相关介绍
- 搜索引擎是大家上网最常用的工具之一,像百度、谷歌、有道、搜搜、搜狗,还有最近很火的360搜索,到但是大家知不知道搜索引擎的工作原理呢?
外唐教程网今天推荐的这部视频教程就讲解了搜索引擎的基本原理,希望对您有所帮助。
搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。