Hello,嗨,大家好!!!

这里是17分享资源网

今天,我想和大家分享-,《基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎》的文章,感谢您宝贵的时间阅读,让这一刻属于我们吧!

17分享资源网 www.17fenxiang.cn
全网拥有最丰富的资源 免费下载最多 价格最便宜的来源网站。


资源介绍


资源介绍


《基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎》

《基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎》
课程讲师:小叶子xa0
课程分类:Java
适合人群:初级
课时数量:69课时
用到技术:Hibernate、Struts、Spring、jQuery、Lucene、Solr、Heritrix
涉及项目:百度文库搜索引擎
xa0 xa0 xa0 垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。
xa0 xa0 xa0 xa0整个课程,按照一个从无到有的过程来展开。所有的数据,来自于互联网,用heritrix去抓取。对于抓取的数据,进行去重,去标签,然后利用lucene 和 solr 进行索引和搜索。
xa0 xa0 xa0 xa0 xa0推荐你看一下小叶子老师的这套视频教程《基于Lucene4.6+Solr4.6+Heritrix1.14+S2SH实战开发从无到有垂直搜索引擎》,一共69讲,整个课程,按照一个从无到有的过程来展开。所有的数据,来自于互联网,用heritrix去抓取。对于抓取的数据,进行去重,去标签,然后利用lucene 和 solr 进行索引和搜索。
xa0 xa0 xa0 xa0整个项目的构建全部采用最新技术,包括但不限于以下技术:struts 2.3.16 +spring 4.0.1 +hibernate 4.3.1+jquery-easyui 1.3.5+lucene 4.6.0+solr 4.6.0+Heritrix1.14并对其做了二次封装。为了增进学员的理解,课程大量引入形象的图片来讲解算法原理,相信读者会发现原来搜索引擎的核心技术理解起来比原先想象的要简单得多。
一、理论部分:
xa0 xa0 xa0 xa0 xa02.1、搭建heritrix
xa0 xa0 xa0 xa0 xa0 xa0 1.什么是网络爬虫
xa0 xa0 xa0 xa0 xa0 xa0 2.网络爬虫能做什么
xa0 xa0 xa0 xa0 xa0 xa0 3.Heritrix原理
xa0 xa0 xa0 xa0 xa0 xa0 4.Heritrix搭建
xa0 xa0 xa0 xa0 xa02.2、如何进行主题抓取
xa0 xa0 xa0 xa0 xa0 xa0 1.什么是主题抓取
xa0 xa0 xa0 xa0 xa0 xa0 2.主题抓取的意义
xa0 xa0 xa0 xa0 xa0 xa0 3.主题抓取的策略
xa0 xa0 xa0 xa0 xa0 xa0 4.如何用heritrix进行主题抓取
xa0 xa0 xa0 xa0 xa02.3、heritrix优化
xa0 xa0 xa0 xa0 xa0 xa0 1. ELFHash算法
xa0 xa0 xa0 xa0 xa0 xa0 2.关于robot.txt
xa0 xa0 xa0 xa0 xa0 xa0 3.将heritrix打包成工具
xa0 xa0 xa0 xa0 xa02.4、解析html页面
xa0 xa0 xa0 xa0 xa0 xa0 1.java正则表达式
xa0 xa0 xa0 xa0 xa0 xa0 2.基于模板获取网页内容
xa0 xa0 xa0 xa0 xa0 xa0 3.利用htmlparser解析html
xa0 xa0 xa0 xa0 xa0 2.5、中文分词介绍
xa0 xa0 xa0 xa0 xa0 xa0 1.Lucene自带的分词
xa0 xa0 xa0 xa0 xa0 xa0 4.利用机器学习的算法识别中文文章中的领域词
xa0 xa0 xa0 xa0 xa0 2.6、网页去重
xa0 xa0 xa0 xa0 xa0 xa0 1.网页去重的意义
xa0 xa0 xa0 xa0 xa0 xa0 2.网页去重的主要方法
xa0 xa0 xa0 xa0 xa0 xa0 3.什么是tf*idf
xa0 xa0 xa0 xa0 xa0 xa0 4.基于指纹算法的网页去重
xa0 xa0 xa0 xa0 xa0 2.7、Lucene4.6快速索引与搜索
xa0 xa0 xa0 xa0 xa0 xa0 1.如何用lucene创建索引
xa0 xa0 xa0 xa0 xa0 xa0 2.如何用lucene搜索结果
xa0 xa0 xa0 xa0 xa0 xa0 3.Lucene中intfield怎么搜索
xa0 xa0 xa0 xa0 xa0 xa0 4.Lucene的结果高亮显示
xa0 xa0 xa0 xa0 xa0 2.8、Lucene4.6索引的相关操作
xa0 xa0 xa0 xa0 xa0 xa0 1.创建索引
xa0 xa0 xa0 xa0 xa0 xa0 2.修改索引
xa0 xa0 xa0 xa0 xa0 xa0 3.删除索引
xa0 xa0 xa0 xa0 xa0 xa0 4.索引优化
xa0 xa0 xa0 xa0 xa0 2.9、Lucene4.6的query、及queryparser
xa0 xa0 xa0 xa0 xa0 2.10、Lucene的Filter及自定义排序
xa0 xa0 xa0 xa0 xa0 xa0 2.Lucene自带排序及指定权重
xa0 xa0 xa0 xa0 xa0 xa0 3.Lucene自定义排序
xa0 xa0 xa0 xa0 xa02.11、Solr快速索引与搜索
xa0 xa0 xa0 xa0 xa0 xa0 1.什么是solr
xa0 xa0 xa0 xa0 xa0 xa0 2.为什么工程中要使用solr
xa0 xa0 xa0 xa0 xa0 xa0 3.Solr的原理
xa0 xa0 xa0 xa0 xa0 xa0 4.如何在tomcat中运行solr
xa0 xa0 xa0 xa0 xa0 xa0 5.如何利用solr进行索引与搜索
xa0 xa0 xa0 xa0 xa02.12、Solr的查询及Filter
xa0 xa0 xa0 xa0 xa0 xa0 1.solr的各种查询
xa0 xa0 xa0 xa0 xa0 xa0 2.solr的Filter
xa0 xa0 xa0 xa0 xa0 xa0 3.solr的排序
xa0 xa0 xa0 xa0 xa0 xa0 4.solr的高亮
xa0 xa0 xa0 xa0 xa02.13、Solr的facet介绍
xa0 xa0 xa0 xa0 xa0 xa0 1.solr的某个域统计
xa0 xa0 xa0 xa0 xa0 xa0 2.solr的范围统计
xa0 xa0 xa0 xa0 xa02.14、Solrcloud集群搭建
xa0 xa0 xa0 xa0 xa0 xa0 1.zookeeper简介
xa0 xa0 xa0 xa0 xa0 xa0 2.solrcloud集群搭建
xa0 xa0 xa0 xa0 xa02.15、搜索服务的工具封装
xa0 xa0 xa0 xa0 xa0 xa0 1.工厂模式
xa0 xa0 xa0 xa0 xa0 xa0 2.封装搜索服务_lucene
xa0 xa0 xa0 xa0 xa0 xa0 3.封装搜索服务_solr
xa0 xa0 xa0 xa0 xa0 xa0 4.将lucene与solr封装成可以配置的工具,可以支持任何业务系统
xa0 xa0 xa0 二、项目部分:
xa0 xa0 xa0 xa0 xa02.16、项目实战
xa0 xa0 xa0 xa0 xa0 xa0 1.项目需求分析及框架选择
xa0 xa0 xa0 xa0 xa0 xa0 2.Struts 2.3.16介绍
xa0 xa0 xa0 xa0 xa0 xa0 3.Struts 2.3.16整合Spring 4.0.1
xa0 xa0 xa0 xa0 xa0 xa0 4.Spring 4.0.1整合hibernate 4.3.1
xa0 xa0 xa0 xa0 xa0 xa0 5.利用jquery-easyui 1.3.5 做后台管理页面
xa0 xa0 xa0 xa0 xa0 xa0 6.Heritrix 在工程中的运用
xa0 xa0 xa0 xa0 xa0 xa0 7.封装好的搜索框架在工程中的运用
xa0 xa0 xa0 xa0 xa0 xa0 8.Flexpaper模仿百度文库
xa0 xa0 xa0 xa0 xa0 xa0 9.文件上传
xa0 xa0 xa0 xa0 xa0 xa0 10.相关代码编写
xa0 xa0 xa0 xa0 xa0 xa0 11.搜索结果优化
xa0 xa0 xa0 xa0 xa0 xa0 12.项目总结xa0


发表回复

后才能评论

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。