scrapy+selenium爬取UC头条网站

Scrapy是Python优秀的爬虫框架,selenium是非常好用的自动化WEB测试工具,两者结合可以非常容易对动态网页进行爬虫。
本文的需求是抓取UC头条各个板块的内容。UC头条(https://news.uc.cn/ )网站没有提供搜索入口,只能每个板块的首页向下滚动鼠标加载更多。要对这样的网站进行检索,抓取其内容,采用一般的scrapy请求方式,每次只能获取最新的10条数据,分析其JS请求,发现参数过于复杂,没有规律。如果想获取更多数据,则需要采用模拟浏览器的方法,这时候selenium就派上用场了。

阅读更多

nginx日志分析

1,日志定义

在nginx.conf中定义的日志格式如下:

1
2
3
4
5
6
7
8
http {
...
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status [$request_body] $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
...
}

阅读更多

nginx 缓存与优化

在浏览器和应用服务器之间,存在多种“潜在”缓存,如:

  • 客户端浏览器缓存
  • 中间缓存
  • 内容分发网络(CDN)
  • 服务器上的负载均衡和反向代理

阅读更多

docker命令手册

Docker 命令操作手册,方便查询使用。

运行

docker run

–name 指定容器名
-p 指定端口映射

阅读更多

Docker镜像自动构建

基于Git的代码版本控制,能保证每个开发人员的开发成果得到有效的保护,不会发生因为其他人的“误操作”操作将自己辛辛苦苦写的代码删除,而且能够跟踪每一次的改动,能快速回滚到之前任一版本。
基于Docker镜像的版本控制,能保证应用服务的正常迭代更新,某一版本出问题了可以快速切换至其他镜像版本。

阅读更多

SpringMVC工程实现单人登录(踢人)

网站不允许多个用户使用一个账号登录,即最后登录的用户会把之前登录在线的用户踢下线。在SpringMVC中配置如下:

阅读更多

2017腾讯云+未来峰会

云时代的新趋势 马化腾


阅读更多

采用Docker集成jquery-file-upload组件到WEB应用

1,Docker镜像

jQuery-File-Upload 组件是一个非常好用的文件上传组件,有很多友好的特性:

  • 支持文件多选
  • 拖拽上传
  • 上传进度条
  • 取消上传
  • 图片、音视频预览
  • 纯JS和HTML5代码,不需额外安装插件

阅读更多

docker私有仓库搭建

Docker提供了开放的中央仓库dockerhub,同时也允许我们使用registry搭建本地私有仓库。搭建私有仓库有如下的优点:

  1. 节省网络带宽,提升Docker部署速度,不用每个镜像从DockerHub上去下载,只需从私有仓库下载就可;
  2. 私有镜像,包含公司敏感信息,不方便公开对外,只在公司内部使用。

阅读更多

scrapy+splash 爬取动态网站(JS)

scrapy只支持静态网页的抓取,通过scrapy-splash,能实现对JavaScript的解析。

阅读更多