scrapy+selenium爬取UC头条网站

Scrapy是Python优秀的爬虫框架,selenium是非常好用的自动化WEB测试工具,两者结合可以非常容易对动态网页进行爬虫。
本文的需求是抓取UC头条各个板块的内容。UC头条(https://news.uc.cn/ )网站没有提供搜索入口,只能每个板块的首页向下滚动鼠标加载更多。要对这样的网站进行检索,抓取其内容,采用一般的scrapy请求方式,每次只能获取最新的10条数据,分析其JS请求,发现参数过于复杂,没有规律。如果想获取更多数据,则需要采用模拟浏览器的方法,这时候selenium就派上用场了。

阅读更多

nginx日志分析

1,日志定义

在nginx.conf中定义的日志格式如下:

1
2
3
4
5
6
7
8
http {
...
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status [$request_body] $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
...
}

阅读更多

docker命令手册

Docker 命令操作手册,方便查询使用。

运行

docker run

–name 指定容器名
-p 指定端口映射

阅读更多

Docker镜像自动构建

基于Git的代码版本控制,能保证每个开发人员的开发成果得到有效的保护,不会发生因为其他人的“误操作”操作将自己辛辛苦苦写的代码删除,而且能够跟踪每一次的改动,能快速回滚到之前任一版本。
基于Docker镜像的版本控制,能保证应用服务的正常迭代更新,某一版本出问题了可以快速切换至其他镜像版本。

阅读更多

2017腾讯云+未来峰会

云时代的新趋势 马化腾


阅读更多

docker私有仓库搭建

Docker提供了开放的中央仓库dockerhub,同时也允许我们使用registry搭建本地私有仓库。搭建私有仓库有如下的优点:

  1. 节省网络带宽,提升Docker部署速度,不用每个镜像从DockerHub上去下载,只需从私有仓库下载就可;
  2. 私有镜像,包含公司敏感信息,不方便公开对外,只在公司内部使用。

阅读更多

scrapy+splash 爬取动态网站(JS)

scrapy只支持静态网页的抓取,通过scrapy-splash,能实现对JavaScript的解析。

阅读更多

Docker版highcharts中文导出服务器

highcharts的导出服务器使用固然方便,但需要把数据上传到它的服务器,对于数据安全性的考虑和外网访问限制的场景,搭建自己的导出服务器是比较可靠的。highcharts提供了一套搭建导出服务器的方法,本文在这个基础上将导出服务器封装成一个Docker容器,并且实现了图片中文字体的支持。

阅读更多

docker版私人网盘ownCloud

ownCloud是一个自由且开源的个人云存储解决方案。ownCloud在客户端可通过网页界面,或者安装专用的客户端软件来使用。网页界面当然就是任何能开网页的平台都支持,而客户端软件也支持相当多平台,Windows、Linux、iOS、Android皆有。
除了云存储之外,ownCloud也可用于同步日历、电子邮件联系人、网页浏览器的书签;此外还有多人在线文件同步协作的功能(类似google documents或Duddle等等)。
ownCloud官方提供了Docker版的ownCloud,部署安装能一步到位。

阅读更多

docker版Django

Django的运行是基于python的环境,加上django包。在docker中运行django,实现方式是从docker下载python镜像,然后安装django运行所依赖的包。

https://store.docker.com/images/python?tab=description 中介绍pull镜像方式有一种叫python:onbuild。
这种镜像创建方式根据项目中提供的requirements.txt文件自动pip安装依赖包。大多数情况,通过python:onbuild能创建一个满足工程所需的独立镜像。

阅读更多