某大型资产管理公司人工智能和系统化交易招聘
简历发送到: [js_recruit@163.com]

1. 人工智能/机器学习算法研究员

学历要求:博士
职位数量:2人

岗位职责:

  • 使用统计学习方法,挖掘投资者行为特征的数据。
  • 对金融海量数据,针对不同的学习问题,建立起一般性的数据源选择框架。
  • 对金融相关分类和预测性问题建模,并负责系统回测。
  • 与技术人员合作,参与大数据计算框架的设计和运行
    阅读全文 »

Python 的GIL限制了多核CPU的性能,对于IO密集型的程序,采用多线程能显著提高运行速度;但对于计算密集型的程序,多线程就没多少用了,采用多进程编程,就能充分利用多核CPU的性能,CPU占用率能达到100%。

  • 下面是在阿里云服务器上测试的数据:

配置:CPU:Xeon, E5-2680, 2.5GHz, 4核; 内存:16G, DDR4; 硬盘:100G, SSD

阅读全文 »

本文实现cookie的自动获取,及cookie过期自动更新。

社交网站中的很多信息需要登录才能获取到,以微博为例,不登录账号,只能看到大V的前十条微博。保持登录状态,必须要用到Cookie。以登录www.weibo.cn 为例:

在chrome中输入:http://login.weibo.cn/login/

分析控制台的Headers的请求返回,会看到weibo.cn有几组返回的cookie。

实现步骤:

1,采用selenium自动登录获取cookie,保存到文件;

2,读取cookie,比较cookie的有效期,若过期则再次执行步骤1;

3,在请求其他网页时,填入cookie,实现登录状态的保持。

阅读全文 »

基本用法

一、发送无参数的get请求

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

import requests

In [67]: r =requests.get('http://httpbin.org/get')

In [68]: print r.text
{
"args": {},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.7.0 CPython/2.7.10 Darwin/14.5.0"
},
"origin": "220.231.47.169",
"url": "http://httpbin.org/get"
}

返回一个名为 r 的Response对象。可以从这个对象中获取所有我们想要的信息。

阅读全文 »

上一篇 IP代理池的实现 讲解了IP代理池的实现细节。

由于爬虫多个项目都需要用到IP代理,打造一个公用的IP代理库就很有必要。本文主要讲解公用的IP代理库的实现框架。

实现思路如下:

1,数据抓取:从各个IP代理网站抓取大量IP数据;

2,数据筛选:Ping每个IP,连接速度<1.5s的IP地址入库;

3,定时更新:设置定时任务,每日重新Ping数据库内的IP,更新连接速度;

4,定时新增:设置定时任务,每日定时从IP代理网站取新数据

5,提供获取接口

阅读全文 »

一、基本理论及原则

  • 信息量

“信息量”的概念对应着包含在价格数据中的“含金量”:

  1. 任何市场资料所信息量均有限

  2. 任何技术分析手段所提取的信息量只可能少于信息量的极限,绝不可能多于信息量的极限;

  3. 对于相同的市场资料,虽然可能采取不同的技术分析手段,但是所得信息量均限于上述极限之内,因此它们的结果有可能是相互重叠的。


  • 杰西·利弗莫尔:只有离开研究对象一定的距离,才能更好地观察它的全貌。技术分析就是让我们退后一步来观察市场,如此才使我们对市场获得了一份不同寻常的,或许也更加贴切的观感。
    阅读全文 »

日本蜡烛线形态

1,纺锤线

实体较短,说明熊方与牛方正处于胶着状态,一时难分高下。

2,锤子线与上吊线

下图中的蜡烛图线具有明显的特点:它们的下影线较长,而实体较小并且在其全天价格区间里,实体处在接近顶端的位置上。

阅读全文 »

PyQt4 生成exe打包文件

pyqt是跨平台的GUI平台,本文的UI设计,代码编写在mac下进行,编译成exe,并打包在win7下做的。
python脚本语言,图形化平台不是其擅长的领域,一般都是直接运行脚本,这次因为客户需要一个“成型”的程序去外面给别人展示,故有了此文的背景。
QT作为一个跨平台的开发环境,编写出一个窗口程序,然后打包成python文件是比较迅速的。麻烦的是打包成windows的exe文件,试过py2exe,pyinstaller,都不是很好用,py2exe根本出不来图形界面,最后用到cxfreeze这个工具,才得以顺利打包。

前言

环境搭建参考:http://www.cnblogs.com/zouzf/p/4308912.html

一、Qt Designer设计界面

安装Qt Designer,我的版本是5.2.1。
设计出的界面如下,保存为.ui文件。
Qt_UI

阅读全文 »

爬虫采集数据时,如果频繁的访问某个网站,会被封IP,有些是禁止访问3小时,有些是直接拉黑名单。为了避免被禁,一般采取的措施有三种:

  1. 放慢抓取的速度,设置一个时间间隔;
  2. 模拟浏览器行为,如采用Selenium + PhantomJS;
  3. 设置IP代理,定期更换代理IP,让网站不认为来自一个IP。

本文实现其中的第三种方法。
国内提供IP代理的网站有很多,我们以其中的一个为例:http://www.haodailiip.com
分为三步来实现这个IP抓取类:

  1. 解析网页中的IP和端口
  2. Ping所有IP地址的连接速度
  3. 按速度从快到慢排序,保存到文件
阅读全文 »

许多语言处理任务都涉及模式匹配。例如,可以使用endswith(‘ed’)找出以“ed”结尾的词。正则表达式提出了一个更加强大和灵活的方法描述感兴趣的字符模式。在Python中使用正则表达式,需要使用import re导入re函数库。

下表为正则表达式基本元字符,其中包括通配符、范围和闭包

阅读全文 »