概念
朴素贝叶斯算法是一个直观的方法,使用每个属性属于某个类的概率来做预测。你可以使用这种监督性学习方法,对一个预测性建模问题进行概率建模。
给定一个类,朴素贝叶斯假设每个属性归属于此类的概率独立于其余所有属性,从而简化了概率的计算。这种强假定产生了一个快速、有效的方法。
朴素贝叶斯算法是一个直观的方法,使用每个属性属于某个类的概率来做预测。你可以使用这种监督性学习方法,对一个预测性建模问题进行概率建模。
给定一个类,朴素贝叶斯假设每个属性归属于此类的概率独立于其余所有属性,从而简化了概率的计算。这种强假定产生了一个快速、有效的方法。
某大型资产管理公司人工智能和系统化交易招聘
简历发送到: [js_recruit@163.com]
学历要求:博士
职位数量:2人
Python 的GIL限制了多核CPU的性能,对于IO密集型的程序,采用多线程能显著提高运行速度;但对于计算密集型的程序,多线程就没多少用了,采用多进程编程,就能充分利用多核CPU的性能,CPU占用率能达到100%。
配置:CPU:Xeon, E5-2680, 2.5GHz, 4核; 内存:16G, DDR4; 硬盘:100G, SSD
本文实现cookie的自动获取,及cookie过期自动更新。
社交网站中的很多信息需要登录才能获取到,以微博为例,不登录账号,只能看到大V的前十条微博。保持登录状态,必须要用到Cookie。以登录www.weibo.cn 为例:
1 |
|
上一篇 IP代理池的实现 讲解了IP代理池的实现细节。
由于爬虫多个项目都需要用到IP代理,打造一个公用的IP代理库就很有必要。本文主要讲解公用的IP代理库的实现框架。
实现思路如下:
1,数据抓取:从各个IP代理网站抓取大量IP数据;
2,数据筛选:Ping每个IP,连接速度<1.5s的IP地址入库;
3,定时更新:设置定时任务,每日重新Ping数据库内的IP,更新连接速度;
“信息量”的概念对应着包含在价格数据中的“含金量”:
- 任何市场资料所信息量均有限
- 任何技术分析手段所提取的信息量只可能少于信息量的极限,绝不可能多于信息量的极限;
- 对于相同的市场资料,虽然可能采取不同的技术分析手段,但是所得信息量均限于上述极限之内,因此它们的结果有可能是相互重叠的。
PyQt4 生成exe打包文件
pyqt是跨平台的GUI平台,本文的UI设计,代码编写在mac下进行,编译成exe,并打包在win7下做的。
python脚本语言,图形化平台不是其擅长的领域,一般都是直接运行脚本,这次因为客户需要一个“成型”的程序去外面给别人展示,故有了此文的背景。
QT作为一个跨平台的开发环境,编写出一个窗口程序,然后打包成python文件是比较迅速的。麻烦的是打包成windows的exe文件,试过py2exe,pyinstaller,都不是很好用,py2exe根本出不来图形界面,最后用到cxfreeze这个工具,才得以顺利打包。
爬虫采集数据时,如果频繁的访问某个网站,会被封IP,有些是禁止访问3小时,有些是直接拉黑名单。为了避免被禁,一般采取的措施有三种:
- 放慢抓取的速度,设置一个时间间隔;
- 模拟浏览器行为,如采用Selenium + PhantomJS;
- 设置IP代理,定期更换代理IP,让网站不认为来自一个IP。