构建推荐系统(二)

基于用户的协同过滤

我们将一个用户和其他所有用户进行对比,找到相似的人。这种算法有两个弊端:

  1. 扩展性 随着用户数量的增加,其计算量也会增加。这种算法在只有几千个用户的情况下能够工作得很好,但达到一百万个用户时就会出现瓶颈。

  2. 稀疏性 大多数推荐系统中,物品的数量要远大于用户的数量,因此用户仅仅对一小部分物品进行了评价,这就造成了数据的稀疏性。比如亚马逊有上百万本书,但用户只评论了很少一部分,于是就很难找到两个相似的用户了。

鉴于以上两个局限性,我们不妨考察一下基于物品的协同过滤算法。

阅读更多

构建推荐系统(一)

协同型过滤 ( Collaborative filtering)
一个协作型过滤算法通常的做法是对一大群人进行搜索,并从中找出与我们品味相近的一小群人。算法会对这些人所偏爱的其他内容进行考查,并将它们组合起来构造出一个经过排名的推荐列表。

一、相似度评价方法

0,数据集

本文中的数据集都是以嵌套字典的形式出现,如下:
字典的key为用户名,value为对各个物品的评价分数。

阅读更多

基金从业资格考试笔记

第一章 金融、资产管理与投资基金

1,金融资产

一般分为债券类金融资产和股权类金融资产。

债券类金融资产以票据、债券等契约型投资工具为主,股权类金融资产以各类股票为主。

阅读更多

Scrapy框架初探

scrapy爬虫框架在业内大大有名,自己写过静态网页和动态网页的爬虫,一直没拿scrapy来写,近来看了scrapy的官方文档,了解了大致的流程,故拿来练手实践了一个项目。

本文主要抓取股吧的文章,内容包括:

  • 定义抓取Spider
  • 数据字段的定义
  • 内容解析
  • 数据存储到mysql
  • PyCharm调试scrapy

阅读更多

Pandas数据分析基础

使用pandas,首先导入包:

1
2
from pandas import Series, DataFrame
import pandas as pd

一、创建Series,DataFrame

1,创建Series

a,通过列表创建

1
2
obj = Series([4, 7, -5, 3])
obj2 = Series([4, 7, -5, 3], index=['d','b','a','c']) #指定索引

阅读更多

python 制作标签云

标签云是比较直观的频率分布表现方式,很多网站和APP在年度盘点和总结时会使用。Python生成标签云有一个比较易用的库 pytagcloud。


阅读更多

Python朴素贝叶斯分类器 - 自然语言处理

概念

朴素贝叶斯算法是一个直观的方法,使用每个属性属于某个类的概率来做预测。你可以使用这种监督性学习方法,对一个预测性建模问题进行概率建模。

给定一个类,朴素贝叶斯假设每个属性归属于此类的概率独立于其余所有属性,从而简化了概率的计算。这种强假定产生了一个快速、有效的方法。

阅读更多

人工智能和系统化交易招聘

某大型资产管理公司人工智能和系统化交易招聘
简历发送到: [js_recruit@163.com]

1. 人工智能/机器学习算法研究员

学历要求:博士
职位数量:2人

岗位职责:

  • 使用统计学习方法,挖掘投资者行为特征的数据。
  • 对金融海量数据,针对不同的学习问题,建立起一般性的数据源选择框架。
  • 对金融相关分类和预测性问题建模,并负责系统回测。
  • 与技术人员合作,参与大数据计算框架的设计和运行

阅读更多

python多线程与多进程 超简单使用

Python 的GIL限制了多核CPU的性能,对于IO密集型的程序,采用多线程能显著提高运行速度;但对于计算密集型的程序,多线程就没多少用了,采用多进程编程,就能充分利用多核CPU的性能,CPU占用率能达到100%。

  • 下面是在阿里云服务器上测试的数据:

配置:CPU:Xeon, E5-2680, 2.5GHz, 4核; 内存:16G, DDR4; 硬盘:100G, SSD

阅读更多

网页爬虫之cookie自动获取

本文实现cookie的自动获取,及cookie过期自动更新。

社交网站中的很多信息需要登录才能获取到,以微博为例,不登录账号,只能看到大V的前十条微博。保持登录状态,必须要用到Cookie。以登录www.weibo.cn 为例:

阅读更多