Django创建表单上传图片

IOS开发中需要为创建的数据保存到网络后台长久存储,刚开始想到的是直接连接mysql,但要在ios中安装mysql的控件,实在是麻烦。于是定义一个restful接口,通过http请求的方式来上传和获取数据,是一种比较方便的方式。
本文是基于Django框架,实现以下几个功能:

  • Model和ModelForm创建表单
  • POST上传图片

阅读更多

Scrapy结合Redis实现增量爬取

Scrapy适合做全量爬取,但是,我们不是一次抓取完就完事了。很多情况,我们需要持续的跟进抓取的站点,增量抓取是最需要的。
Scrapy与Redis配合,在写入数据库之前,做唯一性过滤,实现增量爬取。


一、官方的去重Pipeline

官方文档中有一个去重的过滤器:

阅读更多

【IOS开发】WKWebView封装APP

一年多没接触xcode了,这一年主要用python做开发,刹一接触xcode代码,还是有点陌生的感觉。在网上闲逛了一通,发现网上的ios教程用swift编写的比oc的多多了。看来苹果的swift推广的比较好。我偶尔写写简单的app,objective-c用过一段时间,这次还是用oc,swift等有时间了好好研究一下。
前段时间有朋友让做一个ipad程序,用webview封装一个网站,实现一个独立的app应用。
功能虽然简单,实现起来发现ios开发的好些功能都有涉及,丢了一年的ios开发中的概念捡起来不易,于是记录下来,以免后面重复造轮子时又忘了。

主要功能介绍:

  • 自适应iphone和ipad
  • 屏幕翻转自适应拉伸
  • 自定义导航栏返回按钮
  • 网页加载进度条显示
  • 主屏幕左滑后退

阅读更多

python结合G2绘制精美图形

一、简介

G2是阿里巴巴内部开放的数据可视化工具,提供丰富的图表类型,并且简单易上手,有比较完善的示例代码。其生成的图表简单漂亮,而且有JS互动显示,比较适合报告和文章插图。G2的数据来源是json格式数据。

G2绘制的图形


阅读更多

跟着分析师炒股系列(二)

在系列第一篇《跟着分析师炒股系列(一)》里,信谁大数据科学团队以分析师研报推荐的股票池,建立了一套股票组合轮动的交易策略,发掘出累积收益最高的一票分析师,其中最牛的招商证券分析师刘荣的累积收益竟达80倍!

不过,累积收益还可能包含运气成分,比如大牛市下推荐股票都大涨,还不能算真英雄。这一次我们来看看相对收益,看能不能找出穿越牛熊的分析师,尤其是最近一年熊市震荡下他们的表现如何。

延续上一篇的交易策略,筛选分析师评级为买入和增持的股票,形成股票池。
调仓周期为3个月。
选取分析师评级为“买入、增持”的股票。实现3个月一轮换。

阅读更多

跟着分析师炒股系列(一)

上一回,我们利用大数据展示了分析师研报预测与个股真实涨跌的对比情况,发现了不少“高言值”分析师,说明专业研究的价值。点击回顾《大数据教你挑选分析师
那么,结合个人实际持仓操作情况,如果我们就跟着分析师的推荐构建买卖组合,能取得怎样的成绩呢?
信谁大数据科学团队这次就以分析师研报推荐的股票池,建立了一套股票组合轮动的交易策略,来看看结果如何。
技术男的方法依然简单直接:
一名普通分析师每个月发表的研报数量大多数在5篇以上,但选股在精不在多,实际也不可能买入分析师推荐的所有股票。而短线投资对时间精力要求高,仍提倡中长期投资为主。信谁数据科学实验室制定了一个简单有效的交易策略:

阅读更多

大数据教你挑选分析师

每个证券公司都有一个分析师团队,不定期发布投资研究报告。分析师的研报准吗?分析师的“言值”究竟有多高?
“信谁”的大数据科学团队对这个问题也很好奇。究竟准不准,我们信数据不信故事。
技术男的方法非常简单暴力:

  1. 把分析师发布的研报预测与相关股票最后涨跌的结果作对比,判断该研报预测的准确性
  2. 把分析师发布的所有研报汇总起来,就得到分析预测的正确率,即“言值”,“言值”可以是从0-100分。
  3. 汇总所有分析师的数据,就可以得到全部分析师的“言值”分布。

阅读更多

Groupby使用小例子

最近需要根据已有的数据计算这样一组数据:

  • 股票名称
  • 股票代码
  • 推荐人数
  • 平均分数
  • 最大幅度

看到这样的需求,首先想到的是利用pandas的groupby功能。

一、获取数据

阅读更多

pandas GroupBy使用

一、GroupBy技术

GroupBy技术是Hadley Wickham(热门R语言包作者)创造的,用于表示分组运算,“split-apply-combine”(拆分 - 应用 - 合并)。

阅读更多

gensim文档相似度判断

在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。

文本相似度计算的需求始于搜索引擎,搜索引擎需要计算“用户查询”和爬下来的众多“网页”之间的相似度,从而把最相似的排在最前,返回给用户。

一、基本概念

TF-IDF

  • TF:term frequency,词频

$$ 词频(TF) = 某个词在文章中的出现次数 $$

阅读更多