python股票自动买卖,python爬取分析股票数据

微信公众号：Python金融量化

请注意，可以了解更多的金融和Python干货。若对你有帮助，请点赞Thanks()

前言现在有很多获取股票数据的渠道，基本上是免费的。例如，行情软件有同花顺、东方财富等，门户网站有新浪财经、腾讯财经、和信网等。 Python也有不少免费的开源api，包括pandas附带的库、tushare和baostock等，可以获取交易行情数据。 pandas库自从不支持雅虎数据库以来就很难使用了，但由于baostock最初记录的数据是2006年，因此本文主要介绍如何使用tushare获取股票交易数据和可视化分析。 tushare基本上从股票上市之日起就记录了所有的日交易数据，目前正在分析国内a股(也支持期货等其他非股市数据)

在阅读本文之前，建议学习和回顾【手把手教你】系列文章，熟悉pandas、tushare、numpy、matplotlib等软件包的使用方法。否则，你可能会很难阅读后面的代码。

获取股票数据tushare包中的get_k_data (使用函数获取股票交易数据。具体而言，可以使用help(ts.get_k_data )命令了解函数和参数的含义。

#后可能使用的软件包(package ) importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt )正常画画时出现的中文from py lab import 使用MicrosoftYahoo字体mpl.rcparams [ ' font.sans-serif ' ]=[ ' simhei ' ] #绘图时使用减号mpl.rcparams [ ' axes.unicon=显示falson jupyter notebook特有的幻灯片命令#图形%在线直接显示%matplotlib inline的小试牛刀：获取上证指数发布以来的数据

sh=ts.get_k_data(code='sh '，ktype='D '，autype='qfq '，start='1990-12-20 ' ) #code:股票代码，股‘m’:月数据，‘y’:年数据#autype:复权选择，默认‘qfq’前复权#start :开始时间#end :默认当前时间#查看以下数据的前5行sh.head(5 ()

#将数据列表中的第0列“date”设置为索引sh.index=PD.to _ datetime (sh.date ) )上证指数收盘价的趋势sh['close'].plot ) fig sizzze

从上面的指数走势图也可以看出，股价指数分别在2007年和2015年有两大牛市，之后从xydpj跌至谷底，目前处于下跌之路。真是辛苦了28年，一夜之间回到了解放前的o(((o ) )

下表列出了描述性统计#pandas的describe (函数为数据描述性统计#count:数据示例、mean:平均值、std:标准差sh.describe ).round(2) )的结果。

openclosehighlowvolumecount 6645.006645.006645.006.645000 e 03 mean 1936.271937.521954.791916.327.017766666 4.771174.801185.981162.315.103069 e 065044.041741.621755.6955 301.086010 e08 max 6057.436092.046040.718.57132224 可以看出，上证指数从1990年12月20日至2018年11月7日(最后一个交易日为当前运行时间)，共有6645个样本，平均值为1990年12月20日

#另外，看看每天的成交量吧。 #2006年市场容量小，交易量比较小。从2007年开始查看sh.loc [ ' 2007-01-01 ' : ] [ ' volume ' ].plot [ fig size=(12，6 ) ]PLT .

上图的成交量反映了有趣的现象。 2014-2015年的大牛市很可能是由天量交易推动的。在此期间，实体经济不景气，央行多次举行降息降准、货币宽松、资金流入股市、银行理财等影子银行

疯狂扩张，场外加杠杆和配资主导了这一场牛市。感兴趣的朋友可以结合货币供给、实体经济指标、影子银行等数据一起分析，进行交叉验证。

均线分析 #这里的平均线是通过自定义函数，手动设置20,52,252日均线#移动平均线：ma_day = [20,52,252]for ma in ma_day: column_name = "%s日均线" %(str(ma)) sh[column_name] =sh["close"].rolling(ma).mean()#sh.tail(3) #画出2010年以来收盘价和均线图sh.loc['2010-10-8':][["close","20日均线","52日均线","252日均线"]].plot(figsize=(12,6))plt.title('2010-2018上证指数走势图')plt.xlabel('日期')plt.show()

上证指数的收益率和波动率 #2005年之前的数据噪音太大，主要分析2005年之后的sh["日收益率"] = sh["close"].pct_change()sh["日收益率"].loc['2005-01-01':].plot(figsize=(12,4))plt.xlabel('日期')plt.ylabel('收益率')plt.title('2005-2018年上证指数日收益率')plt.show()

###这里我们改变一下线条的类型#(linestyle)以及加一些标记(marker)sh["日收益率"].loc['2014-01-01':].plot(figsize=(12,4),linestyle="--",marker="o",color="g")plt.title('2014-2018年日收益率图')plt.xlabel('日期')plt.show()

多个股票指数（或者个股）情况 #分析下常见的几个股票指数stocks={'上证指数':'sh','深证指数':'sz','沪深300':'hs300', '上证50':'sz50','中小板指':'zxb','创业板':'cyb'}stock_index=pd.DataFrame()for stock in stocks.values(): stock_index[stock]=ts.get_k_data(stock,ktype='D', autype='qfq', start='2005-01-01')['close'] #stock_index.head() #计算这些股票指数每日涨跌幅tech_rets = stock_index.pct_change()[1:]#tech_rets.head() #收益率描述性统计tech_rets.describe()#结果不在此报告 #均值其实都大于0tech_rets.mean()*100 #转换为%

对上述股票指数之间的相关性进行可视化分析：

#jointplot这个函数可以画出两个指数的”相关性系数“，或者说皮尔森相关系数sns.jointplot('sh','sz',data=tech_rets)

#成对的比较不同数据集之间的相关性，而对角线则会显示该数据集的直方图sns.pairplot(tech_rets.iloc[:,3:].dropna())

returns_fig = sns.PairGrid(tech_rets.iloc[:,3:].dropna())###右上角画散点图returns_fig.map_upper(plt.scatter,color="purple") ###左下角画核密度图 returns_fig.map_lower(sns.kdeplot,cmap="cool_d") ###对角线的直方图 returns_fig.map_diag(plt.hist,bins=30)

收益率与风险

金融分析上常常使用均值和标准分别刻画股票指数的收益率和风险（波动率）。

#构建一个计算股票收益率和标准差的函数#默认起始时间为'2005-01-01'def return_risk(stocks,startdate='2005-01-01'): close=pd.DataFrame() for stock in stocks.values(): close[stock]=ts.get_k_data(stock,ktype='D', autype='qfq', start=startdate)['close'] tech_rets = close.pct_change()[1:] rets = tech_rets.dropna() ret_mean=rets.mean()*100 ret_std=rets.std()*100 return ret_mean,ret_std#画图函数def plot_return_risk(): ret,vol=return_risk(stocks) color=np.array([ 0.18, 0.96, 0.75, 0.3, 0.9,0.5]) plt.scatter(ret, vol, marker = 'o', c=color,s = 500,cmap=plt.get_cmap('Spectral')) plt.xlabel("日收益率均值%") plt.ylabel("标准差%") for label,x,y in zip(stocks.keys(),ret,vol): plt.annotate(label,xy = (x,y),xytext = (20,20), textcoords = "offset points", ha = "right",va = "bottom", bbox = dict(boxstyle = 'round,pad=0.5', fc = 'yellow', alpha = 0.5), arrowprops = dict(arrowstyle = "->", connectionstyle = "arc3,rad=0")) stocks={'上证指数':'sh','深证指数':'sz','沪深300':'hs300', '上证50':'sz50','中小板指数':'zxb','创业板指数':'cyb'}plot_return_risk()

stocks={'中国平安':'601318','格力电器':'000651', '招商银行':'600036','恒生电子':'600570', '中信证券':'600030','贵州茅台':'600519'}startdate='2018-01-01'plot_return_risk()

蒙特卡洛模拟分析

蒙特卡洛模拟是一种统计学方法，用来模拟数据的演变趋势。蒙特卡洛模拟是在二战期间，当时在原子弹研制的项目中，为了模拟裂变物质的中子随机扩散现象，由美国数学家温暖的面包和乌拉姆等发明的一种统计方法。之所以起名叫蒙特卡洛模拟，是因为蒙特卡洛在是欧洲袖珍国家摩纳哥一个城市，这个城市在当时是非常著名的一个赌城。因为赌博的本质是算概率，而蒙特卡洛模拟正是以概率为基础的一种方法，所以用赌城的名字为这种方法命名。蒙特卡洛模拟每次输入都随机选择输入值，通过大量的模拟次数，最终得出一个累计概率分布图。

df=ts.get_k_data('sh',ktype='D', autype='qfq', start='2005-01-01')df.index=pd.to_datetime(df.date)tech_rets = df.close.pct_change()[1:]rets = tech_rets.dropna()#rets.head() #下面的结果说明，我们95%的置信，一天我们不会损失超过0.0264...rets.quantile(0.05) -0.026496813699825043

构建蒙特卡洛模拟函数：

def monte_dldbz(start_price,days,mu,sigma): dt=1/days price = np.zeros(days) price[0] = start_price shock = np.zeros(days) drift = np.zeros(days) for x in range(1,days): shock[x] = np.random.normal(loc=mu * dt, scale=sigma * np.sqrt(dt)) drift[x] = mu * dt price[x] = price[x-1] + (price[x-1] * (drift[x] + shock[x])) return price #模拟次数runs = 10000start_price = 2641.34 #今日收盘价days = 252mu=rets.mean()sigma=rets.std()simulations = np.zeros(runs)for run in range(runs): simulations[run] = monte_dldbz(start_price, days,mu,sigma)[days-1]q = np.percentile(simulations,1)plt.figure(figsize=(8,6))plt.hist(simulations,bins=50,color='grey')plt.figtext(0.6,0.8,s="初始价格: %.2f" % start_price)plt.figtext(0.6,0.7,"预期价格均值: %.2f" %simulations.mean())plt.figtext(0.15,0.6,"q(0.99: %.2f)" %q)plt.axvline(x=q,linewidth=6,color="r")plt.title("经过 %s 天后上证指数模拟价格分布图" %days,weight="bold") Text(0.5,1,'经过 252 天后上证指数模拟价格分布图')

实际上蒙特卡洛模拟在期权定价里面还是很有用的。我们借用期权定价里对未来股票走势的假定来进行蒙特卡洛模拟。

import numpy as npfrom time import timenp.random.seed(2018)t0=time()S0=2641.34T=1.0; r=0.05; sigma=rets.std()M=50;dt=T/M; I=250000S=np.zeros((M+1,I))S[0]=S0for t in range(1,M+1): z=np.random.standard_normal(I) S[t]=S[t-1]*np.exp((r-0.5*sigma**2)*dt+sigma*np.sqrt(dt)*z)s_m=np.sum(S[-1])/Itnp1=time()-t0print('经过250000次模拟，得出1年以后上证指数的预期平均收盘价为：%.2f'%s_m) 经过250000次模拟，得出1年以后上证指数的预期平均收盘价为：2776.85 %matplotlib inlineimport matplotlib.pyplot as pltplt.figure(figsize=(10,6))plt.plot(S[:,:10])plt.grid(True)plt.title('上证指数蒙特卡洛模拟其中10条模拟路径图')plt.xlabel('时间')plt.ylabel('指数')plt.show()

plt.figure(figsize=(10,6))plt.hist(S[-1], bins=120)plt.grid(True)plt.xlabel('指数水平')plt.ylabel('频率')plt.title('上证指数蒙特卡洛模拟') Text(0.5,1,'上证指数蒙特卡洛模拟')

关于CuteHand

能告诉你每天星座运势，查天气、附近酒店、股票行情，讲笑话、小故事，聊天互动聊天，不定期分享原创经济金融干货，手把手教你使用Python做金融数据分析。分享知识，点亮智慧，欢迎关注CuteHand，一起学习，一起进步!

精彩回顾

Python金融数据分析系列：

【手把手教你】Python金融财务分析
【手把手教你】Python获取财经数据和可视化分析
【手把手教你】玩转Python量化金融工具之NumPy
【手把手教你】玩转Python金融量化利器之Pandas