多个时间序列数据转换成面板数据,时间序列数据处理步骤

如何将数据转换为时间序列数据

生活中股票、金融等数据是随着时间的变化的序列数据。这些数据是根据预定义的变量并在固定的间隔时间采集的。时间序列数据最主要的特征就是其顺序是非常关键的。

为了对这些数据进行分析和可视化，方法主要如下：

（1）加载数据：读取文本或者其他格式数据，本例中用到一个包含4列的文本文件，其中第一列表示年，第二列表示月，第三列和第四列表示数据，摘取部分：

2014,2,68.93,85.542014,3,65.96,53.192014,4,69.56,67.47data = np.loadtxt(input_filename, delimiter=',')

（2）由于数据是有序的，第一行是起始日期，而数据的最后一行是终止日期。需要提取出数据集的起始日期和终止日期：

# 提取起始日期和终止日期

start_date = str(int(data[0,0])) + '-' + str(int(data[0,1]))

end_date = str(int(data[-1,0] + 1)) + '-' + str(int(data[-1,1]% 12 +1))

（3）提取出数据后，我们可以用pandas模块自动生成连续月的序列，当然，也可以生成其他方式。

# 创建以月为间隔的变量

dates = pd.date_range(start_date, end_date, freq='M')

（4）将数据绑定到第3步提取的序列中。

# 将日期转换成时间序列

data_timeseries1= convert_data_to_timeseries(input_file, 2)

data_timeseries2= convert_data_to_timeseries(input_file, column_num)

(5)绘出数据。

data_timeseries2.plot()

plt.title('Data(%s-%s)'%(start_date,end_date))

plt.show()