首页 > 编程知识 正文

python图表分析,python大数据可视化

时间:2023-05-06 11:17:55 阅读:141845 作者:2241

这是学习笔记的第2381篇文章

最近在考虑如何分析个人的旅行数据,才能从旅行数据中分析出什么。 一开始期待很高,但有以下期待。

根据出行时间的范围,可以基本确定他的生活节奏、工作强度

可以根据旅行时间范围推测车的尾号

根据出行所需时间的历史提出出行时间

如果能分析这些信息,我觉得非常有趣,所以自己开始了。 第一个问题是数据源。 导航软件目前不提供旅游数据导出,所以我按照导航时间表逐一整理了7-8个月的旅游数据。 大体上的数据状况很好,但其中也有进行了时间处理等追加处理的数据。 如果是7:15,那么在数字显示中不是7.15,更合理的显示是7.4,还有旅行时间。 例如,1:30需要统一在分钟90分钟内整合。 整理的数据如下。

首先,根据时间分析了日程的时间,结果这个数据好像不太理想。 原本预计会很稳定,但我打算根据这个数据进行预测。

在这种情况下,必须改变想法。 首先来看看数据的整体分布。 使用条形图其实并不能很好地表示数据的分布状况。 有些日程与早上和晚上的日程一样,日程之间没有直接的关系,所以由于时间的不同,条形图的图案反而会大幅抖动。

以下是各行程的时间分布图。

以下是行程出发时间的分布情况,基本上在6:30~7:00之间开始出发,晚上基本上在20:00左右回去。

根据周一至周日的行程时间分布,周二的行程分布明显较少,不如周六、周日,由此可以推测很可能是因为限号。

当然,前面提到的两个指标,一个是旅行需要时间,一个是出发时间,一个是路程。 因为路程和花费时间有一定的关联,换算下来折中的指标是平均速度。 因此,在平均速度分布情况下,星期一和星期五最拥堵,相对于星期四和星期六最畅通。

与一般可视化不同,引入箱线图后发现,平均行程时间为45分钟左右,区间基本为30-60分钟。

其实到这里为止分析了数据,有很大的不同。 虽然进行了一些分析,但有些指标还没有充分使用。 另外,显示的指标情况还不清楚,我打算使用seaborn进一步调整。

以下是旅行距离、旅行时间和星期几的综合分布图。

以下是星期几和日程需要时间的分布图,比以前的分布图更清楚。

我们继续引入平均速度,把出发时间和星期几联系起来,整个日程可以看到明显的分水岭。 早上和晚上几乎都是工作日,其他时间几乎都是周末。

进一步探索这些数据指标之间的关联,需要引入稍微复杂的图表PairGrid,可以加入多个指标,可以生成多个维度的分布图。

其次,需要进一步分析数据的指标状况,引入检查和预测的功能。

各平台都可以找到我的微信公众号:敏感害羞学习笔记

Github:@jeanron100

CSDN:@jeanron100

知乎: @jeanron100

头条号: @敏感害羞学习笔记

网易号: @敏感害羞的数据库笔记本

大鱼号: @敏感害羞的数据库笔记本

腾讯云社区: @敏感害羞学习笔记

原创热文:

在维护之夜,讲故事和经验

为什么MySQL几乎不使用分区表

新年大吉总结了以下感想

《大江大河2》最感动我的经典对话

MySQL 8.0给开发方向带来的几点困扰

迁移到MySQL的业务体系结构的演进

如何优化MySQL千万级单身鸡,我写了6000字的解读

在经典的MySQL问题中,答案翻转了三次

xhdnm学习MySQL多久? 我整理了十多个问题的答案

http://www.Sina.com/http://www.Sina.com /

QQ群的二维码如下。 要添加,请注明“姓名地区的职位,否则不通过”

请点击QQ群号:向更多人展示

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。