首页 > 编程知识 正文

r软件导入数据,r语言如何导出数据

时间:2023-05-06 14:31:23 阅读:13709 作者:186

1 .为什么是r? 目前,在数据科学、深度学习领域最受欢迎的是Python,为什么要学习r语言,Python和r的优势分别在哪里?

简而言之,r语言更适用和研究,偏数理统计,小巧精致,适合未来科研学术。 Python在工业领域、普适性、通用性、计算性能好,适合程序员和企业进军。

具体参考善良的白汤老师翻译的r用于研究,Python用于生产,英语原文地址为R is for Reasearch,Python is for Production。

所以首先需要确定自己的需求,r不一定适合所有人。 如果你想认真学习编程思维、基础逻辑,r就不是好选择。 但是,如果只是需要工具来实现问题的分析、建模、说明、展示,r是个好选择。 r语言适合高校研究从事数据分析、数据可视化、数理统计建模。 数据科学的基本流程如图所示,r可以愉快地实现数据分析的所有流程。

2 .什么是r? 什么是Rstudio? r是运行计算的编程语言,RStudio是集成开发环境(IDE ),它通过添加许多有用的功能和工具提供接口。 此外,使用RStudio接口还可以方便地使用r。 当然,也有很多IDE可以用于r语言编程,如Sense、RIDE、Jupyter notebook和VS code,但它们需要相对较高的门槛,而且所有使用Rstudio的r编程都需要

3 .要安装r和Rstudio,必须先在电脑上安装r和Rstudio。 顺序必须先安装r,然后再安装Rstudio。

3.1安装r官网下载地址为https://cloud.r-project.org/,但该网站在国外,下载速度很慢。 推荐国内的后视镜站:

清华大学来源https://mirrors.tuna.Tsinghua.edu.cn/cran /同济大学来源https://mirrors.Tongji.edu.cn/cran如果你是Windows,Mac os, 如果是Linux用户,则分别单击对应。“downloadrfor(MAC )”、“Download R for Linux”只需下载最新版本的R-4.1.0即可。

如果是Windows用户建议不要安装在系统盘内,且安装路径一定要是英文,不能有空格,如果Windows系统用户名是中文应先改成英文。

3.2安装rstudio并找到“installersforsupportedplatforms”按钮,下载与您的计算机系统对应的rstudio客户端版本。

33559 www.rstudio.com/products/rstudio/download /

安装Rstudio后,打开界面并显示以下内容:

用Rstudio怎么编程? 目前正在安装r和RStudio。 “现在我怎么用r? ”。 首先,需要注意的是,与其他提供点击式接口的统计软件程序(如Excel和SPSS )不同,r是说明语言。 也就是说,必须输入用r代码编写的命令。 也就是说,必须用r进行编码/编程。

使用r不一定是经验丰富的编程人员/计算机编程人员,但是如果要接触新的编程语言,则需要理解基本的编程概念。

下面是一些基本编程的概念和术语。

基本:

控制台面板:输入命令的位置。

运行代码执行代码:通过在控制台中提供命令,向r传达执行某个动作的行为。

数据类型: integers整数、双精度/数字、逻辑和字符。 整数的值类似于-1、0、2、4092。 双精度或数字是一组较大的值,既包含整数、分数,也包含较小的数值,如-24.932和0.8。 逻辑为TRUE或FALSE,字符为“你”、“我”、“r语言真好”等文本。 请注意,字符通常用引号括起来。

向量:一系列值。 它们是使用c (函数创建的。 其中c )表示“组合”或“连接”。 例如,c(2、11、22、33、91和99 )创建六元素系的正整数值。

factors因子:分类数据通常用r表示为因子。 分类数据也可以表示为字符串。 成绩可以分为优、良、合格。

data frames数据框:这些是r中数据集的表示形式,其中行对应于观测,列对应于描述观测的变量。

协调条件:

r中=赋值用,==用于测试是否相等。 例如,3 4==7判断3 4是否为7,并返回TRUE。 3 4=7时发生错误

布尔代数: TRUE/FALSE语句和数学运算符。 “小于”、“=以下”、“!=(不等于)。 例如,4(2=3返回TRUE,而3 )5=1返回FALS

E。

逻辑运算符:& 表示“与”以及 |代表“或”。例如, (2 + 1 == 3) & (2 + 1 == 4) 返回 FALSE,因为两个子句都不为 TRUE(只有第一个子句为 TRUE)。另一方面, (2 + 1 == 3) | (2 + 1 == 4) 返回 TRUE,因为这两个子句中至少有一个是 TRUE。

Functions函数,也称为命令:函数在 R 中执行任务。它们接受称为参数的输入并返回输出。可以手动指定函数的参数或使用函数的默认值。
例如,R 中的函数 rnorm() 随机生成正态分布的数。rnorm(n, mean=0, sd=1), n为生成数字的个数,mean均值和sd标准差默认为0和1。你可以自己修改,在命令窗口输入`rnorm(3,mean=2,sd=3)``,按下enter.

5. R packages 安装使用

R各种类型的包package可以说是R最大的特色了,比如最为出名的ggplot2可视化包。那什么是R packages呢?如果把R作为一个手机的底层程序编码,那么package 就是手机上的各个APP。

R一些常用流行的包主要包括:

数据导入:

readr导入csv/fwf文件, readxl导入.xls/.xlsx文件, haven导入SPSS/Stata/SAS文件

数据处理

tidyverse , data.table

数据可视化

ggplot2, cowplot.

5.1 包的安装 安装包也建议切换为国内镜像源

点击 [Tools] ---- [Global Options…], 点击 Packages, 点击Change 修改为清华大学镜像源,China(Beijing1)

安装官方包,一般情况下大部分常用的包都可以官方安装 install.packages("tidyverse")install.packages("haven") 安装Github来源的包, 需要先安装devtools包后才可以安装github来源的包 install.packages("devtools")devtools::install_github("tidyverse")remotes::install_github("tidyverse") 加载包 library(tidyverse) ## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.0 ── ## ✓ ggplot2 3.3.3 ✓ purrr 0.3.4## ✓ tibble 3.1.1 ✓ dplyr 1.0.5## ✓ tidyr 1.1.3 ✓ stringr 1.4.0## ✓ readr 1.4.0 ✓ forcats 0.5.1 ## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──## x dplyr::filter() masks stats::filter()## x dplyr::lag() masks stats::lag() library(data.table) ## ## Attaching package: 'data.table' ## The following objects are masked from 'package:dplyr':## ## between, first, last ## The following object is masked from 'package:purrr':## ## transpose library(ggplot2)library(bruceR) ## ## ⚡ bruceR: BRoadly Useful Convenient and Efficient R functions## ## Loaded R packages:## [Data]: rio / dplyr / tidyr / stringr / forcats / data.table## [Stat]: psych / emmeans / effectsize / performance## [Plot]: ggplot2 / ggtext / cowplot / see## ## Frequently used functions in `bruceR`:## set.wd() / Describe() / Freq() / Corr() / Alpha() / MEAN()## MANOVA() / EMMEANS() / model_summary() / theme_bruce() 更新包 update.packages("ggplot2")# 更新所有包update.packages() 删除包 remove.packages("data.table") 6. Your first Projects 创建你的第一个项目

通过以上的配置对于R,Rstudio和Packages有了基本的认识。现在假设你有一个数据,你想对其进行数据处理分析建模解释等等一系列的工作。那么可以简单分为以下几个步骤:

在Rstudio内创建一个Project项目

[File] — [New Project] — [New Directory] — [New Project]

输入你的项目名称【“first project”】,选择项目存储位置,注意存储路径不要有中文。确定,这时候在你屏幕的右上角你就可以看到你的项目名称了。

新建R脚本编写R代码

创建 [R Script], 命名"first.R", 保存到你项目的保存文件夹内。

查看你的项目路径 getwd() ## [1] "/Users/cpf/Documents/paper/writting_blog/paper_sections" 安装和加载需要使用的包 install.packages("tidyverse")install.packages("bruceR") library(tidyverse)library(bruceR) 导入数据集

使用import函数可以导入csv,exel等多种格式的文件,优先建议使用这个函数导入。

# mydata = import("~/yourpath/data.csv")# 也可以使用R自带的数据集data("weather", package = "nycflights13") 查看你的数据集 glimpse(weather) ## Rows: 26,115## Columns: 15## $ origin <chr> "EWR", "EWR", "EWR", "EWR", "EWR", "EWR", "EWR", "EWR", "EW…## $ year <int> 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013,…## $ month <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,…## $ day <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,…## $ hour <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 13, 14, 15, 16, 17, 18, …## $ temp <dbl> 39.02, 39.02, 39.02, 39.92, 39.02, 37.94, 39.02, 39.92, 39.…## $ dewp <dbl> 26.06, 26.96, 28.04, 28.04, 28.04, 28.04, 28.04, 28.04, 28.…## $ humid <dbl> 59.37, 61.63, 64.43, 62.21, 64.43, 67.21, 64.43, 62.21, 62.…## $ wind_dir <dbl> 270, 250, 240, 250, 260, 240, 240, 250, 260, 260, 260, 330,…## $ wind_speed <dbl> 10.35702, 8.05546, 11.50780, 12.65858, 12.65858, 11.50780, …## $ wind_gust <dbl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, 20.…## $ precip <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,…## $ pressure <dbl> 1012.0, 1012.3, 1012.5, 1012.2, 1011.9, 1012.4, 1012.2, 101…## $ visib <dbl> 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10,…## $ time_hour <dttm> 2013-01-01 01:00:00, 2013-01-01 02:00:00, 2013-01-01 03:00… 清洗处理你的数据集,本章不侧重分析这个环节。数据处理具体细节可看我另一个回答里推荐的书籍,推荐使用tidyverse工作流处理清晰数据。
R语言数据分析入门推荐书籍 # mydata2 = weather %>% select(c(year, month, hour, temp, dewp, humid)) %>% # 选择这些列 filter(year == 2013) %>% # 选择2013年的观测 mutate(yearnew = year + 1) # 创建新列yearnew glimpse(mydata2) ## Rows: 26,115## Columns: 7## $ year <int> 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 2013, 20…## $ month <int> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,…## $ hour <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 13, 14, 15, 16, 17, 18, 19,…## $ temp <dbl> 39.02, 39.02, 39.02, 39.92, 39.02, 37.94, 39.02, 39.92, 39.92,…## $ dewp <dbl> 26.06, 26.96, 28.04, 28.04, 28.04, 28.04, 28.04, 28.04, 28.04,…## $ humid <dbl> 59.37, 61.63, 64.43, 62.21, 64.43, 67.21, 64.43, 62.21, 62.21,…## $ yearnew <dbl> 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 20… 导出你修改完的数据集 export(mydata2, file= "~/yourpath/.mydata2.csv")

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。