本文首发于民众号:“生信补给站” Tidyverse| XX_join :多个数据表(文件)之间的种种毗邻

前面分享了单个文件中的select列filter行列拆分等,现实中经常是多个数据表,综合使用才气回覆你所感兴趣的问题

本次简朴的先容多个表(文件)毗邻的方式。

一 载入数据,R包

library(tidyverse)
x <- tribble(
 ~key, ~val_x,
    1, "x1",
    2, "x2",
    3, "x3"
)
y <- tribble(
 ~key, ~val_y,
    1, "y1",
    2, "y2",
    4, "y3"
)

 

二 合并数据

向数据框中加入新变量,新变量的值是另一个数据框中的匹配观察。

 

1 毗邻方式

1) 内毗邻 inner_join

内毗邻是最简朴的一种毗邻,只要两个观察的键是相等的,即可匹配。

 

注释:匹配在现实的毗邻操作中是用圆点示意的。圆点的数目 = 匹配的数目 = 效果中行的数目。下同

x %>% 
 inner_join(y, by = "key")
# A tibble: 2 x 3
    key val_x val_y
  <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2

内毗邻最主要的性子是,没有匹配的行不会包含在效果中。容易丢失观察,慎用。

 

2) 外毗邻

外毗邻则保留至少存在于一个表中的观察。外毗邻有 3 种类型: • 左毗邻 left_join:保留 x 中的所有观察。 • 右毗邻 right_join:保留 y 中的所有观察 • 全毗邻 full_join:保留 x 和 y 中的所有观察。

x %>%
left_join(y, by = "key")
# A tibble: 3 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     3 x3    <NA>
x %>%
right_join(y, by = "key")
# A tibble: 3 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     4 <NA>  y3
x %>%
full_join(y, by = "key")
# A tibble: 4 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     3 x3    <NA>
4     4 <NA>  y3

 

 

2 重复键

以上均假设键具有唯一性,但情形并非总是云云。

若是x中的key变量,在y中有多个同样的key,那么所有的连系可能都市枚举出来

x1 <- tribble(
 ~key, ~val_x,
    1, "x1",
    2, "x2",
    2, "x3",
    1, "x4"
)
y1 <- tribble(
 ~key, ~val_y,
    1, "y1",
    2, "y2"
)
left_join(x1, y1, by = "key")
# A tibble: 4 x 3
    key val_x val_y
  <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     2 x3    y2  
4     1 x4    y1

 

3 界说毗邻键

1) 默认值 by = NULL

使用存在于两个表中的所有变量,这种方式称为自然毗邻。

left_join(x, y)
Joining, by = "key"
# A tibble: 3 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     3 x3    <NA>

 

2) 界说匹配键 by = c("a" = "b")

匹配 x 表中的 a 变量和 y 表中的 b 变量,输出效果中使用的是 x 表中的变量。

y_1 <- tribble(
 ~key2, ~val_y,
    1, "y1",
    2, "y2"
)
left_join(x, y_1, by = c("key" = "key2"))
# A tibble: 3 x 3
   key val_x val_y
 <dbl> <chr> <chr>
1     1 x1    y1  
2     2 x2    y2  
3     3 x3    <NA>

 

3) 多个匹配键

x2 <- tribble(
 ~key,~key1, ~val_x,
    1, 2018,"x1",
    2, 2019,"x2",
    3, 2019,"x3"
)
y2 <- tribble(
 ~key, ~key1,~val_y,
    1, 2018,"y1",
    2, 2018,"y2",
    4, 2019,"y3"
)
inner_join(x2,y2,by = c("key","key1"))
# A tibble: 1 x 4
   key  key1 val_x val_y
 <dbl> <dbl> <chr> <chr>
1     1  2018 x1    y1  

 

三 筛选毗邻

筛选毗邻匹配观察的方式与合并毗邻相同,但前者影响的是观察,而不是变量。筛选毗邻 有两种类型。

semi_join函数
  • 保留 x 表中与 y 表中的观察相匹配的所有观察

联博开奖网:Tidyverse| XX_join :多个数据表(文件)之间的种种毗邻 第1张

semi_join(x, y, by = "key")
# A tibble: 2 x 2
   key val_x
 <dbl> <chr>
1     1 x1  
2     2 x2

 

anti_join函数
  • 抛弃 x 表中与 y 表中的观察相匹配的所有观察。

联博开奖网:Tidyverse| XX_join :多个数据表(文件)之间的种种毗邻 第2张

 

anti_join(x, y, by = "key")
# A tibble: 1 x 2
   key val_x
 <dbl> <chr>
1     3 x3

 

参考资料:

https://r4ds.had.co.nz/

《R数据科学》

 

【以为不错,右下角点个“在看”,期待您的转发,谢谢!】

 

,

Allbet Gaming

www.slwgd.com欢迎进入欧博平台网站(Allbet Gaming),Allbet Gaming开放欧博平台网址、欧博注册、欧博APP下载、欧博客户端下载、欧博真人游戏(百家乐)等业务。

发布评论

分享到:

allbet官网开户网址:疯牛刹车?社保减持突袭,热门牛股团体熄火!爆买600亿后,“伶俐资金”突然掉头!成交再破万亿,专家又发声
2 条回复
  1. 电银付大盟主
    电银付大盟主
    (2021-02-27 00:02:59) 1#

    不外,此前安兔兔也曝光过华为P40系列的跑分成就。据悉,安兔兔在后台发现一台型号为ELS-AN00的华为装备,通过华为官网查询之后确认这正是华为P40 Pro,存储为8+128GB版本。其显示,华为P40 Pro的总分为482457CPU成就为153441GPU为173021MEM成就85542UX成就折算70453。从这个成就来看,P40系列和此前搭载麒麟990 5G平台的机型基本上保持一致。应该算中上水平

  2. AllbetGaming开户
    AllbetGaming开户
    (2021-03-29 00:03:15) 2#

    欧博网址开户www.allbet6.com欢迎进入欧博网址(Allbet Gaming),欧博网址开放会员注册、代理开户、电脑客户端下载、苹果安卓下载等业务。很有想法

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。