# Pour le datascience
library(tidyverse, warn.conflicts = FALSE)

-- Attaching packages --------------------------------------- tidyverse 1.3.2 --
v ggplot2 3.4.2     v purrr   1.0.2
v tibble  3.2.1     v dplyr   1.1.4
v tidyr   1.3.1     v stringr 1.5.0
v readr   2.1.5     v forcats 1.0.0
-- Conflicts ------------------------------------------ tidyverse_conflicts() --
x dplyr::filter() masks stats::filter()
x dplyr::lag()    masks stats::lag()

library(readxl)

# Aussi foreign
library(haven, warn.conflicts = FALSE)

library(labelled, warn.conflicts = FALSE)

# try() pour prevenir les bugs
# data()
# data(package = .packages(all.available = TRUE))
data(package = c("dplyr", "stringr"))

data("fruit", package = "stringr")

data("storms", package = "dplyr")

str(storms)

tibble [19,537 x 13] (S3: tbl_df/tbl/data.frame)
 $ name                        : chr [1:19537] "Amy" "Amy" "Amy" "Amy" ...
 $ year                        : num [1:19537] 1975 1975 1975 1975 1975 ...
 $ month                       : num [1:19537] 6 6 6 6 6 6 6 6 6 6 ...
 $ day                         : int [1:19537] 27 27 27 27 28 28 28 28 29 29 ...
 $ hour                        : num [1:19537] 0 6 12 18 0 6 12 18 0 6 ...
 $ lat                         : num [1:19537] 27.5 28.5 29.5 30.5 31.5 32.4 33.3 34 34.4 34 ...
 $ long                        : num [1:19537] -79 -79 -79 -79 -78.8 -78.7 -78 -77 -75.8 -74.8 ...
 $ status                      : Factor w/ 9 levels "disturbance",..: 7 7 7 7 7 7 7 7 8 8 ...
 $ category                    : num [1:19537] NA NA NA NA NA NA NA NA NA NA ...
 $ wind                        : int [1:19537] 25 25 25 25 25 25 25 30 35 40 ...
 $ pressure                    : int [1:19537] 1013 1013 1013 1013 1012 1012 1011 1006 1004 1002 ...
 $ tropicalstorm_force_diameter: int [1:19537] NA NA NA NA NA NA NA NA NA NA ...
 $ hurricane_force_diameter    : int [1:19537] NA NA NA NA NA NA NA NA NA NA ...

storms <- as.data.frame(storms)
fruit <- as.data.frame(fruit)

str(storms$name)

 chr [1:19537] "Amy" "Amy" "Amy" "Amy" "Amy" "Amy" "Amy" "Amy" "Amy" "Amy" ...

attach(storms)

str(year)

 num [1:19537] 1975 1975 1975 1975 1975 ...

detach(storms)

# load(file = "myenv.RData")
save(storms, file = "myenv.RData")

# load(file = "mydb.rda")
save(storms, file = "mydb.rda")

# load(file = ".RData")
save.image()

# Format SPSS
write_sav(storms, bd <- tempfile(fileext = ".sav"))

# Renommer et enregistrer dans le repértoire courant
file.rename(bd, "storms.sav")

# Importation de la base SPSS
dat <- read_sav("storms.sav", col_select = c(1:5), n_max = 10)

# long (type décimal) est un nom réservé dans stata
write_dta(rename(storms, gpslong = long), bd <- tempfile(fileext = ".dta"))

file.rename(bd, "storms.dta")

dat <- read_dta("storms.dta", col_select = c(1:5), n_max = 10)

write_xpt(storms, bd <- tempfile(fileext = ".xpt"))

file.rename(bd, "storms.xpt")

dat <- read_xpt("storms.xpt", col_select = c(1:5), n_max = 10)

# write.table()
write_delim(storms, "storms.csv", delim = ",")

# Lire un fichier csv
dat <- read_delim(choose.files(), delim = ",", show_col_types = FALSE)

# Lire un fichier csv
dat <- read.delim(choose.files(), sep = ",")

# Lire un fichier csv
dat <- data.table::fread(choose.files(), select = c("name", "day", "category"))

# Lire un fichier csv
dat <- read_csv(choose.files(), show_col_types = FALSE)

# Lire un fichier csv
dat <- read.csv(choose.files())

# Sauvegarder au format csv avec point-virgule
write_delim(storms, "storms2.csv", delim = ";")

# Lire un fichier csv avec point-virgule
dat <- read_csv2(choose.files(), show_col_types = FALSE)

# Lire un fichier csv point-virgule
dat <- read.csv2(choose.files())

# read_xls() and read_xlsx() 
dat <- read_excel(choose.files(), range = "STORMS!C2:G10")

# Impoter un fichier excel
dat <- read_excel(choose.files(), sheet = 1, range = cell_rows(2:10))

# Package readxl
readxl_example()

# Parenthèse pour afficher malgré l'assignation
readxl_example("datasets.xlsx")

# Importer directement le fichier
system.file("extdata", "datasets.xlsx", package = "readxl")

# Les feuilles du classeur excel
excel_sheets(readxl_example("datasets.xlsx"))

# Importer la feuille 1
dat <- read.xlsx(readxl_example("datasets.xlsx"), sheetIndex = 1)

# Importer la feuille mtcars
dat <- read_excel(readxl_example("datasets.xlsx"), sheet = "mtcars")

# Noms des variables
names(storms)

# Dimension de la base: lignes x colonnes
dim(storms)

# Les noms des variables
dimnames(storms)[2]

# Trois premières observations
dat <- head(storms, 3)

# Sept dernières observations
dat <- tail(storms, 7)

# Quelques observations
dat <- storms[c(2,4:6), ]

# Exclusion d'observations
dat <- storms[-c(2,7:19535), ]

# # Observations vérifiant des critères
dat <- storms[which(storms$name == 'Amy' & between(storms$day, 25, 30)), ]

# slice_head, slice_tail, slice_min, slice_max, slice_sample
dat <- slice(storms, 19530:n())

# Quelques observations aléatoirement fixées
set.seed(1234)
dat <- distinct(storms[sample(1:19537, 19537),], status, .keep_all = TRUE)

# Suppression de variables
dat$mouth <- NULL
dat[,c(9,12:13)] <- NULL

# Filtrer les observations
dt <- filter(dat, !(name %in% c("Katrina", "Allison")) | day <= 10 & !is.na(wind))

# Séléction de variables
dt <- dat[c("name","year","wind")]

# Séléction de variables
dt <- dat[c(1,2,9)]

# Séléction de variables
dt <- dat[names(storms) %in% c("name","year","wind")]

# Sélection de variables
dt <- select(dat, name, day, wind)

# starts_with, ends_with, contains, matches("[pt]al")
# is.numeric, is_whole, is.character
dt <- select(dat, where(is.factor) | starts_with("l"))

# Filtre sur les observations et sélection de variables
dt <- subset(dat, between(day,15, 30), select = c(name, year, day, status))

# Trie sur les observation
dt <- dat[with(dat, order(-year, name)), ]

# Trier les observations
dt <- arrange(dat, desc(year), name)

# Renommer les variables
dt <- names(dat)[match(c("lat", "long"), names(dat))] <- c("gpslat", "gpslong")

# Renommer les variables
dt <- rename(dat, pnom = name, jour = day)

# Renommer des variables commençant par l
dt <- rename_with(dat, toupper, starts_with("l"))

# Création de variable binaire
dat$duree <- ifelse(dat$year <= 2010, "ancien", "récent")

# Création de variable bimodale
dat$h_pres <- with(dat, ifelse(pressure < mean(pressure), 1, 2))

# Simulation de variable catégorielle
dat$sexe <- gl(n = 2, k = 3, length = length(dat$hour), labels = c("Homme", "Femme"))

# Simulation de variable entière
set.seed(123)
dat$size <- sample(x = c(1,2,3), size = length(dat$hour), replace = TRUE)

# Création de variables texte
dat$mot <- paste(letters[sample(1:27, 4)], sep="", collapse="")

# Création de variables
mutate(dat,
       h_wind = if_else(wind < mean(wind), 0, 1, 99),
       windcl = case_when(wind <= 35 ~ 1, between(wind, 36, 55) ~ 2, TRUE ~ 3),
       stat_b = recode(status, hurricane = "hcane", .default = levels(status)),
       l_wind = log(wind),
       v_unif = runif(length(hour), min = 1, max = 10),
       v_norm = rnorm(length(hour), mean = 3, sd = 1),
       .keep = "none"
      )

# Ajouter des libellés aux variables
dat$name <- set_label(dat$name, "Le prénom de l'agent")
var_label(dat$hour) <- "L'heure de l'interview"
var_label(dat) <- list(day = "Jour de l'interview", wind ="Pression du Vent")

# Afficher les libellés
get_label(dat, name, day, wind)

# Afficher les libellés
attr(dat$name, "label")

# Supprimer les libellés
var_label(dat$day) <- NULL
var_label(dat) <- NULL

# Modifier en variables catégorielles
dat$status <- as_factor(dat$status)
dat$sexe <- as_factor(dat$sexe)
dat$duree <- as_factor(dat$duree)
dat$h_pres <- factor(dat$h_pres, levels = c(1,2), labels = c("Petit", "Grand"))
dat$size <- factor(dat$size, levels = c(1,2,3), labels = c("Petit", "Moyen", "Grand"))

# Définir les modalités
dat$h_pres <- set_labels(dat$h_pres, labels = c("Léger", "Lourd"))
val_labels(dat$h_pres) <- c(Petit = 1, Grand = 2)
val_labels(dat) <- list(size = c(Petit = 1, Moyen = 2, Grand = 3), 
                       h_pres = c(TPetit = 1, TGrand = 2))

# Modifier les modalités
val_label(dat$size, 3) <- "Très Grand"
val_label(dat[, c("h_pres", "size")], 1) <- "Gros"
val_labels(dat[, c("h_pres", "size")]) <- c(small = 1, Big = 2)

# Afficiher une values labelle
val_label(dat$size, 2)

# Afficiher les values labelles
val_labels(dat$size)

attr(dat$size, "labels")

# Afficiher les values labelles des variables
val_labels(dat[, c("h_pres", "size")])

dat$h_pres <- labelled(dat$h_pres, labels = c(Petit = 1, Grand = 2), 
                        label = "Poids fictive")

dat$size <- labelled(dat$size, labels = c("Petit" = 1, "Moyen" = 2, "Grand" = 3), 
                    label = "Taille fictive")

dat$status <- as_factor(dat$status)

# Affichage des modalités
levels(dat$status)

# Regrouper les modalités
levels(dat$status) <-  c('disturbance','disturbance','hurricane','hurricane',
                         'disturbance','tropical','tropical','tropical','tropical')
levels(dat$status)

# Supprimer les modalités
val_label(dat$size, 2) <- NULL
val_labels(dat$size) <- NULL
val_labels(dat[, c("h_pres", "sexe")]) <- NULL
val_labels(dat) <- NULL

# str_sort(string)
sort(dat$status)

# str_order(string)
order(dat$status)

# str_to_lower(string)
tolower(dat$name)

# str_to_upper(string)
toupper(dat$name)

# str_length(storms$status)
nchar(dat$name)

# str_sub(string, start, end)
substr(dat$name, start = 1, stop = 3)

# str_split(string, pattern)
strsplit(dat$name, split = "r")

# str_dup(string, times)
strrep(dat$name, times = 2)

# Numéro de la Position: str_which(string, pattern)
grep("[rR]", dat$name)

# Valeur de la Position: str_subset(string, pattern)
grep("[rR]", dat$name, value = TRUE)

# Logique de la position# str_detect(string, pattern)
grepl("[rR]", dat$name)

# Position dans le text
regexpr("[rR]", dat$name)

# str_locate_all(string, pattern)
gregexpr("[rR]", dat$name)

# Donne l'indexe et la position de début [index. position] ou -1
regexec("[rR]", dat$name)

# Donne l'indexe et la position de début [index. position] ou -1
gregexec("[rR]", dat$name)

# Montrer l'index et le caratère str_extract(string, pattern)
regmatches(dat$name, regexpr("[rR]", dat$name))

# Montrer l'index et le caratère str_extract_all(string, pattern)
regmatches(dat$name, gregexpr("[rR]", dat$name))

# Montrer l'index et le caratère str_match(string, pattern)
regmatches(dat$name, regexec("[rR]", dat$name))

# str_replace(string, pattern, replacement)
sub("[rR]", "A", dat$name)

# str_replace_all(string, pattern, replacement)
gsub("[rR]", "A", dat$name)

# str_trim(string)
trimws(dat$name, which = "left", whitespace = "[ \t\r\n]")

# str_wrap(string)
strwrap(dat$name)

Package	Item	Title
<chr>	<chr>	<chr>
dplyr	band_instruments	Band membership
dplyr	band_instruments2	Band membership
dplyr	band_members	Band membership
dplyr	starwars	Starwars characters
dplyr	storms	Storm tracks data
stringr	fruit	Sample character vectors for practicing string manipulations
stringr	sentences	Sample character vectors for practicing string manipulations
stringr	words	Sample character vectors for practicing string manipulations

Installer des Packages¶

Importer des base de données¶

Utiliser des données du système¶

Data sets

Lire les format SPSS, STATA, SAS¶

Lire un fichier texte (csv)¶

Manipuler des données¶

Décrire la base¶

Extraire des données¶

Trier, renommer, creer, supprimer¶

Manager les facteurs¶

Manipuler les textes¶