# Pacotes a serem usados
library(tidyverse)

# Importa o arquivo csv para o objeto df_titanic
df_titanic <- read_csv("dados/titanic.csv")

# Seleciona os sobreviventes.
df_titanic %>% filter(sobreviveu == "sim")

# Cria um objeto e atribui a ele as linhas com os sobreviventes.
sobreviventes <- df_titanic %>% filter(sobreviveu == "sim")

# Crianças com menos de 12 anos que sobreviveram.
criancas_sobreviventes <- df_titanic %>% 
  filter(sobreviveu == "sim" & idade < 12)

# Embarque realizado nos locais: Southampton ou Queenstow.
embarque <- df_titanic %>% filter(embarque == "Southampton" |
                                    embarque == "Queenstow")

# A instrução acima pode ser reescrita com o operador %in%:
embarque <- df_titanic %>% filter(embarque %in% c("Southampton", "Queenstow"))

# Pessoas sem informação de local de embarque.
# is.na() - função que retorna TRUE se o valor for NA e FALSE se não for.
sem_embarque <- df_titanic %>% filter(is.na(embarque))

# Pessoas que tem "Elizabeth" em qualquer posição do campo nome.
# str_detect - função que retorna TRUE se detectou o valor dado e 
# FALSE, caso não tenha encontrado.
nome <- df_titanic %>% filter(str_detect(nome, "Elizabeth"))

# Ordena por ordem crescente da coluna nome.
passageiros_ordenados <- df_titanic %>% arrange(nome)
passageiros_ordenados

# Seleciona as colunas indicadas.
df_titanic %>% select(nome, idade, classe, embarque)

# Altera a coluna tarifa para o valor da tarifa em reais.
tarifa_conversao <- df_titanic %>% mutate(tarifa = tarifa * 5.37)

# Retorna a coluna tarifa para o valor da época.
tarifa_conversao <- df_titanic %>% mutate(tarifa = tarifa / 5.37)

# Calcula a média da variável idade
# na.rm = TRUE remove os NAs
df_titanic %>% summarize(mean(idade, na.rm=TRUE))

# Calcula: número de mulheres, mediana geral da tarifa e número de passageiros.
# No caso abaixo a função sum() retorna o número de mulheres. 
# A função n() mostra o número de linhas (em cada grupo) e 
# costuma ser bastante usada com o summarize.
df_titanic %>% 
  summarize(
    mulheres = sum(sexo == "feminino", na.rm = TRUE),
    mediana_tarifa = median(tarifa, na.rm = TRUE),
    num_passageiros = n())

# Agrupa pela variável sobreviveu e calcula
# o número de passageiros por grupo (sim/nao).
df_titanic %>% 
  group_by(sobreviveu) %>% 
  summarize(num_passageiros = n())

# Agrupa pelo local de embarque e calcula a mediana da tarifa de cada grupo.
df_titanic %>% 
  group_by(embarque) %>% 
  summarize(mediana_tarifa = median(tarifa, na.rm = TRUE))