Aprendizagem Supervisionada e Não Supervisionada

O aprendizado de máquina (machine learning) é um subcampo da ciência da computação que evoluiu do estudo de reconhecimento de padrões e da teoria do aprendizado computacional em inteligência artificial.

O uso aprendizagem de máquina abrangem desde jogos passando pela detecção de fraudes até a análise estatísticas da bolsa de valores. É utilizada para construir sistemas como os do Netflix e Spotify que recomendam músicas e/ou vídeos aos usuários com base no seu histórico de acesso, seus favoritos e outros dados, ou sistemas que encontram todos os artigos de notícias similares em um determinado dia.

Aprendizagem Supervisionada (Supervised Learning)

É o termo usado sempre que o técnica/algoritmo é treinado sobre um conjunto de dados pré-definido. Com base no treinamento a partir deste dataset, o algoritmo pode efetuar decisões precisas quando recebe novas instâncias de dados. Por exemplo:

  • Suponha que você tem um canil com diferentes filhotes de cachorros;
  • Sua tarefa é organiza-los em grupos;

Para melhor didática, vamos explicar as raças dos filhotes desse canil. Nós temos quatro raças, são elas:

  • beagle
  • bulldog
  • pastor alemão
  • lhasa apso

Ao observar os filhoes existentes, você já aprende quais as características físicas eles possuem. Então, separar os filhotes da mesma raça em um lugar agora é fácil. Na terminologia de data mining um conhecimento passado é chamado de training dataset. Ou seja, você já aprende coisas a partir desses dados.

# CORPO PELO ORELHAS RAÇA
1 Médio Curto Mediana Beagle
2 Pequeno Longo Grande Lhasa Apso
3 Grande Médio Pequena Pastor Alemão
4 Médio Curto Pequena Bulldog
  • Suponha que você recebeu um novo filhote e você analisou o tamanho, pelo e orelhas desse filhote;
  • Se o tamanho for médio, o pelo for longo e as orelhas grandes, você irá confirmar a raça como lhasa apso e colocar o filhote em seu grupo. A mesma coisa aconteceria para as de mais raças;

A coluna nomeada como RAÇA é chamada de classe, label ou variável de resposta.

Se você consegue aprender algo com o dataset de treinamento e depois aplicar esse conhecimento aos novos dados de entrada (novos filhotes), então esse tipo de aprendizagem é chamada de supervisionada.

Todos os algoritmos de classificação e regressão são submetidos a uma aprendizagem supervisionada:

  • Logistic Regression
  • Decision trees
  • Support vector machine (SVM)
  • k-Nearest Neighbors
  • Naive Bayes
  • Random forest
  • Linear regression
  • Polynomial regression
  • SVM for regression

Aprendizagem Não Supervisionada (Unsupervised Learning)

É o termo usado quando uma técnica/algoritmo pode automaticamente encontrar padrões e relações em um determinado conjunto de dados. É efetuada com base na observação e descoberta. Não são definidas classes, o algoritmo necessita analisar os exemplos e reconhecer os padrões por si próprio.

  • Ainda utilizando o exemplo acima, mas desta vez, você não sabe nada sobre os filhotes. Melhor dizendo, essa é a primeira vez que você viu filhotes de cães em sua vida. Você não possui nenhuma ideia sobre eles;
  • Então, como você irá organizá-los? O que fazer primeiro?
  • Você pegará um filho e irá organizá-los considerando o caráter físico desse filho em particular. Suponhamos que você tenha considerado a condição básica do pelo. Então, os grupos serão algo como:
    • GRUPO DE PELO LONGO: lhasa apso
    • GRUPO DE PELO MÉDIO: pastor alemão
    • GRUPO DE PELO CURTO: beagle e bulldog
  • Agora você percebeu uma nova característica física, o tamanho das orelhas. O que influência nos grupos:
    • GRUPO DE PELO LONGO E ORELHA GRANDE: lhasa apso
    • GRUPO DE PELO MÉDIO E ORELHA PEQUENA: pastor alemão
    • GRUPO DE PELO CURTO E ORELHA MEDIANA: beagle
    • GRUPO DE PELO CURTO E ORELHA PEQUENA: bulldog
  • Nesse processo você não havia aprendido nada previamente, ou seja, nenhum dataset de treinamento foi usado e nenhuma classe (RAÇA) informada. Você foi descobrindo em tempo de execução.

Na mineração de dados ou na aprendizagem de maquinas (machine learning) esse tipo de aprendizagem é chamada de não supervisionada.