O aprendizado de máquina (machine learning) é um subcampo da ciência da computação que evoluiu do estudo de reconhecimento de padrões e da teoria do aprendizado computacional em inteligência artificial.
O uso aprendizagem de máquina abrangem desde jogos passando pela detecção de fraudes até a análise estatísticas da bolsa de valores. É utilizada para construir sistemas como os do Netflix e Spotify que recomendam músicas e/ou vídeos aos usuários com base no seu histórico de acesso, seus favoritos e outros dados, ou sistemas que encontram todos os artigos de notícias similares em um determinado dia.
É o termo usado sempre que o técnica/algoritmo é treinado sobre um conjunto de dados pré-definido. Com base no treinamento a partir deste dataset, o algoritmo pode efetuar decisões precisas quando recebe novas instâncias de dados. Por exemplo:
Para melhor didática, vamos explicar as raças dos filhotes desse canil. Nós temos quatro raças, são elas:
Ao observar os filhoes existentes, você já aprende quais as características físicas eles possuem. Então, separar os filhotes da mesma raça em um lugar agora é fácil. Na terminologia de data mining um conhecimento passado é chamado de training dataset. Ou seja, você já aprende coisas a partir desses dados.
# | CORPO | PELO | ORELHAS | RAÇA |
---|---|---|---|---|
1 | Médio | Curto | Mediana | Beagle |
2 | Pequeno | Longo | Grande | Lhasa Apso |
3 | Grande | Médio | Pequena | Pastor Alemão |
4 | Médio | Curto | Pequena | Bulldog |
A coluna nomeada como RAÇA é chamada de classe, label ou variável de resposta.
Se você consegue aprender algo com o dataset de treinamento e depois aplicar esse conhecimento aos novos dados de entrada (novos filhotes), então esse tipo de aprendizagem é chamada de supervisionada.
Todos os algoritmos de classificação e regressão são submetidos a uma aprendizagem supervisionada:
É o termo usado quando uma técnica/algoritmo pode automaticamente encontrar padrões e relações em um determinado conjunto de dados. É efetuada com base na observação e descoberta. Não são definidas classes, o algoritmo necessita analisar os exemplos e reconhecer os padrões por si próprio.
Na mineração de dados ou na aprendizagem de maquinas (machine learning) esse tipo de aprendizagem é chamada de não supervisionada.