Intermezzo: Sci-kit learn
Uczenie za pomocą gotowych pakietów
Będziemy dziś korzystać z zaawansowanego pakietu do sieci neuronowych "Keras".
Instalacja
- Pod Windowsem powinna być zainstalowana wersja 0.16.
- Pod Linuxem powinna być zainstalowana wersja 0.15.
Najnowsza oficjalna wersja to 0.17 (0.18 na githubie w wersji deweloperskiej)
Pod Linuxem można zainstalować lokalnie:
pip install --user sklearn
- Lub na własnym komputerze:
sudo pip install sklearn
- Możliwe, że konieczne jest ponowne uruchomienie IPython, jeśli był uruchomiony podczas instalacji.
Dokumentacja
- Pełna i obszerna dokumentacja na: http://scikit-learn.org/0.15 (wystarczy zmienić numer wersji zgodnie z zainstalowaną wersją, aby przejść do dokumentów dla odpowiedniej wersji)
Zadania teoretyczne
- Zapoznaj się z pakietem Sci-Kit learn na podstawie dokumentacji.
- Przeglądając spis API (http://scikit-learn.org/0.15/modules/classes.html), podaj listę dostępnych rodzajów klasyfikatorów i regresorów. Które metody poznaliśmy na wykładach? Które są nowe?
- Jakie inne tematy widzisz (niż klasyifikacja/regresja), które były omawiane na wykładach?
Zadanie praktyczne
Powyższe zadania są punktowane razem na 40 punktów.
Zadania na te i następne ćwiczenia
- Opracuj zadanie Exercise 1 lub Exercise 2 (do wyboru) na za dwa tygodnie w postaci IPython Notebook.
- Będzie można też pracować przy tym na najbliszych ćwiczeniach.
- Wymagania:
- Dane do tych zadań trzeba zdobyć samodzielnie. Dopuszczam dzielenie się danymi, jeśli ktoś już coś opracował/znalazł.
- Wybierz i sprawdź co najmiej cztery różne rodzaje klasyfikatorów/regresorów, z tego co najmniej dwa, który nie były dotąd omawiane na ćwiczeniach (np. SVM, Naiwny Bayes) lub wykładach (drzewa decyzyjne).
- Zawsze wykonaj walidacje krzyżową (5-krotną) i przedstaw wyniki.
- Dodatkowe: Spróbuj wykonać optymalizację hiperparamtrów za pomocą GridSearch lub RandomSearch. Pomogło?
To zadanie będzie warte 40 punktów z następnych ćwiczeń + 20 punktów za szczególnie ładne opracowania.