Wszystko co będzie nam potrzebne

Git - system kontroli wersji

Github to miejsce gdzie zapisywać będziemy wszystkie programy z zajęć.

Na temat systemu kontroli wersji git możesz przeczytać na Git-scm.

Zadanie 1

  1. Wejdź na stronę Github i załóż konto
  2. Przyciskiem + stwórz nowe repozytorium publiczne o nazwie DM# (gdzie # to nr indeksu)
  3. Zgodnie z poniższą instrukcją stwórz katalog i połącz z nim utworzone repozytorium.

Najważniejsze polecnia do zapamiętania

  • ściąganie repozytorium z sieci
git clone https://adres_repo.git

W przypadku githuba możesz pobrać repozytorium jako plik zip.

  • Tworzenie repozytorium dla lokalnego katalogu
# tworzenie nowego katalogu
mkdir datamining
# przejście do katalogu
cd datamining
# inicjalizacja repozytorium w katalogu
git init
# powinien pojawić się ukryty katalog .git
# dodajmy plik
echo "Info " >> README.md
  • Połącz lokalne repozytorium z kontem na githubie
git remote add origin https://github.com/<twojGit>/nazwa.git
  • Obsługa w 3 krokach
# sprawdź zmiany jakie zostały dokonane
git status
# 1. dodaj wszystkie zmiany
git add .
# 2. zapisz bierzący stan wraz z informacją co zrobiłeś
git commit -m " opis "
# 3. potem już zostaje tylko
git push -u origin master

Zadanie 2

Zapamiętaj na każdych następnych zajęciach zapisz wszystko w swoim repozytorium.

Oprogramowanie

Nauka o danych to dość młoda dziedzina obejmująca takie aspekty jak : algebra liniowa, modelowanie statysyczne, wizualizacja, analiza grafów, uczenie maszynowe, przechowywanie i przetwarzanie danych, analityka biznesowa.

Jednym z najlepszych narzędzi dla badaczy danych są:

  • Python
  • R
  • SAS
  • MATLAB

Edytory tesktu

Notepad++ , Sublime Text, Visual Studio Code.

Python

Powstał w 1991 roku (Guido van Rossum) jako ogólny, interpretowany, zorientowany obiektowo język programowania wysokiego poziomu. Od tego czasu zdobywa wielką popularność w społeczności naukowej ze względu na rozbudowany system pakietów do analizy danych i uczenia maszynowego. Ułatwia integrowanie różnych narzędzi i języków programowania np. Java, C, Fortran, R itp. Działa na wszystkich systemach operacyjnych (Win, Linux, Mac Os). Przetwarzanie dużej ilości danych wspomagane jest mechanizmami odzyskiwania pamięci. Dość prosty w nauce.

Instalacja dystrybucji środowiska

W przypadku systemu Windows wszystkie potrzebne pliki instalacyjne znajdziesz na www.python.org. Zawsze wybieraj wersję 3. Po uruchomieniu w konsoli polecenia:

python -V

powinieneś uzyksać informację o wersji pythona.

Pakiety doinstalowywać należy narzędziem pip.

pip install <nazwa-pakietu>
# bądź dla pakietów anacondy
conda install <nazwa-pakietu>
# update pakietów anacondy
conda update --all

Listę dostępnych pakietów znajdziesz na PyPI.

Dla ułatwienia i szybszej instalacji pakietów i środowiska przydatnego do analiz danych zainstaluj naukową dystrybucję Anaconda.

Anaconda

Anaconda to dystrybucja udostępniona przez firmę Continuum Analytics. Obejmuje ona prawie 200 pakietów. Najważniejsze, którymi będziemy się posługiwać to:

  • NumPy - wielowymiarowe tablice reprezentujące wektory i macierze, bogaty zestaw operacji matematycznych, optymalna alokacja pamięci.
import numpy as np
  • SciPy - uzupełnia funkcjonalność NumPyo obszar algebry liniowej, przetwarzanie sygnałów, optymalizacji, transformaty Fouriera.

  • Pandas - dzięki strukturom danych typu DataFrame i Series pozwala obsługiwać złożone tablice danych z różnymi typami (nieobsługiwane w NumPy i SciPy).

import pandas as pd
  • Scikit-learn - udostępnia wszystko czego potrzeba w zakresie uczenia, wyboru modeli, walidacji itp.

  • Jupyter - rozszerzenie konsoli IPython do przeglądarki www (dokładne info później).

  • Matplotlib - wizualizacja danych.

import matplotlib.pyplot as plt

Inne dystrybucje naukowe to: Enthought Canopy, Python(x,y).

Najczęściej ładowane pakiety w pythonie

Zadanie 2A

Zapamiętaj

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

Po instalacji odpowiedniej wersji Anacondy zapoznaj się z nawigatorem i jego wszystkimi opcjami.

Bardzo dobrym rozwiązaniem przy instalacji Pythona bądź Anacondy jest korzystanie z narzędzia do środowiska wirtualnego virtualenv. Więcej informacji na temat wirtualnego środowiska możesz znaleźć tutaj.

Jupyter notebook

Uruchamianie notatnika:

  • dla systemów Linux, Unix:
# przejdź do katalogu home
jupyter notebook
  • dla systemów Windows:
# przejdź do katalogu home
jupyter-notebook

Można również wykorzystać Anaconda Navigator.

Zadanie 3

Zapoznaj się z notatnikiem Jupyter learn more.

Uwaga

Do Anacondy można doinstalować środowisko R postępując zgodnie z instrukcją.

links

social