Other articles


  1. Wykład 4

    Jeszcze raz o danych

    Z poprzednich wykładów znasz już podstawowe definicje dotyczące eksploracji danych i wiesz gdzie możesz z nich skorzystać. Znasz problemy techniczne zapisu dużej ilości danych wraz z historyczną ewolucją modeli danych i ich implementacji. Rozumiesz różnicę między systemami OLTP i OLAP.

    Eksploracaj danych polega na torturowaniu danych …

    read more
  2. Klasyfikacja

    Pivot in Pandas

    Dane do analizy

    # biblioteki
    import numpy as np
    import pandas as pd
    # załaduj dane
    
    df = pd.read_excel("sales-funnel.xlsx")
    df.head()
    df["Status"] = df["Status"].astype("category")
    df["Status"].cat.set_categories(["won","pending","presented","declined"],inplace=True)
    

    Tabele przestawne

    Do każdej tabeli pivot mysisz określić ramke danych …

    read more
  3. Wykład 3

    Analiza danych

    GIGO (ang. Garbage In, Garbage Out)

    Wyniki przetwarzania błędnych danych zawsze będą błędne niezależnie od poprawności procedury ich przetwarzania.

    Algorytmy eksploracyjne są bardzo czułe na błędne dane źródłowe. Ponieważ nie istnieje uniwersalne narzędzie do wykrywania błędnych danych, właściwe przygotowanie danych jest warunkiem koniecznym powodzenia całego projektu.

    Zawsze na …

    read more
  4. Eksploracyjna analiza danych

    Zadanie

    Wygeneruj dane za pomocą generatora. Jako random_state wpisz numer swojego indeksu.

    from sklearn import datasets
    X,y = datasets.make_classification(n_samples=10**3, n_features = 10, random_state=1234)
    

    Podaj wartość szóstegoo wiersza i drugiej kolumny. Otrzymaną wartość wpisz do pliku zad2.txt. Całość dodaj do repozytorium tak by prowadzący mógł ją …

    read more
  5. Wczytywanie danych

    Zbiory danych

    UWAGA

    Przed wykonaniem poniższych kodów wczytaj bibliotekę pandas, numpy i matplotlib (patrz poprzednie ćwiczenia 1, Zadanie 2A)

    Odpowiednie przygotowanie danych to \(80%\) czasu pracy nad modelowaniem i wydobywaniem informacji z danych.

    Przykładowe zbiory danych z pakietu scikit-learn

    W pakiecie scikit-learn znajduje się moduł z prostymi przykładowymi zbiorami danych …

    read more
  6. Python podstawy

    Markdown in Jupyter and R

    Ustawiając zawartość komórki jako Markdown możesz generować opisy swoich kodów. Język Markdown jest językiem znaczników podobnym do HTML czy Latex. Kod napisany w html i LateX również jest przetwarzany w notatniku, także pisząc w Markdown możesz tak naprawdę posługiwać się wszystkimi tymi językami. Specyfikację oraz …

    read more
  7. Wykład 2

    Back to the future IV

    Na początku był ... CHAOS

    Szumnie o Big Data

    Zachowaj sceptycyzm słysząc o Big Data gdyż:

    1. Brak definicji najbardziej podstawowych terminów. Czym jest Big Data? Gdzie uprawia się Big Data ? Czy chodzi o naukę czy o technologię ? Ile to jest Big ?
    2. Brak poszanowania dla innych naukowców …
    read more
  8. Wszystko co będzie nam potrzebne

    Git - system kontroli wersji

    Github to miejsce gdzie zapisywać będziemy wszystkie programy z zajęć.

    Na temat systemu kontroli wersji git możesz przeczytać na Git-scm.

    Zadanie 1

    1. Wejdź na stronę Github i załóż konto
    2. Przyciskiem + stwórz nowe repozytorium publiczne o nazwie DM# (gdzie # to nr indeksu)
    3. Zgodnie z poniższą instrukcją stwórz …
    read more
  9. Wykład 1 (Czego będziemy się uczyć)

    Wszędzie dane

    Rozwój technologii generowania, gromadzenia i przetwarzania danych oraz upowszechnienie systemów komputerowych (spadek cen i wzrost świadomości użytkowników) oznacza olbrzymi wolumen danych do przechowywania. Narzędziami cyfrowego generowania danych są między innymi kody kreskowe, karty płatnicze, aparaty cyfrowe, email, sieci RFID, edytory tekstu itp.

    Według raportu …

    read more

links

social