Konferencja „Machine Learning@Enterprise 2018” odbędzie się w dniu 18 września 2018 r. w Airport Hotel Okęcie przy ul. Komitetu Obrony Robotników 24 (dawniej 17 Stycznia) w Warszawie.

8.30 - 9.00

Rejestracja uczestników i poranna kawa

9.00 - 9.10

Powitanie uczestników i otwarcie konferencji

SESJA PLENARNA

9:10 - 9:35

Prezentacja raportu „Przegląd strategii rozwoju sztucznej inteligencji na świecie” czyli jak robią to inni

Piotr Mieczkowski

Dyrektor Wykonawczy, Fundacja Digital Poland

9:35 - 10:15

Dyskusja panelowa: Polski program rozwojowy sztucznej inteligencji – jak zrobić to mądrze?

Czy faktycznie AI stwarza dla Polski istotną perspektywę rozwojową i stanowi potencjalny motor napędu innowacji? Co musimy zrobić, by zyskać efekt skali? Czy starczy nam kadr? Jak utrzymać fachowców w Polsce? Jak i gdzie ich kształcić? Czy i w jaki sposób wspierać start-upy w obszarze AI?

Udział wezmą przedstawiciele firm aktywnych w świecie AI, przedstawiciele administracji centralnej oraz przedstawiciele świata nauki.

Przemysław Gamdzyk

CEO & Meeting Designer, Evention

dr Dominik Batorski

ICM Uniwersytet Warszawski, Sotrender

Robert Kroplewski

Pełnomocnik Ministra Cyfryzacji do spraw społeczeństwa informacyjnego, Ministerstwo Cyfryzacji

dr inż. Tomasz Trzciński

Chief Scientist oraz Adiunkt, Tooploox / Politechnika Warszawska

Przemysław Chojecki

CEO, ulam.ai

Dawid Detko

Data Science Architect & Team Leader, Predica

dr Karol Przystalski

CTO, Codete

10.15 - 10.40

Przerwa kawowa

SESJA WARSZTATOWA

Dalsza część konferencji toczy się w ramach równoległych ścieżek, w których odbywają się półtora i dwugodzinne tutoriale. Każdy z uczestników będzie mógł wybrać interesujące go tematy, tworząc swoją indywidualna agendę. Zapisy odbędą się w formie ankiety online, którą każdy z uczestników otrzyma bezpośrednio po rejestracji na konferencję.

10.40 - 12.10

Tutoriale cz. I

Sala ATLANTIS

Wprowadzenie do Pythona w kontekście Machine Learning

Prowadzący: Vladimir Alekseichenko, DataWorkshop

Sala DISCOVERY

Wprowadzenie do R w kontekście Machine Learning

Prowadzący: Marta Sommer, Agora

Sala DACOTA

Analiza języka naturalnego

Prowadzący: Łukasz Prokulski, PZU SA

Sala CARAVELLE

Wykorzystanie Azure Machine Learning i Power BI przy predykcji w czasie rzeczywistym

Prowadzący: Dawid Detko, Predica

12.10 - 12.25

Przerwa

12.25 - 13.55

Tutoriale cz. II

Sala ATLANTIS

Podstawy Przetwarzania Języka Naturalnego - klasyfikacja spamu, klasyfikacja języków programowania

Prowadzący: Kamil Krzyk, Cosmose

Sala DISCOVERY

Algorytmy genetyczne i inne metod optymalizacji – dopasowanie do odpowiednich klas problemów i zastosowań

Prowadzący: Jacek Dziwisz, TensorCell

Sala DACOTA

Uogólnione modele addytywne (GAMs) - co mogą zrobić dla Ciebie i jak ich używać

Prowadzący: Adrian Foltyn, HelloFresh (Berlin) i Trans.eu (Wrocław)

Sala CARAVELLE

Od Danych Do Akcji – o wizualizacji

Prowadzący: Krzysztof Bury, General Electric

13.55 - 14.40

Obiad

14.40 - 16.10

Tutoriale cz. III

Sala ATLANTIS

Tworzenie i wdrażanie rozwiązań analitycznych wykorzystujących R i Pythona

Prowadzący: Piotr Chaberski, WLOG Solutions

Sala DISCOVERY

Podstawy Reinforcement Learning (praktyczne rozwiązywanie problemów w środowisku Open AI gym)

Prowadzący: Jeremi Kaczmarczyk, Tooploox; Piotr Semberecki, Tooploox

Sala DACOTA

Edge analytics z wykorzystaniem Apache NiFi i Apache Kylo

Prowadzący: Dr inż. Kamil Folkert, 3Soft S.A.; Tomasz Mirowski, 3Soft S.A.

Sala CARAVELLE

Jak zamienić tekst na liczby, czyli zabawy słowem na praktycznych przykładach cz. 1

Prowadzący: Joanna Misztal-Radecka, Ringier Axel Springer Polska Sp. z o.o.

16.10 - 16.25

Przerwa

16.25 - 18.15

Tutoriale cz. IV

Sala ATLANTIS

Nie ufaj - wyjaśnianie predykcji modelu uczenia maszynowego

Prowadzący: Mateusz Opala, Netguru

Sala DISCOVERY

Predykcja popytu w czasie

Prowadzący: Vladimir Alekseichenko, DataWorkschop

Sala DACOTA

Webscrapping czyli ekstrakcja danych ze stron WWW

Prowadzący: Bartosz Sękiewicz, niezależny Data Scientist

Sala CARAVELLE

Jak zamienić tekst na liczby, czyli zabawy słowem na praktycznych przykładach cz. 2

Prowadzący: Joanna Misztal-Radecka, Ringier Axel Springer Polska Sp. z o.o.

Wprowadzenie do Pythona w kontekście Machine Learning

Vladimir Alekseichenko

CEO & Founder, DataWorkshop

Podczas tutoriala poznasz podstawy Pythona z naciskiem na uczenie maszynowe, co powinno rzeczywiście ułatwić wejście w świat uczenia maszynowego.

Dzięki tutorialowi uczestnik dowie się:

jak wygląda podstawowa składnia Pythona
jakie są podstawy korzystania z Numpy
czy jest Pandas

Słowa klucze:

#python, #numpy, #pandas, #wprowadzenie

Wymagania wobec uczestnika:

Uczestnik powinien mieć ze sobą laptop oraz przeglądarkę. Całe środowisko będzie już przygotowane przez prowadzącego. I oczywiście warto mieć dobry humor i być otwartym do poznawania nowych rzeczy.

Wprowadzenie do R w kontekście Machine Learning

Marta Sommer

Data Sciencist, Agora

Opis:

W czasie warsztatów przeprowadzimy cały proces potrzebny do stworzenia modelu. Zajmiemy się więc:

wstępem do R, aby móc się w tym środowisku poruszać (co to są pakiety, jak wczytać dane, podstawowe instrukcje),
przetwarzaniem danych (filtrowaniem, czyszczeniem, podsumowywaniem, wyciąganiem pierwszych wniosków),
stworzeniem prostego modelu.

Zapoznamy się z pakietami takimi jak: dplyr, mlr.

Słowa kluczowe:

#R, #dplyr, #mlr

Wymagania wobec uczestnika:

Warsztat skierowany jest do osób, które nie miały jeszcze styczności z R lub kontakt z R miały, ale chciałyby sobie uporządkować lub przypomnieć proces analityczny w tym języku.

Komputer z zainstalowaną najnowszą wersją R i RStudio oraz dostęp do Internetu. Komputer nie jest jednak niezbędny – wszystkie materiały będą udostępnione na moim GitHubie.

Tworzenie i wdrażanie rozwiązań analitycznych wykorzystujących R i Pythona

Piotr Chaberski

Data Scientist, WLOG Solutions

Opis:

Podczas tutoriala pokażę, jak z użyciem narzędzia R Suite można w wygodny sposób tworzyć, rozwijać i wdrażać rozwiązania analityczne w R dodatkowo wykorzystujące funkcjonalności Pythona, przy zachowaniu reprodukowalności i pełnej kontroli nad środowiskiem, pakietami i zależnościami. Krok po kroku opowiem i zademonstruję jak:

przygotować projekt i zarządzać zależnościami,
jak utworzyć lokalne środowisko Pythonowe wewnątrz projektu R-owego,
jak zaimplementować w projekcie R-owym model sieci neuronowej, która wykorzystuje frameworki wymagające Pythona,
jak jednym poleceniem przygotować paczkę wdrożeniową, która nie wymaga żadnej instalacji ani konfiguracji środowiska produkcyjnego,
…oraz właściwie po co to wszystko robić.

Słowa kluczowe:

#R, #Python, #R_Suite, #integracja, #wdrożenie, #reprodukowalność

Dzięki tutorialowi uczestnik dowie się jak:

tworzyć i zarządzać w sposób w pełni reprodukowalny projektem R-owym z wykorzystaniem R Suite
wykorzystać w swoim rozwiązaniu najlepsze cechy dwóch najpopularniejszych języków w świecie data science
stworzyć paczkę wdrożeniową, której wdrożenie na produkcję wymaga minimalnego wysiłku

Wymagania wobec uczestnika:

Uczestnik powinien znać podstawy R, Pythona i zagadnień machine learning. Plusem będzie, jeśli zetknął się bezpośrednio z problematyką reprodukowalności i wdrażania modeli analitycznych w biznesie.

Jeśli uczestnik będzie chciał pracować równolegle z prowadzącym, powinien mieć ze sobą komputer z dostępem do internetu i Windowsem (zalecane, ponieważ na tym systemie przygotowany będzie tutorial, natomiast posiadacze Linuksa również powinni być w stanie odtworzyć wszystkie kroki). Na komputerze powinny być zainstalowane w najnowszych wersjach:

R (dla Windows: https://cran.r-project.org/bin/windows/base/)
RStudio (https://www.rstudio.com/products/rstudio/download/)
R Suite CLI (http://rsuite.io/RSuite_Download.php)
Miniconda (https://conda.io/miniconda.html)

Nie ufaj – wyjaśnianie predykcji modelu uczenia maszynowego

Mateusz Opala

Machine Learning Tech Lead, Netguru

Sieci neuronowe są powszechnie uważane za black-boxy. W wielu obszarach zastosowań uczenia maszynowego, takich jak medycyna, nie tylko wysoka skuteczność, ale również wyjaśnienie predykcji wydaje się być kluczowe. W moich warsztatach pokażę proste metody lokalnej interpretacji predykcji, które pomogą zrozumieć i poprawić model.

Agenda:

Wstęp do zagadnienia intepretowalności modeli
Wyjaśnianie modelu dla obrazów
Wyjaśnianie modelu dla tekstu

Dlaczego warto wziąć udział:

poznasz bliżej problem intepretowalnośći modeli
poznasz sposoby na intepretowanie modeli uczenia maszynowego
nauczysz się w praktyce zastosować wyjaśnianie modeli uczenia maszynowego

Wymagania:

podstawowa znajomość Pythona
elementarna wiedza o Jupyter notebooks
Znajomość modeli takich jak SVM, RandomForest czy głębokie sieci neuronowe
Konieczny komputer na warsztacie

Podstawy Przetwarzania Języka Naturalnego – klasyfikacja spamu, klasyfikacja języków programowania

Kamil Krzyk

Machine Learning Engineer, Cosmose

Opis:

Przetwarzanie Języka Naturalnego (NLP) jest jedną z większych dziedzin w których wykorzystywane są algorytmy Uczenia Maszynowego. Tekst znajduje się wszędzie a jego analiza i klasyfikacja pozwala na usprawnienie wielu obszarów biznesu. Ilość zagadnień do jakich NLP może zostać zastosowane jest ogromna: od syntezowania mowy, translacji tekstu, generacji tekstu, sumaryzacji tekstu, przewidywanie kolejnego wyrazu po analizę sentymentu, czy po prostu przypisanie klasy do fragmentu tekstu.

W tym warsztacie chcę pokazać w jaki sposób w patrzeć na dane tekstowe oraz jak przygotować je do podania do algorytmu Uczenia Maszynowego. Przedstawię jedną z najprostszych technik zamiany tekstu na liczby, jaką jest Bag-of-Words. Zostanie ona wykorzystana do wytrenowania modelu Uczenia Maszynowego, który będzie w stanie klasyfikować języki programowania. Po drodze uczestnicy będą mieli okazję przejść przez cały proces – wczytywania danych, eksploracji danych, data wranglingu, budowania i trenowania modelu oraz analizy jego sprawności. Sposób w jaki zostaną potraktowane dane jest bardzo ogólny i może zostać zastosowany do rozwiązania wielu innych problemów NLP.

Uczestnicy otrzymają odpowiednio przygotowane Jupyter Notebooki, zawierające odpowiednie wskazówki i wyselekcjonowaną dokumentację w celu ułatwienia i przyśpieszenia pracy. Zadaniem uczestników będzie wypełnienie brakujących luk w kodzie po wyjaśnieniach prowadzącego. Każdy rezultat pracy będzie automatycznie testowany dzięki czemu szybko będzie można zlokalizować potencjalne problemy oraz blokery. Każdy uczestnik uzyska notebook z notatkami i rozwiązaniem. Dodatkowo użytkownicy otrzymają notebook pokazujący w jaki sposób zaimplementować technikę Bag-of-Words w czystym Pythonie i wykorzystam do modelu klasyfikującego e-maile na spam lub nie-spam. W notebooku znajdą się też linki do źródeł, które pozwolą na poszerzenie wiedzy w temacie.

Agenda:

Wykład (~20min):
- omówienie jak przygotowywać dane tekstowe
- omówienie algorytmu RandomForest
Część pokazowa (~15min):
- wczytanie i eksploracja danych
- omówienie komponentów sklearn: CountVectorizer, train_test_split, GridSearchCV, confusion_matrix, f1_score, accuracy_score
Praktyka (~55min):
- przygotowanie danych tekstowych przy użyciu sklearn
- podzielenie danych na zbiory testowy/treningowy
- użycie algorytmu RandomForest do rozwiązania problemu wraz ze znalezieniem odpowiednich hiperparametrów
- policzenie metryki dla stworzonego modelu

Słowa Kluczowe:
#python #machine_learning #jupyter_notebook #colaboratory #scikit-learn #numpy #natural_language_processing #bag_of_words #random_forests #decision_trees

Co wyniesie użytkownik:

Zapoznanie się z nowym, lecz nadal niezbyt popularnym środowiskiem Colaboratory, który pozwala uruchomić sesję Jupyter Notebooka w chmurze i dzielić się z nią innymi użytkownikami.
Podstawowa teoria przygotowania danych tekstowych do wykorzystania w Machine Learningu.
Zrozumienie techniki Bag-of-words.
Przygotowanie danych tekstowych przy pomocy dostępnych narzędzi w sklearn.
Teoria i użycie algorytmu RandomForest do rozpoznawania spamu (klasyfikacja binarna), rozróżniania języków programowania (18 klas).
Ogólna wiedza zdobyta po drodze: eksploracja danych, podział i podanie danych do modelu, ewaluacja modelu, nastawianie parametrów modelu.

Wymagania:

Podstawy programowania w języku Python.
Przeglądarka Google Chrome i konto Google.
Jednorazowe uruchomienie “Hello World!” Google Colaboratory (link: https://colab.research.google.com/notebooks/welcome.ipynb)
Wcześniejszy kontakt z Jupyter Notebookiem, uruchomienie biblioteki NumPy oraz Pandas jest mile widziane.

Podstawy Reinforcement Learning (praktyczne rozwiązywanie problemów w środowisku Open AI gym)

Jeremi Kaczmarczyk

AI / iOS engineer, Tooploox

Piotr Semberecki

AI engineer, Tooploox

Reinforcement Learning z roku na rok coraz bardziej rozpala wyobraźnię oraz powoduje dyskusje na temat Sztucznej Inteligencji. Wprawdzie przełomem okazało się użycie sieci neuronowych co pozwoliło dziedzinie rozwinąć skrzydła, my na warsztatach zajmiemy się podstawami niezbędnymi do zrozumienia oraz zrobienia pierwszych kroków w tym ekscytującym świecie. Poznamy środowisko Open AI Gym, które pozwala skupić się na rozwiązywaniu problemów i nauce zamiast na implementacjach i przerabianiu gier. W części praktycznej napiszemy kilka algorytmów z rodziny Monte Carlo oraz Temporal-Difference Learning, przetestujemy je i porównamy.

Agenda:

Część teoretyczna

Podstawowe pojęcia i problemy domenowe
Środowisko OpenAI Gym
Proces Decyzyjny Markowa

Część praktyczna

Metodologia Monte Carlo
Temporal-Difference Learning

Słowa Kluczowe:
#reinforcement_learning #monte_carlo_method #temporal_difference_learning #markov_decision_process #python #jupyter_notebook

Dlaczego warto wziąć udział:

Zapoznanie się z podstawami uczenia ze wzmocnieniem (Reinforcement Learning)
Zapoznanie się ze środowiskiem OpenAI Gym
Zrozumienie metodologii Monte Carlo
Zrozumienie algorytmów Temporal-Difference
Użycie algorytmów do rozwiązania problemów z OpenAI Gym

Wymagania:

Python – podstawy.
Konto Google oraz przeglądarka (najlepiej Chrome).
Podstawowa znajomość środowiska Google Colaboratory i/lub Jupyter Notebook (tutorial: https://colab.research.google.com/notebooks/welcome.ipynb)

Analiza języka naturalnego

Łukasz Prokulski

Koordynator procesu rozwoju i analiz portfela projektów , PZU SA

Agenda:

Do czego może przydać się analiza tekstu
Skąd wziąć dane tekstowe
Przygotowanie i podstawowa analiza tekstu
Zagadka kryminalna: kto napisał książkę

Słowa kluczowe:

#EDA, #NLP, #natural_language_processing, #analiza_języka_naturalnego, #przetwarzanie_tekstu, #LDA, #TF-IDF

Co użytkownik zyska:

Dowiesz się jak przetworzyć tekst w języku R z użyciem stosownych pakietów, wyszukać najpopularniejsze słowa (tf-idf). Spróbujemy znaleźć tematy kilku lektur szkolnych (LDA), porównać język ich autorów i znajdziemy autora nieznanego tekstu.

Wymagania wobec uczestnika:

Zainteresowanie tematyką przetwarzania tekstu
Podstawowa znajomość programowania (R)
Przydatna będzie znajomość pakierów tidyverse i tidytext
Własny komputer z zainstalowanym R/RStudio – dla chcących aktywnie uczestniczyć w warsztacie

Wykorzystanie Azure Machine Learning i Power BI przy predykcji w czasie rzeczywistym.

Dawid Detko

Data Science Architect & Team Leader, Predica

Podczas warsztatu zostanie zbudowane rozwiązanie pozwalające pobierać dane z urządzeń typu IoT, przetwarzać je, wzbogacać o dodatkowe informacje, by finalnie zwizualizować je w Power BI i obserwować wyniki w czasie rzeczywistym.

W początkowej fazie warsztatu zostanie wytrenowana dwuklasowa sieć neuronowa pozwalająca dokonywać predykcji prawdopodobieństwa wystąpienia zdarzenia.

Dzięki tutorialowi uczestnik dowie się:

Jak sprawnie tworzyć pełne rozwiązania analityczne
Jak korzystać z serwisów chmurowych
Jak wykorzystywać Power BI do wizualizacji danych w czasie rzeczywistym

Słowa klucze:

#AzureML, #PowerBI, #NeuralNetwork, #IoT, #RealTimeAnalysis

Wymagania wobec uczestnika:

Uczestnik powinien mieć ze sobą laptop oraz przeglądarkę. Wszystkie niezbędne komponenty będą przygotowane przez prowadzącego.

Algorytmy genetyczne i inne metod optymalizacji – dopasowanie do odpowiednich klas problemów i zastosowań

Jacek Dziwisz

Artificial Intelligence Researcher, TensorCell

Opis:

Opowiem o projekcie TensorCell dotyczącym optymalizacji ruchu drogowego przy pomocy algorytmów uczenia maszynowego (np. sieci neuronowych, XGBoost) oraz algorytmów ewolucyjnych. Przedstawię tworzone przez nas narzędzia informatyczne oraz wyniki najnowszych eksperymentów przeprowadzonych z wykorzystaniem m.in. algorytmów genetycznych i optymalizacji gradientowej.

Słowa kluczowe:

#deeplearning #xgboost #optimization #genetic_algorithm #gradient_optimization #python

Wiedza, którą uczestnik wyniesie z udziału w tutorialu:

Uczestnik pozna możliwe zastosowania sztucznej inteligencji w zakresie optymalizacji ruchu drogowego na przykładzie konkretnych narzędzi.
Uczestnik pozna istotę klasycznych, lokalnych algorytmów optymalizacji jak i tych nieklasycznych globalnych.
Uczestnik pozna możliwe zastosowania łączenia technik symulacji (w oparciu o automaty komórkowe), głębokich sieci neuronowych oraz optymalizacji do rozwiązywania problemów NP-trudnych.

Wymagania wobec uczestników:

Warto, żeby uczestnik miał ogólną wiedzę o machine learningu na poziomie podstawowym.
Komputer może się przydać, ale nie będzie niezbędny.

Uogólnione modele addytywne (GAMs) – co mogą zrobić dla Ciebie i jak ich używać

Adrian Foltyn

External Data Science Expert, HelloFresh (Berlin) i Trans.eu (Wrocław)

Agenda:

Dlaczego GAMs?
Czym są GAMs? – nieco matematyki, ale nie za dużo 😉
Najlepsze implementacje GAMs w R (mgcv) i Pythonie
Przykłady użycia GAMs w prognozowaniu popytu i modelowaniu zwrotu z inwestycji w marketing
Inne zastosowania: pozostałe transformacje zmiennej objaśnianej i modele mieszane
Pytania i odpowiedzi

Słowa kluczowe
#modelenieliniowe #splajny #GAMs #mgcv #prognozowanie #marketingROI #marketingattribution

Wiedza, którą uczestnik wyniesie z udziału w tutorialu:

dlaczego i w jakich przypadkach warto stosować GAMs
jakie parametry można dostosowywać w ramach GAMs i jakie są (moje) najlepsze praktyki w tym zakresie
jak interpretować wyniki zwracane przez najpopularniejsze pakiety
gdzie szukać dalszych informacji o zaawansowanych przypadkach użycia GAMs

Wymagania wobec uczestników:

Najlepsza implementacja GAMs istnieje w tej chwili w R, stąd większość zajęć będzie skoncentrowana wokół kodu R. Podstawowa wiedza z zakresu stosowania składni modeli (G)LM w R wystarczy, pewna wiedza statystyczna dot. estymacji największej wiarygodności oraz uogólnionej walidacji krzyżowej może być przydatna dla głębszego zrozumienia matematyki GAMs, ale nie jest konieczna do osiągnięcia założonych rezultatów szkolenia. Tutorialowi będzie towarzyszył udostępniony przykładowy kod w R i Pythonie, którego wykonanie będzie można śledzić na swoim komputerze.

Od Danych Do Akcji – o wizualizacji

Krzysztof Bury

Senior Data Engineer, General Electric

Opis:

Warsztaty mają na celu przeprowadzenie uczestnika od etapu „surowych danych” przez proces ich przetwarzania, wizualizacji aż do analizy. Zwrócimy uwagę na najczęstsze problemy przy przetwarzaniu danych, jak uniknąć nieczytelnych wizualizacji i jak budować analizy, które pomogą zrozumieć sens naszych danych i podjąć kluczowe decyzje biznesowe.

W trakcie omówimy przykład praktycznych danych otrzymany z użyciem algorytmu ML, które będziemy łączyć do istniejącego data setu i wykonywać kod ML bezpośrednio w aplikacjach raportowych

Agenda:

Przywitanie i dwa słowa wstępu
Wprowadzenie do narzędzia i odrobinka historii, (dlaczego Qlik)
QlikCloud – tworzenie konta i podstawy korzystania z oprogramowania
Praktyczne przetwarzanie danych
Praktyczna wizualizacja i analiza danych
Rozszerzenia i funkcje zaawansowane

Słowa kluczowe:

#dane #wizualizacje #analityka #businessintelligence #dataengineering

Wiedza, którą uczestnik wyniesie z udziału w tutorialu:

Jakie są dostępne narzędzia do wizualizacji i czy „do it yourself” ma sens;
Jak w praktyczny sposób podejść do przetwarzania danych;
Jakie są najczęstsze problemy przy przetwarzaniu danych;
Jak poprawić warstwę wizualną aplikacji oparte o danej;
Na co zwracać uwagę w kontekście analizy danych;
Jaką wizualizację dobrać do typu danych które chcesz przedstawić;

Wymagania wobec uczestników:

Podstawowa wiedza biznesowa / IT (przetwarzanie danych)
Jeżeli uczestnik, chce wspólnie z prowadzącym przechodzić przez przetwarzanie, wizualizacje i analizę danych wymagany jest komputer z dostępem do Internetu
W trakcie warsztatów, każdy użytkowników będzie proszony o stworzenie darmowego konta w domenie qlikcloud.com (jeżeli uczestnik nie chcę tworzyć takiego konta, część praktyczna będzie nie możliwa do realizacji; w przypadku pytań co do polityki prywatności itp. Więcej informacji na stronie: https://www.qlikcloud.com/)

Jak zamienić tekst na liczby, czyli zabawy słowem na praktycznych przykładach cz. 1

Joanna Misztal-Radecka

Data Scientist, Ringier Axel Springer Polska Sp. z o.o.

Opis:
Podczas warsztatów dowiesz się, w jaki sposób zamienić tekst na liczby. Poznasz, na czym polega modelowanie tematów i jak znaleźć „temat dnia”. Dowiesz się, jak odszukać synonimy i analogie z użyciem algorytmu Word2Vec oraz jak stworzyć mapę 2D artykułów za pomocą ich wektorowej reprezentacji. Zagadnienia będą omówione na praktycznych przykładach z użyciem narzędzi i bibliotek NLP w języku Python.

Słowa kluczowe:

#NLP #przetwarzanie tekstu #topic modeling #word embeddings #Word2Vec

Wiedza, którą uczestnik wyniesie w udziału:

Jak przygotować tekst do analizy? –oczyszczanie, tokenizacja
Jak zamienić tekst na liczby?– podstawowe metody reprezentacji tekstu w postaci numerycznej (bag of words, tf-idf)
Jak przypisać tematy dla tekstów?– modelowanie tematów – podstawowe algorytmy i zastosowania (LDA)
Jak znaleźć podobne słowa i teksty?wektorowa reprezentacja tekstu (Word2Vec)
Znajomość przydatnych bibliotek i narzędzi NLP w Pythonie.

Wymagania wobec uczestników:

Podstawowa znajomość programowania (Python),

Zainteresowanie tematyką przetwarzania tekstu,

Do aktywnego uczestnictwa w warsztatach potrzebny będzie własny komputer,

W celu pobrania danych do ćwiczeń potrzebne będzie konto na platformie kaggle.com, warunki korzystania z platformy: https://www.kaggle.com/terms

Jak zamienić tekst na liczby, czyli zabawy słowem na praktycznych przykładach cz. 2

Joanna Misztal-Radecka

Data Scientist, Ringier Axel Springer Polska Sp. z o.o.

Opis:
O uczeniu maszynowym najczęściej myślimy jako o „czarnej skrzynce”, która przetwarza dane dane wejściowe i zwraca wyniki. Podczas tych warsztatów skupimy się na tym, jak użyć algorytmów przetwarzania języka (NLP) do lepszego zrozumienia i interpretacji treści.

Z tutorialu nauczysz się, jak zamienić tekst na liczby. Dowiesz się, na czym polega modelowanie tematów i jak znaleźć „temat dnia” na podstawie tekstów wiadomości. Zobaczysz, jak zdefiniować synonimy i analogie z użyciem algorytmu word2vec oraz jak stworzyć semantyczną mapę zbioru tekstów za pomocą ich wektorowej reprezentacji.

Zagadnienia będą omówione na praktycznych przykładach z użyciem narzędzi i bibliotek NLP w języku Python.

Agenda:

Część druga obejmie:

Modelowanie tematów
Text embeddings, word2vec
Własne zadania do wykonania

Słowa kluczowe:

#NLP #przetwarzanie tekstu #topic modeling #word embeddings #Word2Vec

Wiedza, którą uczestnik wyniesie w udziału:

Jak przygotować tekst do analizy? –oczyszczanie, tokenizacja
Jak zamienić tekst na liczby?– podstawowe metody reprezentacji tekstu w postaci numerycznej (bag of words, tf-idf)
Jak przypisać tematy dla tekstów?– modelowanie tematów – podstawowe algorytmy i zastosowania (LDA)
Jak znaleźć podobne słowa i teksty?wektorowa reprezentacja tekstu (Word2Vec)
Znajomość przydatnych bibliotek i narzędzi NLP w Pythonie.

Wymagania wobec uczestników:

Podstawowa znajomość programowania (Python),

Zainteresowanie tematyką przetwarzania tekstu,

Do aktywnego uczestnictwa w warsztatach potrzebny będzie własny komputer,

W celu pobrania danych do ćwiczeń potrzebne będzie konto na platformie kaggle.com, warunki korzystania z platformy: https://www.kaggle.com/terms

Webscrapping czyli ekstrakcja danych ze stron WWW

Bartosz Sękiewicz

niezależny Data Scientist,

Moim celem będzie pokazanie z jakimi problemami można spotkać się podczas pobierania treści ze stron internetowych. Poruszone zostaną następujące zagadnienia:

Struktura stron www
Ekstrakcja danych za pomocą css selector oraz xpath
Komunikacja ze stronami – zapytania GET i POST
Narzędzia deweloperskie do śledzenia zapytań

Słowa kluczowe:

#webscraping #R

Co zyska uczestnik?

Przekrojową, praktyczną wiedzę na temat web scrapingu
„Dożywotni” dostęp do materiałów (prywatne repozytorium na GitHubie)
„Dożywotni” dostęp do dedykowanej grupy na Slacku

Wymagania wobec uczestnika:

Własny laptop z R i RStudio + podstawowa znajomość R.

Edge analytics z wykorzystaniem Apache NiFi i Apache Kylo

Dr inż. Kamil Folkert

CTO, Członek Zarządu, 3Soft S.A.

Tomasz Mirowski

Architekt IT, 3Soft S.A.

Celem warsztatów jest zapoznanie uczestników z możliwościami narzędzi Kylo oraz NiFi. Pokażemy w jaki sposób poradzić sobie z obsługą różnych źródeł danych, nietypową strukturą danych źródłowych oraz jak rozszerzyć podstawowe możliwości procesów data ingestion o dodatkowe zadania analityczne realizowane w modelu Edge Analytics.

Agenda:

Kilka słów wstępu
Wprowadzenie do narzędzi Kylo oraz Nifi
Praktyczne zastosowanie – użycie komponentów i szablonów
Rozszerzenie funkcjonalności narzędzi o elementy Edge Analytics

Słowa kluczowe:

#kylo, #nifi, #edgeanalytics

Korzyści, jakie użytkownik wyniesie z warsztatu:

Zapoznanie się ze środowiskiem Kylo i NiFi
Zrozumienie zasady działania NiFi
Przekrojową wiedzę na temat możliwych zastosować komponentów
Praktyczną wiedzę na temat budowania dedykowanych przepływów danych z użyciem Kylo i NiFi
Umiejętność rozszerzenia procesów data ingestion o elementy Edge Analytics

Wymagania wobec uczestnika:

Każdy uczestnik warsztatów, który chce samodzielnie realizować zadania praktycznie, powinien mieć ze sobą komputer z dostępem do Internetu oraz zainstalowaną przeglądarką internetową.

Predykcja popytu w czasie

Vladimir Alekseichenko

CEO & Founder, DataWorkshop

Prognoza popytu jest jednym z najbardziej popularnych zadań w logistyce. To zarazem spore wyzwanie – natomiast wykorzystanie Machine Learning może tutaj pomóc. Upraszcza realizację zadania i pomaga uzyskać bardzo dobre wyniki.

Słowa kluczowe:

#python, #sklearn #timeseries #machinelearning

Dzięki tutorialowi uczestnik dowie się:

czym są szeregi czasowe
jak uczenie maszynowe może pomóc je rozwiązywać
w jaki sposób samemu zbudować (prosty) model do prognozy popytu

To może być Twój pierwszy krok w kierunku szeregów czasowych i uczenia maszynowego.

Wymagania wobec uczestnika:

Trzeba mieć ze sobą laptop oraz przeglądarkę. Całe środowisko, już będzie przygotowane przez prowadzącego.
Posiadać podstawy z Pythona (oraz numpy, pandas, slearn). Podstawy z uczenia maszynowego są mile widziane.
Warto też mieć … dobry humor i być otwartym na poznawanie nowych rzeczy.

RELACJA 2018

SESJA PLENARNA

SESJA WARSZTATOWA

Wprowadzenie do Pythona w kontekście Machine Learning

Wprowadzenie do R w kontekście Machine Learning

Analiza języka naturalnego

Wykorzystanie Azure Machine Learning i Power BI przy predykcji w czasie rzeczywistym

Podstawy Przetwarzania Języka Naturalnego - klasyfikacja spamu, klasyfikacja języków programowania

Algorytmy genetyczne i inne metod optymalizacji – dopasowanie do odpowiednich klas problemów i zastosowań

Uogólnione modele addytywne (GAMs) - co mogą zrobić dla Ciebie i jak ich używać

Od Danych Do Akcji – o wizualizacji

Tworzenie i wdrażanie rozwiązań analitycznych wykorzystujących R i Pythona

Podstawy Reinforcement Learning (praktyczne rozwiązywanie problemów w środowisku Open AI gym)

Edge analytics z wykorzystaniem Apache NiFi i Apache Kylo

Jak zamienić tekst na liczby, czyli zabawy słowem na praktycznych przykładach cz. 1

Nie ufaj - wyjaśnianie predykcji modelu uczenia maszynowego

Predykcja popytu w czasie

Webscrapping czyli ekstrakcja danych ze stron WWW

Jak zamienić tekst na liczby, czyli zabawy słowem na praktycznych przykładach cz. 2

Wprowadzenie do Pythona w kontekście Machine Learning

#python, #numpy, #pandas, #wprowadzenie

Wprowadzenie do R w kontekście Machine Learning

#R, #dplyr, #mlr

Tworzenie i wdrażanie rozwiązań analitycznych wykorzystujących R i Pythona

Nie ufaj – wyjaśnianie predykcji modelu uczenia maszynowego

Podstawy Przetwarzania Języka Naturalnego – klasyfikacja spamu, klasyfikacja języków programowania

Podstawy Reinforcement Learning (praktyczne rozwiązywanie problemów w środowisku Open AI gym)

Analiza języka naturalnego

Wykorzystanie Azure Machine Learning i Power BI przy predykcji w czasie rzeczywistym.

Algorytmy genetyczne i inne metod optymalizacji – dopasowanie do odpowiednich klas problemów i zastosowań

Uogólnione modele addytywne (GAMs) – co mogą zrobić dla Ciebie i jak ich używać

Od Danych Do Akcji – o wizualizacji

Jak zamienić tekst na liczby, czyli zabawy słowem na praktycznych przykładach cz. 1

#NLP #przetwarzanie tekstu #topic modeling #word embeddings #Word2Vec

Jak zamienić tekst na liczby, czyli zabawy słowem na praktycznych przykładach cz. 2

#NLP #przetwarzanie tekstu #topic modeling #word embeddings #Word2Vec

Webscrapping czyli ekstrakcja danych ze stron WWW

Edge analytics z wykorzystaniem Apache NiFi i Apache Kylo

Predykcja popytu w czasie