Konferencja „Machine Learning@Enterprise 2018” odbędzie się w dniu 18 września 2018 r. w Airport Hotel Okęcie przy ul. Komitetu Obrony Robotników 24 (dawniej 17 Stycznia) w Warszawie.

8.30 - 9.00

Rejestracja uczestników i poranna kawa

9.00 - 9.10

Powitanie uczestników i otwarcie konferencji

Przemysław Gamdzyk

CEO & Meeting Designer, Evention

SESJA PLENARNA

9:10 - 9:35

Prezentacja raportu „Przegląd strategii rozwoju sztucznej inteligencji na świecie” czyli jak robią to inni

Piotr Mieczkowski

Dyrektor Wykonawczy, Fundacja Digital Poland

9:35 - 10:15

Dyskusja panelowa: Polski program rozwojowy sztucznej inteligencji – jak zrobić to mądrze?

Czy faktycznie AI stwarza dla Polski istotną perspektywę rozwojową i stanowi potencjalny motor napędu innowacji? Co musimy zrobić, by zyskać efekt skali? Czy starczy nam kadr? Jak utrzymać fachowców w Polsce? Jak i gdzie ich kształcić? Czy i w jaki sposób wspierać start-upy w obszarze AI?

Udział wezmą przedstawiciele firm aktywnych w świecie AI, przedstawiciele administracji centralnej oraz przedstawiciele świata nauki.

Przemysław Gamdzyk

CEO & Meeting Designer, Evention

dr Dominik Batorski

ICM Uniwersytet Warszawski, Sotrender

Robert Kroplewski

Pełnomocnik Ministra Cyfryzacji do spraw społeczeństwa informacyjnego, Ministerstwo Cyfryzacji

dr inż. Tomasz Trzciński

Chief Scientist oraz Adiunkt, Tooploox / Politechnika Warszawska

Przemysław Chojecki

CEO, ulam.ai

Dawid Detko

Data Science Architect & Team Leader, Predica

10.15 - 10.40

Przerwa kawowa

SESJA WARSZTATOWA

Dalsza część konferencji toczy się w ramach równoległych ścieżek, w których odbywają się półtora i dwugodzinne tutoriale. Każdy z uczestników będzie mógł wybrać interesujące go tematy, tworząc swoją indywidualna agendę. Zapisy odbędą się w formie ankiety online, którą każdy z uczestników otrzyma bezpośrednio po rejestracji na konferencję.

12.10 - 12.25

Przerwa

13.55 - 14.40

Obiad

16.10 - 16.25

Przerwa

 

 

 

Wprowadzenie do Pythona w kontekście Machine Learning

Vladimir Alekseichenko

CEO & Founder, DataWorkshop

Podczas tutoriala poznasz podstawy Pythona z naciskiem na uczenie maszynowe, co powinno rzeczywiście ułatwić wejście w świat uczenia maszynowego.

Dzięki tutorialowi uczestnik dowie się:

  • jak wygląda podstawowa składnia Pythona
  • jakie są podstawy korzystania z Numpy
  • czy jest Pandas

Słowa klucze:

#python, #numpy, #pandas, #wprowadzenie

Wymagania wobec uczestnika:

Uczestnik powinien mieć ze sobą laptop oraz przeglądarkę. Całe środowisko będzie już przygotowane przez prowadzącego. I oczywiście warto mieć dobry humor i być otwartym do poznawania nowych rzeczy.

Wprowadzenie do R w kontekście Machine Learning

Marta Sommer

Data Sciencist, Agora

Opis:

W czasie warsztatów przeprowadzimy cały proces potrzebny do stworzenia modelu. Zajmiemy się więc:

  1. wstępem do R, aby móc się w tym środowisku poruszać (co to są pakiety, jak wczytać dane, podstawowe instrukcje),
  2. przetwarzaniem danych (filtrowaniem, czyszczeniem, podsumowywaniem, wyciąganiem pierwszych wniosków),
  3. stworzeniem prostego modelu.

Zapoznamy się z pakietami takimi jak: dplyr, mlr.

Słowa kluczowe:

#R, #dplyr, #mlr

Wymagania wobec uczestnika:

Warsztat skierowany jest do osób, które nie miały jeszcze styczności z R lub kontakt z R miały, ale chciałyby sobie uporządkować lub przypomnieć proces analityczny w tym języku.

Komputer z zainstalowaną najnowszą wersją R i RStudio oraz dostęp do Internetu. Komputer nie jest jednak niezbędny – wszystkie materiały będą udostępnione na moim GitHubie.

Tworzenie i wdrażanie rozwiązań analitycznych wykorzystujących R i Pythona

Piotr Chaberski

Data Scientist, WLOG Solutions

Opis:

Podczas tutoriala pokażę, jak z użyciem narzędzia R Suite można w wygodny sposób tworzyć, rozwijać i wdrażać rozwiązania analityczne w R dodatkowo wykorzystujące funkcjonalności Pythona, przy zachowaniu reprodukowalności i pełnej kontroli nad środowiskiem, pakietami i zależnościami. Krok po kroku opowiem i zademonstruję jak:

  • przygotować projekt i zarządzać zależnościami,
  • jak utworzyć lokalne środowisko Pythonowe wewnątrz projektu R-owego,
  • jak zaimplementować w projekcie R-owym model sieci neuronowej, która wykorzystuje frameworki wymagające Pythona,
  • jak jednym poleceniem przygotować paczkę wdrożeniową, która nie wymaga żadnej instalacji ani konfiguracji środowiska produkcyjnego,
  • …oraz właściwie po co to wszystko robić.

Słowa kluczowe:

#R, #Python, #R_Suite, #integracja, #wdrożenie, #reprodukowalność

Dzięki tutorialowi uczestnik dowie się jak:

  • tworzyć i zarządzać w sposób w pełni reprodukowalny projektem R-owym z wykorzystaniem R Suite
  • wykorzystać w swoim rozwiązaniu najlepsze cechy dwóch najpopularniejszych języków w świecie data science
  • stworzyć paczkę wdrożeniową, której wdrożenie na produkcję wymaga minimalnego wysiłku

Wymagania wobec uczestnika:

Uczestnik powinien znać podstawy R, Pythona i zagadnień machine learning. Plusem będzie, jeśli zetknął się bezpośrednio z problematyką reprodukowalności i wdrażania modeli analitycznych w biznesie.

Jeśli uczestnik będzie chciał pracować równolegle z prowadzącym, powinien mieć ze sobą komputer z dostępem do internetu i Windowsem (zalecane, ponieważ na tym systemie przygotowany będzie tutorial, natomiast posiadacze Linuksa również powinni być w stanie odtworzyć wszystkie kroki). Na komputerze powinny być zainstalowane w najnowszych wersjach:

  • R (dla Windows: https://cran.r-project.org/bin/windows/base/)
  • RStudio (https://www.rstudio.com/products/rstudio/download/)
  • R Suite CLI (http://rsuite.io/RSuite_Download.php)
  • Miniconda (https://conda.io/miniconda.html)

Nie ufaj – wyjaśnianie predykcji modelu uczenia maszynowego

Mateusz Opala

Machine Learning Tech Lead, Netguru

Sieci neuronowe są powszechnie uważane za black-boxy. W wielu obszarach zastosowań uczenia maszynowego, takich jak medycyna, nie tylko wysoka skuteczność, ale również wyjaśnienie predykcji wydaje się być kluczowe. W moich warsztatach pokażę proste metody lokalnej interpretacji predykcji, które pomogą zrozumieć i poprawić model.

Agenda:

  • Wstęp do zagadnienia intepretowalności modeli
  • Wyjaśnianie modelu dla obrazów
  • Wyjaśnianie modelu dla tekstu

Dlaczego warto wziąć udział:

  • poznasz bliżej problem intepretowalnośći modeli
  • poznasz sposoby na intepretowanie modeli uczenia maszynowego
  • nauczysz się w praktyce zastosować wyjaśnianie modeli uczenia maszynowego

Wymagania:

  • podstawowa znajomość Pythona
  • elementarna wiedza o Jupyter notebooks
  • Znajomość modeli takich jak SVM, RandomForest czy głębokie sieci neuronowe
  • Konieczny komputer na warsztacie

Podstawy Przetwarzania Języka Naturalnego – klasyfikacja spamu, klasyfikacja języków programowania

Kamil Krzyk

Machine Learning Engineer, Cosmose

Opis:

Przetwarzanie Języka Naturalnego (NLP) jest jedną z większych dziedzin w których wykorzystywane są algorytmy Uczenia Maszynowego. Tekst znajduje się wszędzie a jego analiza i klasyfikacja pozwala na usprawnienie wielu obszarów biznesu. Ilość zagadnień do jakich NLP może zostać zastosowane jest ogromna: od syntezowania mowy, translacji tekstu, generacji tekstu, sumaryzacji tekstu, przewidywanie kolejnego wyrazu po analizę sentymentu, czy po prostu przypisanie klasy do fragmentu tekstu.

W tym warsztacie chcę pokazać w jaki sposób w patrzeć na dane tekstowe oraz jak przygotować je do podania do algorytmu Uczenia Maszynowego. Przedstawię jedną z najprostszych technik zamiany tekstu na liczby, jaką jest Bag-of-Words. Zostanie ona wykorzystana do wytrenowania modelu Uczenia Maszynowego, który będzie w stanie klasyfikować języki programowania. Po drodze uczestnicy będą mieli okazję przejść przez cały proces – wczytywania danych, eksploracji danych, data wranglingu, budowania i trenowania modelu oraz analizy jego sprawności. Sposób w jaki zostaną potraktowane dane jest bardzo ogólny i może zostać zastosowany do rozwiązania wielu innych problemów NLP.

Uczestnicy otrzymają odpowiednio przygotowane Jupyter Notebooki, zawierające odpowiednie wskazówki i wyselekcjonowaną dokumentację w celu ułatwienia i przyśpieszenia pracy. Zadaniem uczestników będzie wypełnienie brakujących luk w kodzie po wyjaśnieniach prowadzącego. Każdy rezultat pracy będzie automatycznie testowany dzięki czemu szybko będzie można zlokalizować potencjalne problemy oraz blokery. Każdy uczestnik uzyska notebook z notatkami i rozwiązaniem. Dodatkowo użytkownicy otrzymają notebook pokazujący w jaki sposób zaimplementować technikę Bag-of-Words w czystym Pythonie i wykorzystam do modelu klasyfikującego e-maile na spam lub nie-spam. W notebooku znajdą się też linki do źródeł, które pozwolą na poszerzenie wiedzy w temacie.

Agenda:

  1. Wykład (~20min):
    • omówienie jak przygotowywać dane tekstowe
    • omówienie algorytmu RandomForest
  2. Część pokazowa (~15min):
    • wczytanie i eksploracja danych
    • omówienie komponentów sklearn: CountVectorizer, train_test_split, GridSearchCV, confusion_matrix, f1_score, accuracy_score
  3. Praktyka (~55min):
    • przygotowanie danych tekstowych przy użyciu sklearn
    • podzielenie danych na zbiory testowy/treningowy
    • użycie algorytmu RandomForest do rozwiązania problemu wraz ze znalezieniem odpowiednich hiperparametrów
    • policzenie metryki dla stworzonego modelu

Słowa Kluczowe:
#python #machine_learning #jupyter_notebook #colaboratory #scikit-learn #numpy #natural_language_processing #bag_of_words #random_forests #decision_trees

Co wyniesie użytkownik:

  • Zapoznanie się z nowym, lecz nadal niezbyt popularnym środowiskiem Colaboratory, który pozwala uruchomić sesję Jupyter Notebooka w chmurze i dzielić się z nią innymi użytkownikami.
  • Podstawowa teoria przygotowania danych tekstowych do wykorzystania w Machine Learningu.
  • Zrozumienie techniki Bag-of-words.
  • Przygotowanie danych tekstowych przy pomocy dostępnych narzędzi w sklearn.
  • Teoria i użycie algorytmu RandomForest do rozpoznawania spamu (klasyfikacja binarna), rozróżniania języków programowania (18 klas).
  • Ogólna wiedza zdobyta po drodze: eksploracja danych, podział i podanie danych do modelu, ewaluacja modelu, nastawianie parametrów modelu.  

Wymagania:

  • Podstawy programowania w języku Python.
  • Przeglądarka Google Chrome i konto Google.
  • Jednorazowe uruchomienie “Hello World!” Google Colaboratory (link: https://colab.research.google.com/notebooks/welcome.ipynb)
  • Wcześniejszy kontakt z Jupyter Notebookiem, uruchomienie biblioteki NumPy oraz Pandas jest mile widziane.

Podstawy Reinforcement Learning (praktyczne rozwiązywanie problemów w środowisku Open AI gym)

Jeremi Kaczmarczyk

AI / iOS engineer, Tooploox

Piotr Semberecki

AI engineer, Tooploox

Reinforcement Learning z roku na rok coraz bardziej rozpala wyobraźnię oraz powoduje dyskusje na temat Sztucznej Inteligencji. Wprawdzie przełomem okazało się użycie sieci neuronowych co pozwoliło dziedzinie rozwinąć skrzydła, my na warsztatach zajmiemy się podstawami niezbędnymi do zrozumienia oraz zrobienia pierwszych kroków w tym ekscytującym świecie. Poznamy środowisko Open AI Gym, które pozwala skupić się na rozwiązywaniu problemów i nauce zamiast na implementacjach i przerabianiu gier. W części praktycznej napiszemy kilka algorytmów z rodziny Monte Carlo oraz Temporal-Difference Learning, przetestujemy je i porównamy.

Agenda:

Część teoretyczna

  1. Podstawowe pojęcia i problemy domenowe
  2. Środowisko OpenAI Gym
  3. Proces Decyzyjny Markowa

Część praktyczna

  1. Metodologia Monte Carlo
  2. Temporal-Difference Learning

Słowa Kluczowe:
#reinforcement_learning  #monte_carlo_method #temporal_difference_learning  #markov_decision_process #python #jupyter_notebook

Dlaczego warto wziąć udział:

  • Zapoznanie się z podstawami uczenia ze wzmocnieniem (Reinforcement Learning)
  • Zapoznanie się ze środowiskiem OpenAI Gym
  • Zrozumienie metodologii Monte Carlo
  • Zrozumienie algorytmów Temporal-Difference
  • Użycie algorytmów do rozwiązania problemów z OpenAI Gym

Wymagania:

Analiza języka naturalnego

Łukasz Prokulski

Koordynator procesu rozwoju i analiz portfela projektów , PZU SA

Agenda:

  • Do czego może przydać się analiza tekstu
  • Skąd wziąć dane tekstowe
  • Przygotowanie i podstawowa analiza tekstu
  • Zagadka kryminalna: kto napisał książkę

Słowa kluczowe:

#EDA, #NLP, #natural_language_processing, #analiza_języka_naturalnego, #przetwarzanie_tekstu, #LDA, #TF-IDF

Co użytkownik zyska:

Dowiesz się jak przetworzyć tekst w języku R z użyciem stosownych pakietów, wyszukać najpopularniejsze słowa (tf-idf). Spróbujemy znaleźć tematy kilku lektur szkolnych (LDA), porównać język ich autorów i znajdziemy autora nieznanego tekstu.

Wymagania wobec uczestnika:

  • Zainteresowanie tematyką przetwarzania tekstu
  • Podstawowa znajomość programowania (R)
  • Przydatna będzie znajomość pakierów tidyverse i tidytext
  • Własny komputer z zainstalowanym R/RStudio – dla chcących aktywnie uczestniczyć w warsztacie

Wykorzystanie Azure Machine Learning i Power BI przy predykcji w czasie rzeczywistym.

Dawid Detko

Data Science Architect & Team Leader, Predica

Podczas warsztatu zostanie zbudowane rozwiązanie pozwalające pobierać dane z urządzeń typu IoT, przetwarzać je, wzbogacać o dodatkowe informacje, by finalnie zwizualizować je w Power BI i obserwować wyniki w czasie rzeczywistym.

W początkowej fazie warsztatu zostanie wytrenowana dwuklasowa sieć neuronowa pozwalająca dokonywać predykcji prawdopodobieństwa wystąpienia zdarzenia.

Dzięki tutorialowi uczestnik dowie się:

  • Jak sprawnie tworzyć pełne rozwiązania analityczne
  • Jak korzystać z serwisów chmurowych
  • Jak wykorzystywać Power BI do wizualizacji danych w czasie rzeczywistym

Słowa klucze:

#AzureML, #PowerBI, #NeuralNetwork, #IoT, #RealTimeAnalysis

Wymagania wobec uczestnika:

Uczestnik powinien mieć ze sobą laptop oraz przeglądarkę. Wszystkie niezbędne komponenty będą przygotowane przez prowadzącego.

Algorytmy genetyczne i inne metod optymalizacji – dopasowanie do odpowiednich klas problemów i zastosowań

Jacek Dziwisz

Artificial Intelligence Researcher, TensorCell

Opis:

Opowiem o projekcie TensorCell dotyczącym optymalizacji ruchu drogowego przy pomocy algorytmów uczenia maszynowego (np. sieci neuronowych, XGBoost) oraz algorytmów ewolucyjnych. Przedstawię tworzone przez nas narzędzia informatyczne oraz wyniki najnowszych eksperymentów przeprowadzonych z wykorzystaniem m.in. algorytmów genetycznych i optymalizacji gradientowej.

Słowa kluczowe:

#deeplearning #xgboost #optimization #genetic_algorithm #gradient_optimization #python

Wiedza, którą uczestnik wyniesie z udziału w tutorialu:

  • Uczestnik pozna możliwe zastosowania sztucznej inteligencji w zakresie optymalizacji ruchu drogowego na przykładzie konkretnych narzędzi.
  • Uczestnik pozna istotę klasycznych, lokalnych algorytmów optymalizacji jak i tych nieklasycznych globalnych.
  • Uczestnik pozna możliwe zastosowania łączenia technik symulacji (w oparciu o automaty komórkowe), głębokich sieci neuronowych oraz optymalizacji do rozwiązywania problemów NP-trudnych.

Wymagania wobec uczestników:

  • Warto, żeby uczestnik miał ogólną wiedzę o machine learningu na poziomie podstawowym.
  • Komputer może się przydać, ale nie będzie niezbędny.

Uogólnione modele addytywne (GAMs) – co mogą zrobić dla Ciebie i jak ich używać

Adrian Foltyn

External Data Science Expert, HelloFresh (Berlin) i Trans.eu (Wrocław)

Agenda:

  1. Dlaczego GAMs?
  2. Czym są GAMs? – nieco matematyki, ale nie za dużo 😉
  3. Najlepsze implementacje GAMs w R (mgcv) i Pythonie
  4. Przykłady użycia GAMs w prognozowaniu popytu i modelowaniu zwrotu z inwestycji w marketing
  5. Inne zastosowania: pozostałe transformacje zmiennej objaśnianej i modele mieszane
  6. Pytania i odpowiedzi

Słowa kluczowe
#modelenieliniowe #splajny #GAMs #mgcv #prognozowanie #marketingROI #marketingattribution

Wiedza, którą uczestnik wyniesie z udziału w tutorialu:

  • dlaczego i w jakich przypadkach warto stosować GAMs
  • jakie parametry można dostosowywać w ramach GAMs i jakie są (moje) najlepsze praktyki w tym zakresie
  • jak interpretować wyniki zwracane przez najpopularniejsze pakiety
  • gdzie szukać dalszych informacji o zaawansowanych przypadkach użycia GAMs

Wymagania wobec uczestników:

Najlepsza implementacja GAMs istnieje w tej chwili w R, stąd większość zajęć będzie skoncentrowana wokół kodu R. Podstawowa wiedza z zakresu stosowania składni modeli (G)LM w R wystarczy, pewna wiedza statystyczna dot. estymacji największej wiarygodności oraz uogólnionej walidacji krzyżowej może być przydatna dla głębszego zrozumienia matematyki GAMs, ale nie jest konieczna do osiągnięcia założonych rezultatów szkolenia. Tutorialowi będzie towarzyszył udostępniony przykładowy kod w R i Pythonie, którego wykonanie będzie można śledzić na swoim komputerze.

Od Danych Do Akcji – o wizualizacji

Krzysztof Bury

Senior Data Engineer, General Electric

Opis:

Warsztaty mają na celu przeprowadzenie uczestnika od etapu „surowych danych” przez proces ich przetwarzania, wizualizacji aż do analizy. Zwrócimy uwagę na najczęstsze problemy przy przetwarzaniu danych, jak uniknąć nieczytelnych wizualizacji i jak budować analizy, które pomogą zrozumieć sens naszych danych i podjąć kluczowe decyzje biznesowe.

W trakcie omówimy przykład praktycznych danych otrzymany z użyciem algorytmu ML, które będziemy łączyć do istniejącego data setu i wykonywać kod ML bezpośrednio w aplikacjach raportowych

Agenda:

  • Przywitanie i dwa słowa wstępu
  • Wprowadzenie do narzędzia i odrobinka historii, (dlaczego Qlik)
  • QlikCloud – tworzenie konta i podstawy korzystania z oprogramowania
  • Praktyczne przetwarzanie danych
  • Praktyczna wizualizacja i analiza danych
  • Rozszerzenia i funkcje zaawansowane

Słowa kluczowe:

#dane #wizualizacje #analityka #businessintelligence #dataengineering

Wiedza, którą uczestnik wyniesie z udziału w tutorialu:

  • Jakie są dostępne narzędzia do wizualizacji i czy „do it yourself” ma sens;
  • Jak w praktyczny sposób podejść do przetwarzania danych;
  • Jakie są najczęstsze problemy przy przetwarzaniu danych;
  • Jak poprawić warstwę wizualną aplikacji oparte o danej;
  • Na co zwracać uwagę w kontekście analizy danych;
  • Jaką wizualizację dobrać do typu danych które chcesz przedstawić;

Wymagania wobec uczestników:

  • Podstawowa wiedza biznesowa / IT (przetwarzanie danych)
  • Jeżeli uczestnik, chce wspólnie z prowadzącym przechodzić przez przetwarzanie, wizualizacje i analizę danych wymagany jest komputer z dostępem do Internetu
  • W trakcie warsztatów, każdy użytkowników będzie proszony o stworzenie darmowego konta w domenie qlikcloud.com (jeżeli uczestnik nie chcę tworzyć takiego konta, część praktyczna będzie nie możliwa do realizacji; w przypadku pytań co do polityki prywatności itp. Więcej informacji na stronie: https://www.qlikcloud.com/)

Jak zamienić tekst na liczby, czyli zabawy słowem na praktycznych przykładach cz. 1

Joanna Misztal-Radecka

Data Scientist, Ringier Axel Springer Polska Sp. z o.o.

Opis:
Podczas warsztatów dowiesz się, w jaki sposób zamienić tekst na liczby. Poznasz, na czym polega modelowanie tematów i jak znaleźć „temat dnia”. Dowiesz się, jak odszukać synonimy i analogie z użyciem algorytmu Word2Vec oraz jak stworzyć mapę 2D artykułów za pomocą ich wektorowej reprezentacji. Zagadnienia będą omówione na praktycznych przykładach z użyciem narzędzi i bibliotek NLP w języku Python.

Słowa kluczowe:

#NLP  #przetwarzanie tekstu  #topic modeling  #word embeddings  #Word2Vec

Wiedza, którą uczestnik wyniesie w udziału:

  • Jak przygotować tekst do analizy? –oczyszczanie, tokenizacja
  • Jak zamienić tekst na liczby?– podstawowe metody reprezentacji tekstu w postaci numerycznej (bag of words, tf-idf)
  • Jak przypisać tematy dla tekstów?– modelowanie tematów – podstawowe algorytmy i zastosowania (LDA)
  • Jak znaleźć podobne słowa i teksty?wektorowa reprezentacja tekstu (Word2Vec)
  • Znajomość przydatnych bibliotek i narzędzi NLP w Pythonie.

Wymagania wobec uczestników:

  • Podstawowa znajomość programowania (Python),
  • Zainteresowanie tematyką przetwarzania tekstu,
  • Do aktywnego uczestnictwa w warsztatach potrzebny będzie własny komputer,

Jak zamienić tekst na liczby, czyli zabawy słowem na praktycznych przykładach cz. 2

Joanna Misztal-Radecka

Data Scientist, Ringier Axel Springer Polska Sp. z o.o.

Opis:
O uczeniu maszynowym najczęściej myślimy jako o „czarnej skrzynce”, która przetwarza dane dane wejściowe i zwraca wyniki. Podczas tych warsztatów skupimy się na tym, jak użyć algorytmów przetwarzania języka (NLP) do lepszego zrozumienia i interpretacji treści.

Z tutorialu nauczysz się, jak zamienić tekst na liczby. Dowiesz się, na czym polega modelowanie tematów i jak znaleźć „temat dnia” na podstawie tekstów wiadomości. Zobaczysz, jak zdefiniować synonimy i analogie z użyciem algorytmu word2vec oraz jak stworzyć semantyczną mapę zbioru tekstów za pomocą ich wektorowej reprezentacji.

Zagadnienia będą omówione na praktycznych przykładach z użyciem narzędzi i bibliotek NLP w języku Python.

Agenda:

Część druga obejmie:

  1. Modelowanie tematów
  2. Text embeddings, word2vec
  3. Własne zadania do wykonania

Słowa kluczowe:

#NLP  #przetwarzanie tekstu  #topic modeling  #word embeddings  #Word2Vec

Wiedza, którą uczestnik wyniesie w udziału:

  • Jak przygotować tekst do analizy? –oczyszczanie, tokenizacja
  • Jak zamienić tekst na liczby?– podstawowe metody reprezentacji tekstu w postaci numerycznej (bag of words, tf-idf)
  • Jak przypisać tematy dla tekstów?– modelowanie tematów – podstawowe algorytmy i zastosowania (LDA)
  • Jak znaleźć podobne słowa i teksty?wektorowa reprezentacja tekstu (Word2Vec)
  • Znajomość przydatnych bibliotek i narzędzi NLP w Pythonie.

Wymagania wobec uczestników:

  • Podstawowa znajomość programowania (Python),
  • Zainteresowanie tematyką przetwarzania tekstu,
  • Do aktywnego uczestnictwa w warsztatach potrzebny będzie własny komputer,

Webscrapping czyli ekstrakcja danych ze stron WWW

Bartosz Sękiewicz

niezależny Data Scientist,

Moim celem będzie pokazanie z jakimi problemami można spotkać się podczas pobierania treści ze stron internetowych. Poruszone zostaną następujące zagadnienia:

  1. Struktura stron www
  2. Ekstrakcja danych za pomocą css selector oraz xpath
  3. Komunikacja ze stronami – zapytania GET i POST
  4. Narzędzia deweloperskie do śledzenia zapytań

Słowa kluczowe:

#webscraping #R

Co zyska uczestnik?

  1. Przekrojową, praktyczną wiedzę na temat web scrapingu
  2. „Dożywotni” dostęp do materiałów (prywatne repozytorium na GitHubie)
  3. „Dożywotni” dostęp do dedykowanej grupy na Slacku

Wymagania wobec uczestnika:

Własny laptop z R i RStudio + podstawowa znajomość R.

Edge analytics z wykorzystaniem Apache NiFi i Apache Kylo

Dr inż. Kamil Folkert

CTO, Członek Zarządu, 3Soft S.A.

Tomasz Mirowski

Architekt IT, 3Soft S.A.

Celem warsztatów jest zapoznanie uczestników z możliwościami narzędzi Kylo oraz NiFi. Pokażemy w jaki sposób poradzić sobie z obsługą różnych źródeł danych, nietypową strukturą danych źródłowych oraz jak rozszerzyć podstawowe możliwości procesów data ingestion o dodatkowe zadania analityczne realizowane w modelu Edge Analytics.

Agenda:

  • Kilka słów wstępu
  • Wprowadzenie do narzędzi Kylo oraz Nifi
  • Praktyczne zastosowanie – użycie komponentów i szablonów
  • Rozszerzenie funkcjonalności narzędzi o elementy Edge Analytics

Słowa kluczowe:

#kylo, #nifi, #edgeanalytics

Korzyści, jakie użytkownik wyniesie z warsztatu:

  • Zapoznanie się ze środowiskiem Kylo i NiFi
  • Zrozumienie zasady działania NiFi
  • Przekrojową wiedzę na temat możliwych zastosować komponentów
  • Praktyczną wiedzę na temat budowania dedykowanych przepływów danych z użyciem Kylo i NiFi
  • Umiejętność rozszerzenia procesów data ingestion o elementy Edge Analytics

Wymagania wobec uczestnika:

Każdy uczestnik warsztatów, który chce samodzielnie realizować zadania praktycznie, powinien mieć ze sobą komputer z dostępem do Internetu oraz zainstalowaną przeglądarką internetową.

Predykcja popytu w czasie

Vladimir Alekseichenko

CEO & Founder, DataWorkshop

Prognoza popytu jest jednym z najbardziej popularnych zadań w logistyce. To zarazem spore wyzwanie – natomiast wykorzystanie Machine Learning może tutaj pomóc. Upraszcza realizację zadania i pomaga uzyskać bardzo dobre wyniki.

Słowa kluczowe:

#python, #sklearn #timeseries #machinelearning

Dzięki tutorialowi uczestnik dowie się:

  • czym są szeregi czasowe
  • jak uczenie maszynowe może pomóc je rozwiązywać
  • w jaki sposób samemu zbudować (prosty) model do prognozy popytu

To może być Twój pierwszy krok w kierunku szeregów czasowych i uczenia maszynowego.

Wymagania wobec uczestnika:

  • Trzeba mieć ze sobą laptop oraz przeglądarkę. Całe środowisko, już będzie przygotowane przez prowadzącego.
  • Posiadać podstawy z Pythona (oraz numpy, pandas, slearn). Podstawy z uczenia maszynowego są mile widziane.
  • Warto też mieć … dobry humor i być otwartym na poznawanie nowych rzeczy.