Konferencja „Machine Learning@Enterprise 2018” odbędzie się w dniu 18 września 2018 r. w Airport Hotel Okęcie przy ul. Komitetu Obrony Robotników 24 (dawniej 17 Stycznia) w Warszawie.

8.30 - 9.00
Rejestracja uczestników i poranna kawa
9.00 - 9.10
Powitanie uczestników i otwarcie konferencji
Przemysław Gamdzyk
CEO & Meeting Designer, Evention
SESJA PLENARNA
9:10 - 9:35
Prezentacja raportu „Przegląd strategii rozwoju sztucznej inteligencji na świecie” czyli jak robią to inni
Piotr Mieczkowski
Dyrektor Wykonawczy, Fundacja Digital Poland
9:35 - 10:15
Dyskusja panelowa: Polski program rozwojowy sztucznej inteligencji – jak zrobić to mądrze?
Czy faktycznie AI stwarza dla Polski istotną perspektywę rozwojową i stanowi potencjalny motor napędu innowacji? Co musimy zrobić, by zyskać efekt skali? Czy starczy nam kadr? Jak utrzymać fachowców w Polsce? Jak i gdzie ich kształcić? Czy i w jaki sposób wspierać start-upy w obszarze AI?
Udział wezmą przedstawiciele firm aktywnych w świecie AI, przedstawiciele administracji centralnej oraz przedstawiciele świata nauki.
Przemysław Gamdzyk
CEO & Meeting Designer, Evention
dr Dominik Batorski
ICM Uniwersytet Warszawski, Sotrender
Robert Kroplewski
Pełnomocnik Ministra Cyfryzacji do spraw społeczeństwa informacyjnego, Ministerstwo Cyfryzacji
dr inż. Tomasz Trzciński
Chief Scientist oraz Adiunkt, Tooploox / Politechnika Warszawska
Przemysław Chojecki
CEO, ulam.ai
Dawid Detko
Data Science Architect & Team Leader, Predica
dr Karol Przystalski
CTO, Codete
10.15 - 10.40
Przerwa kawowa
SESJA WARSZTATOWA
Dalsza część konferencji toczy się w ramach równoległych ścieżek, w których odbywają się półtora i dwugodzinne tutoriale. Każdy z uczestników będzie mógł wybrać interesujące go tematy, tworząc swoją indywidualna agendę. Zapisy odbędą się w formie ankiety online, którą każdy z uczestników otrzyma bezpośrednio po rejestracji na konferencję.
10.40 - 12.10
Tutoriale cz. I
12.10 - 12.25
Przerwa
12.25 - 13.55
Tutoriale cz. II
13.55 - 14.40
Obiad
14.40 - 16.10
Tutoriale cz. III
16.10 - 16.25
Przerwa
16.25 - 18.15
Tutoriale cz. IV
Wprowadzenie do Pythona w kontekście Machine Learning
Vladimir Alekseichenko
CEO & Founder, DataWorkshop
Podczas tutoriala poznasz podstawy Pythona z naciskiem na uczenie maszynowe, co powinno rzeczywiście ułatwić wejście w świat uczenia maszynowego.
Dzięki tutorialowi uczestnik dowie się:
- jak wygląda podstawowa składnia Pythona
- jakie są podstawy korzystania z Numpy
- czy jest Pandas
Słowa klucze:
#python, #numpy, #pandas, #wprowadzenie
Wymagania wobec uczestnika:
Uczestnik powinien mieć ze sobą laptop oraz przeglądarkę. Całe środowisko będzie już przygotowane przez prowadzącego. I oczywiście warto mieć dobry humor i być otwartym do poznawania nowych rzeczy.
Wprowadzenie do R w kontekście Machine Learning
Marta Sommer
Data Sciencist, Agora
Opis:
W czasie warsztatów przeprowadzimy cały proces potrzebny do stworzenia modelu. Zajmiemy się więc:
- wstępem do R, aby móc się w tym środowisku poruszać (co to są pakiety, jak wczytać dane, podstawowe instrukcje),
- przetwarzaniem danych (filtrowaniem, czyszczeniem, podsumowywaniem, wyciąganiem pierwszych wniosków),
- stworzeniem prostego modelu.
Zapoznamy się z pakietami takimi jak: dplyr, mlr.
Słowa kluczowe:
#R, #dplyr, #mlr
Wymagania wobec uczestnika:
Warsztat skierowany jest do osób, które nie miały jeszcze styczności z R lub kontakt z R miały, ale chciałyby sobie uporządkować lub przypomnieć proces analityczny w tym języku.
Komputer z zainstalowaną najnowszą wersją R i RStudio oraz dostęp do Internetu. Komputer nie jest jednak niezbędny – wszystkie materiały będą udostępnione na moim GitHubie.
Tworzenie i wdrażanie rozwiązań analitycznych wykorzystujących R i Pythona
Piotr Chaberski
Data Scientist, WLOG Solutions
Opis:
Podczas tutoriala pokażę, jak z użyciem narzędzia R Suite można w wygodny sposób tworzyć, rozwijać i wdrażać rozwiązania analityczne w R dodatkowo wykorzystujące funkcjonalności Pythona, przy zachowaniu reprodukowalności i pełnej kontroli nad środowiskiem, pakietami i zależnościami. Krok po kroku opowiem i zademonstruję jak:
- przygotować projekt i zarządzać zależnościami,
- jak utworzyć lokalne środowisko Pythonowe wewnątrz projektu R-owego,
- jak zaimplementować w projekcie R-owym model sieci neuronowej, która wykorzystuje frameworki wymagające Pythona,
- jak jednym poleceniem przygotować paczkę wdrożeniową, która nie wymaga żadnej instalacji ani konfiguracji środowiska produkcyjnego,
- …oraz właściwie po co to wszystko robić.
Słowa kluczowe:
#R, #Python, #R_Suite, #integracja, #wdrożenie, #reprodukowalność
Dzięki tutorialowi uczestnik dowie się jak:
- tworzyć i zarządzać w sposób w pełni reprodukowalny projektem R-owym z wykorzystaniem R Suite
- wykorzystać w swoim rozwiązaniu najlepsze cechy dwóch najpopularniejszych języków w świecie data science
- stworzyć paczkę wdrożeniową, której wdrożenie na produkcję wymaga minimalnego wysiłku
Wymagania wobec uczestnika:
Uczestnik powinien znać podstawy R, Pythona i zagadnień machine learning. Plusem będzie, jeśli zetknął się bezpośrednio z problematyką reprodukowalności i wdrażania modeli analitycznych w biznesie.
Jeśli uczestnik będzie chciał pracować równolegle z prowadzącym, powinien mieć ze sobą komputer z dostępem do internetu i Windowsem (zalecane, ponieważ na tym systemie przygotowany będzie tutorial, natomiast posiadacze Linuksa również powinni być w stanie odtworzyć wszystkie kroki). Na komputerze powinny być zainstalowane w najnowszych wersjach:
- R (dla Windows: https://cran.r-project.org/bin/windows/base/)
- RStudio (https://www.rstudio.com/products/rstudio/download/)
- R Suite CLI (http://rsuite.io/RSuite_Download.php)
- Miniconda (https://conda.io/miniconda.html)
Nie ufaj – wyjaśnianie predykcji modelu uczenia maszynowego
Mateusz Opala
Machine Learning Tech Lead, Netguru
Sieci neuronowe są powszechnie uważane za black-boxy. W wielu obszarach zastosowań uczenia maszynowego, takich jak medycyna, nie tylko wysoka skuteczność, ale również wyjaśnienie predykcji wydaje się być kluczowe. W moich warsztatach pokażę proste metody lokalnej interpretacji predykcji, które pomogą zrozumieć i poprawić model.
Agenda:
- Wstęp do zagadnienia intepretowalności modeli
- Wyjaśnianie modelu dla obrazów
- Wyjaśnianie modelu dla tekstu
Dlaczego warto wziąć udział:
- poznasz bliżej problem intepretowalnośći modeli
- poznasz sposoby na intepretowanie modeli uczenia maszynowego
- nauczysz się w praktyce zastosować wyjaśnianie modeli uczenia maszynowego
Wymagania:
- podstawowa znajomość Pythona
- elementarna wiedza o Jupyter notebooks
- Znajomość modeli takich jak SVM, RandomForest czy głębokie sieci neuronowe
- Konieczny komputer na warsztacie
Podstawy Przetwarzania Języka Naturalnego – klasyfikacja spamu, klasyfikacja języków programowania
Kamil Krzyk
Machine Learning Engineer, Cosmose
Opis:
Przetwarzanie Języka Naturalnego (NLP) jest jedną z większych dziedzin w których wykorzystywane są algorytmy Uczenia Maszynowego. Tekst znajduje się wszędzie a jego analiza i klasyfikacja pozwala na usprawnienie wielu obszarów biznesu. Ilość zagadnień do jakich NLP może zostać zastosowane jest ogromna: od syntezowania mowy, translacji tekstu, generacji tekstu, sumaryzacji tekstu, przewidywanie kolejnego wyrazu po analizę sentymentu, czy po prostu przypisanie klasy do fragmentu tekstu.
W tym warsztacie chcę pokazać w jaki sposób w patrzeć na dane tekstowe oraz jak przygotować je do podania do algorytmu Uczenia Maszynowego. Przedstawię jedną z najprostszych technik zamiany tekstu na liczby, jaką jest Bag-of-Words. Zostanie ona wykorzystana do wytrenowania modelu Uczenia Maszynowego, który będzie w stanie klasyfikować języki programowania. Po drodze uczestnicy będą mieli okazję przejść przez cały proces – wczytywania danych, eksploracji danych, data wranglingu, budowania i trenowania modelu oraz analizy jego sprawności. Sposób w jaki zostaną potraktowane dane jest bardzo ogólny i może zostać zastosowany do rozwiązania wielu innych problemów NLP.
Uczestnicy otrzymają odpowiednio przygotowane Jupyter Notebooki, zawierające odpowiednie wskazówki i wyselekcjonowaną dokumentację w celu ułatwienia i przyśpieszenia pracy. Zadaniem uczestników będzie wypełnienie brakujących luk w kodzie po wyjaśnieniach prowadzącego. Każdy rezultat pracy będzie automatycznie testowany dzięki czemu szybko będzie można zlokalizować potencjalne problemy oraz blokery. Każdy uczestnik uzyska notebook z notatkami i rozwiązaniem. Dodatkowo użytkownicy otrzymają notebook pokazujący w jaki sposób zaimplementować technikę Bag-of-Words w czystym Pythonie i wykorzystam do modelu klasyfikującego e-maile na spam lub nie-spam. W notebooku znajdą się też linki do źródeł, które pozwolą na poszerzenie wiedzy w temacie.
Agenda:
- Wykład (~20min):
- omówienie jak przygotowywać dane tekstowe
- omówienie algorytmu RandomForest
- Część pokazowa (~15min):
- wczytanie i eksploracja danych
- omówienie komponentów sklearn: CountVectorizer, train_test_split, GridSearchCV, confusion_matrix, f1_score, accuracy_score
- Praktyka (~55min):
- przygotowanie danych tekstowych przy użyciu sklearn
- podzielenie danych na zbiory testowy/treningowy
- użycie algorytmu RandomForest do rozwiązania problemu wraz ze znalezieniem odpowiednich hiperparametrów
- policzenie metryki dla stworzonego modelu
Słowa Kluczowe:
#python #machine_learning #jupyter_notebook #colaboratory #scikit-learn #numpy #natural_language_processing #bag_of_words #random_forests #decision_trees
Co wyniesie użytkownik:
- Zapoznanie się z nowym, lecz nadal niezbyt popularnym środowiskiem Colaboratory, który pozwala uruchomić sesję Jupyter Notebooka w chmurze i dzielić się z nią innymi użytkownikami.
- Podstawowa teoria przygotowania danych tekstowych do wykorzystania w Machine Learningu.
- Zrozumienie techniki Bag-of-words.
- Przygotowanie danych tekstowych przy pomocy dostępnych narzędzi w sklearn.
- Teoria i użycie algorytmu RandomForest do rozpoznawania spamu (klasyfikacja binarna), rozróżniania języków programowania (18 klas).
- Ogólna wiedza zdobyta po drodze: eksploracja danych, podział i podanie danych do modelu, ewaluacja modelu, nastawianie parametrów modelu.
Wymagania:
- Podstawy programowania w języku Python.
- Przeglądarka Google Chrome i konto Google.
- Jednorazowe uruchomienie “Hello World!” Google Colaboratory (link: https://colab.research.google.com/notebooks/welcome.ipynb)
- Wcześniejszy kontakt z Jupyter Notebookiem, uruchomienie biblioteki NumPy oraz Pandas jest mile widziane.
Podstawy Reinforcement Learning (praktyczne rozwiązywanie problemów w środowisku Open AI gym)
Jeremi Kaczmarczyk
AI / iOS engineer, Tooploox
Piotr Semberecki
AI engineer, Tooploox
Reinforcement Learning z roku na rok coraz bardziej rozpala wyobraźnię oraz powoduje dyskusje na temat Sztucznej Inteligencji. Wprawdzie przełomem okazało się użycie sieci neuronowych co pozwoliło dziedzinie rozwinąć skrzydła, my na warsztatach zajmiemy się podstawami niezbędnymi do zrozumienia oraz zrobienia pierwszych kroków w tym ekscytującym świecie. Poznamy środowisko Open AI Gym, które pozwala skupić się na rozwiązywaniu problemów i nauce zamiast na implementacjach i przerabianiu gier. W części praktycznej napiszemy kilka algorytmów z rodziny Monte Carlo oraz Temporal-Difference Learning, przetestujemy je i porównamy.
Agenda:
Część teoretyczna
- Podstawowe pojęcia i problemy domenowe
- Środowisko OpenAI Gym
- Proces Decyzyjny Markowa
Część praktyczna
- Metodologia Monte Carlo
- Temporal-Difference Learning
Słowa Kluczowe:
#reinforcement_learning #monte_carlo_method #temporal_difference_learning #markov_decision_process #python #jupyter_notebook
Dlaczego warto wziąć udział:
- Zapoznanie się z podstawami uczenia ze wzmocnieniem (Reinforcement Learning)
- Zapoznanie się ze środowiskiem OpenAI Gym
- Zrozumienie metodologii Monte Carlo
- Zrozumienie algorytmów Temporal-Difference
- Użycie algorytmów do rozwiązania problemów z OpenAI Gym
Wymagania:
- Python – podstawy.
- Konto Google oraz przeglądarka (najlepiej Chrome).
- Podstawowa znajomość środowiska Google Colaboratory i/lub Jupyter Notebook (tutorial: https://colab.research.google.com/notebooks/welcome.ipynb)
Analiza języka naturalnego
Łukasz Prokulski
Koordynator procesu rozwoju i analiz portfela projektów , PZU SA
Agenda:
- Do czego może przydać się analiza tekstu
- Skąd wziąć dane tekstowe
- Przygotowanie i podstawowa analiza tekstu
- Zagadka kryminalna: kto napisał książkę
Słowa kluczowe:
#EDA, #NLP, #natural_language_processing, #analiza_języka_naturalnego, #przetwarzanie_tekstu, #LDA, #TF-IDF
Co użytkownik zyska:
Dowiesz się jak przetworzyć tekst w języku R z użyciem stosownych pakietów, wyszukać najpopularniejsze słowa (tf-idf). Spróbujemy znaleźć tematy kilku lektur szkolnych (LDA), porównać język ich autorów i znajdziemy autora nieznanego tekstu.
Wymagania wobec uczestnika:
- Zainteresowanie tematyką przetwarzania tekstu
- Podstawowa znajomość programowania (R)
- Przydatna będzie znajomość pakierów tidyverse i tidytext
- Własny komputer z zainstalowanym R/RStudio – dla chcących aktywnie uczestniczyć w warsztacie
Wykorzystanie Azure Machine Learning i Power BI przy predykcji w czasie rzeczywistym.
Dawid Detko
Data Science Architect & Team Leader, Predica
Podczas warsztatu zostanie zbudowane rozwiązanie pozwalające pobierać dane z urządzeń typu IoT, przetwarzać je, wzbogacać o dodatkowe informacje, by finalnie zwizualizować je w Power BI i obserwować wyniki w czasie rzeczywistym.
W początkowej fazie warsztatu zostanie wytrenowana dwuklasowa sieć neuronowa pozwalająca dokonywać predykcji prawdopodobieństwa wystąpienia zdarzenia.
Dzięki tutorialowi uczestnik dowie się:
- Jak sprawnie tworzyć pełne rozwiązania analityczne
- Jak korzystać z serwisów chmurowych
- Jak wykorzystywać Power BI do wizualizacji danych w czasie rzeczywistym
Słowa klucze:
#AzureML, #PowerBI, #NeuralNetwork, #IoT, #RealTimeAnalysis
Wymagania wobec uczestnika:
Uczestnik powinien mieć ze sobą laptop oraz przeglądarkę. Wszystkie niezbędne komponenty będą przygotowane przez prowadzącego.
Algorytmy genetyczne i inne metod optymalizacji – dopasowanie do odpowiednich klas problemów i zastosowań
Jacek Dziwisz
Artificial Intelligence Researcher, TensorCell
Opis:
Opowiem o projekcie TensorCell dotyczącym optymalizacji ruchu drogowego przy pomocy algorytmów uczenia maszynowego (np. sieci neuronowych, XGBoost) oraz algorytmów ewolucyjnych. Przedstawię tworzone przez nas narzędzia informatyczne oraz wyniki najnowszych eksperymentów przeprowadzonych z wykorzystaniem m.in. algorytmów genetycznych i optymalizacji gradientowej.
Słowa kluczowe:
#deeplearning #xgboost #optimization #genetic_algorithm #gradient_optimization #python
Wiedza, którą uczestnik wyniesie z udziału w tutorialu:
- Uczestnik pozna możliwe zastosowania sztucznej inteligencji w zakresie optymalizacji ruchu drogowego na przykładzie konkretnych narzędzi.
- Uczestnik pozna istotę klasycznych, lokalnych algorytmów optymalizacji jak i tych nieklasycznych globalnych.
- Uczestnik pozna możliwe zastosowania łączenia technik symulacji (w oparciu o automaty komórkowe), głębokich sieci neuronowych oraz optymalizacji do rozwiązywania problemów NP-trudnych.
Wymagania wobec uczestników:
- Warto, żeby uczestnik miał ogólną wiedzę o machine learningu na poziomie podstawowym.
- Komputer może się przydać, ale nie będzie niezbędny.
Uogólnione modele addytywne (GAMs) – co mogą zrobić dla Ciebie i jak ich używać
Adrian Foltyn
External Data Science Expert, HelloFresh (Berlin) i Trans.eu (Wrocław)
Agenda:
- Dlaczego GAMs?
- Czym są GAMs? – nieco matematyki, ale nie za dużo 😉
- Najlepsze implementacje GAMs w R (mgcv) i Pythonie
- Przykłady użycia GAMs w prognozowaniu popytu i modelowaniu zwrotu z inwestycji w marketing
- Inne zastosowania: pozostałe transformacje zmiennej objaśnianej i modele mieszane
- Pytania i odpowiedzi
Słowa kluczowe
#modelenieliniowe #splajny #GAMs #mgcv #prognozowanie #marketingROI #marketingattribution
Wiedza, którą uczestnik wyniesie z udziału w tutorialu:
- dlaczego i w jakich przypadkach warto stosować GAMs
- jakie parametry można dostosowywać w ramach GAMs i jakie są (moje) najlepsze praktyki w tym zakresie
- jak interpretować wyniki zwracane przez najpopularniejsze pakiety
- gdzie szukać dalszych informacji o zaawansowanych przypadkach użycia GAMs
Wymagania wobec uczestników:
Najlepsza implementacja GAMs istnieje w tej chwili w R, stąd większość zajęć będzie skoncentrowana wokół kodu R. Podstawowa wiedza z zakresu stosowania składni modeli (G)LM w R wystarczy, pewna wiedza statystyczna dot. estymacji największej wiarygodności oraz uogólnionej walidacji krzyżowej może być przydatna dla głębszego zrozumienia matematyki GAMs, ale nie jest konieczna do osiągnięcia założonych rezultatów szkolenia. Tutorialowi będzie towarzyszył udostępniony przykładowy kod w R i Pythonie, którego wykonanie będzie można śledzić na swoim komputerze.
Od Danych Do Akcji – o wizualizacji
Krzysztof Bury
Senior Data Engineer, General Electric
Opis:
Warsztaty mają na celu przeprowadzenie uczestnika od etapu „surowych danych” przez proces ich przetwarzania, wizualizacji aż do analizy. Zwrócimy uwagę na najczęstsze problemy przy przetwarzaniu danych, jak uniknąć nieczytelnych wizualizacji i jak budować analizy, które pomogą zrozumieć sens naszych danych i podjąć kluczowe decyzje biznesowe.
W trakcie omówimy przykład praktycznych danych otrzymany z użyciem algorytmu ML, które będziemy łączyć do istniejącego data setu i wykonywać kod ML bezpośrednio w aplikacjach raportowych
Agenda:
- Przywitanie i dwa słowa wstępu
- Wprowadzenie do narzędzia i odrobinka historii, (dlaczego Qlik)
- QlikCloud – tworzenie konta i podstawy korzystania z oprogramowania
- Praktyczne przetwarzanie danych
- Praktyczna wizualizacja i analiza danych
- Rozszerzenia i funkcje zaawansowane
Słowa kluczowe:
#dane #wizualizacje #analityka #businessintelligence #dataengineering
Wiedza, którą uczestnik wyniesie z udziału w tutorialu:
- Jakie są dostępne narzędzia do wizualizacji i czy „do it yourself” ma sens;
- Jak w praktyczny sposób podejść do przetwarzania danych;
- Jakie są najczęstsze problemy przy przetwarzaniu danych;
- Jak poprawić warstwę wizualną aplikacji oparte o danej;
- Na co zwracać uwagę w kontekście analizy danych;
- Jaką wizualizację dobrać do typu danych które chcesz przedstawić;
Wymagania wobec uczestników:
- Podstawowa wiedza biznesowa / IT (przetwarzanie danych)
- Jeżeli uczestnik, chce wspólnie z prowadzącym przechodzić przez przetwarzanie, wizualizacje i analizę danych wymagany jest komputer z dostępem do Internetu
- W trakcie warsztatów, każdy użytkowników będzie proszony o stworzenie darmowego konta w domenie qlikcloud.com (jeżeli uczestnik nie chcę tworzyć takiego konta, część praktyczna będzie nie możliwa do realizacji; w przypadku pytań co do polityki prywatności itp. Więcej informacji na stronie: https://www.qlikcloud.com/)
Jak zamienić tekst na liczby, czyli zabawy słowem na praktycznych przykładach cz. 1
Joanna Misztal-Radecka
Data Scientist, Ringier Axel Springer Polska Sp. z o.o.
Opis:
Podczas warsztatów dowiesz się, w jaki sposób zamienić tekst na liczby. Poznasz, na czym polega modelowanie tematów i jak znaleźć „temat dnia”. Dowiesz się, jak odszukać synonimy i analogie z użyciem algorytmu Word2Vec oraz jak stworzyć mapę 2D artykułów za pomocą ich wektorowej reprezentacji. Zagadnienia będą omówione na praktycznych przykładach z użyciem narzędzi i bibliotek NLP w języku Python.
Słowa kluczowe:
#NLP #przetwarzanie tekstu #topic modeling #word embeddings #Word2Vec
Wiedza, którą uczestnik wyniesie w udziału:
- Jak przygotować tekst do analizy? –oczyszczanie, tokenizacja
- Jak zamienić tekst na liczby?– podstawowe metody reprezentacji tekstu w postaci numerycznej (bag of words, tf-idf)
- Jak przypisać tematy dla tekstów?– modelowanie tematów – podstawowe algorytmy i zastosowania (LDA)
- Jak znaleźć podobne słowa i teksty?wektorowa reprezentacja tekstu (Word2Vec)
- Znajomość przydatnych bibliotek i narzędzi NLP w Pythonie.
Wymagania wobec uczestników:
- Podstawowa znajomość programowania (Python),
- Zainteresowanie tematyką przetwarzania tekstu,
- Do aktywnego uczestnictwa w warsztatach potrzebny będzie własny komputer,
- W celu pobrania danych do ćwiczeń potrzebne będzie konto na platformie kaggle.com, warunki korzystania z platformy: https://www.kaggle.com/terms
Jak zamienić tekst na liczby, czyli zabawy słowem na praktycznych przykładach cz. 2
Joanna Misztal-Radecka
Data Scientist, Ringier Axel Springer Polska Sp. z o.o.
Opis:
O uczeniu maszynowym najczęściej myślimy jako o „czarnej skrzynce”, która przetwarza dane dane wejściowe i zwraca wyniki. Podczas tych warsztatów skupimy się na tym, jak użyć algorytmów przetwarzania języka (NLP) do lepszego zrozumienia i interpretacji treści.
Z tutorialu nauczysz się, jak zamienić tekst na liczby. Dowiesz się, na czym polega modelowanie tematów i jak znaleźć „temat dnia” na podstawie tekstów wiadomości. Zobaczysz, jak zdefiniować synonimy i analogie z użyciem algorytmu word2vec oraz jak stworzyć semantyczną mapę zbioru tekstów za pomocą ich wektorowej reprezentacji.
Zagadnienia będą omówione na praktycznych przykładach z użyciem narzędzi i bibliotek NLP w języku Python.
Agenda:
Część druga obejmie:
- Modelowanie tematów
- Text embeddings, word2vec
- Własne zadania do wykonania
Słowa kluczowe:
#NLP #przetwarzanie tekstu #topic modeling #word embeddings #Word2Vec
Wiedza, którą uczestnik wyniesie w udziału:
- Jak przygotować tekst do analizy? –oczyszczanie, tokenizacja
- Jak zamienić tekst na liczby?– podstawowe metody reprezentacji tekstu w postaci numerycznej (bag of words, tf-idf)
- Jak przypisać tematy dla tekstów?– modelowanie tematów – podstawowe algorytmy i zastosowania (LDA)
- Jak znaleźć podobne słowa i teksty?wektorowa reprezentacja tekstu (Word2Vec)
- Znajomość przydatnych bibliotek i narzędzi NLP w Pythonie.
Wymagania wobec uczestników:
- Podstawowa znajomość programowania (Python),
- Zainteresowanie tematyką przetwarzania tekstu,
- Do aktywnego uczestnictwa w warsztatach potrzebny będzie własny komputer,
- W celu pobrania danych do ćwiczeń potrzebne będzie konto na platformie kaggle.com, warunki korzystania z platformy: https://www.kaggle.com/terms
Webscrapping czyli ekstrakcja danych ze stron WWW
Bartosz Sękiewicz
niezależny Data Scientist,
Moim celem będzie pokazanie z jakimi problemami można spotkać się podczas pobierania treści ze stron internetowych. Poruszone zostaną następujące zagadnienia:
- Struktura stron www
- Ekstrakcja danych za pomocą css selector oraz xpath
- Komunikacja ze stronami – zapytania GET i POST
- Narzędzia deweloperskie do śledzenia zapytań
Słowa kluczowe:
#webscraping #R
Co zyska uczestnik?
- Przekrojową, praktyczną wiedzę na temat web scrapingu
- „Dożywotni” dostęp do materiałów (prywatne repozytorium na GitHubie)
- „Dożywotni” dostęp do dedykowanej grupy na Slacku
Wymagania wobec uczestnika:
Własny laptop z R i RStudio + podstawowa znajomość R.
Edge analytics z wykorzystaniem Apache NiFi i Apache Kylo
Dr inż. Kamil Folkert
CTO, Członek Zarządu, 3Soft S.A.
Tomasz Mirowski
Architekt IT, 3Soft S.A.
Celem warsztatów jest zapoznanie uczestników z możliwościami narzędzi Kylo oraz NiFi. Pokażemy w jaki sposób poradzić sobie z obsługą różnych źródeł danych, nietypową strukturą danych źródłowych oraz jak rozszerzyć podstawowe możliwości procesów data ingestion o dodatkowe zadania analityczne realizowane w modelu Edge Analytics.
Agenda:
- Kilka słów wstępu
- Wprowadzenie do narzędzi Kylo oraz Nifi
- Praktyczne zastosowanie – użycie komponentów i szablonów
- Rozszerzenie funkcjonalności narzędzi o elementy Edge Analytics
Słowa kluczowe:
#kylo, #nifi, #edgeanalytics
Korzyści, jakie użytkownik wyniesie z warsztatu:
- Zapoznanie się ze środowiskiem Kylo i NiFi
- Zrozumienie zasady działania NiFi
- Przekrojową wiedzę na temat możliwych zastosować komponentów
- Praktyczną wiedzę na temat budowania dedykowanych przepływów danych z użyciem Kylo i NiFi
- Umiejętność rozszerzenia procesów data ingestion o elementy Edge Analytics
Wymagania wobec uczestnika:
Każdy uczestnik warsztatów, który chce samodzielnie realizować zadania praktycznie, powinien mieć ze sobą komputer z dostępem do Internetu oraz zainstalowaną przeglądarką internetową.
Predykcja popytu w czasie
Vladimir Alekseichenko
CEO & Founder, DataWorkshop
Prognoza popytu jest jednym z najbardziej popularnych zadań w logistyce. To zarazem spore wyzwanie – natomiast wykorzystanie Machine Learning może tutaj pomóc. Upraszcza realizację zadania i pomaga uzyskać bardzo dobre wyniki.
Słowa kluczowe:
#python, #sklearn #timeseries #machinelearning
Dzięki tutorialowi uczestnik dowie się:
- czym są szeregi czasowe
- jak uczenie maszynowe może pomóc je rozwiązywać
- w jaki sposób samemu zbudować (prosty) model do prognozy popytu
To może być Twój pierwszy krok w kierunku szeregów czasowych i uczenia maszynowego.
Wymagania wobec uczestnika:
- Trzeba mieć ze sobą laptop oraz przeglądarkę. Całe środowisko, już będzie przygotowane przez prowadzącego.
- Posiadać podstawy z Pythona (oraz numpy, pandas, slearn). Podstawy z uczenia maszynowego są mile widziane.
- Warto też mieć … dobry humor i być otwartym na poznawanie nowych rzeczy.