Czym jest data mining?

Proces umożliwiający firmie wydobycie cennych informacji o naturze opisowej lub przewidującej z danych zgromadzonych przez pewien czas za pomocą określonych technik i narzędzi. 

Data mining

Data mining to proces odkrywania informacji w zbiorach danych, dlatego czasami technikę tę nazywa się także odkrywaniem wiedzy w bazach danych (Knowledge Discovery in Databases – KDD). Za pomocą technik data mining można uzyskać dwa rodzaje wyników – opisujące posiadane dane lub pozwalające sformułować prognozy na przyszłość.

Pierwszym i być może najtrudniejszym krokiem w data mining jest ustanowienie celu biznesowego. Jest on jednocześnie najważniejszy. Jeśli nie wiesz, czego szukasz, to trudno Ci będzie wybrać odpowiednie typy, algorytmy i modele machine learning.

Data mining pozwala lepiej zrozumieć zachowania klientów i sprawy marketingowe, co przekłada się na zwiększenie sprzedaży i zwiększenie skuteczności promocji. Szkoły i uniwersytety mogą wykorzystywać tę technikę do lepszego poznawania swoich uczniów na podstawie takich informacji, jak ilość czasu spędzanego w klasie wirtualnej, liczba naciśnięć klawiszy, rodzaj odbywanych jednocześnie zajęć czy wyniki osiągane na poszczególnych typach zajęć.

Korporacje z kolei mogą optymalizować operacje dzięki lepszemu zrozumieniu procesów produkcji i montażu, usterek, awarii itd. Data mining może także pomagać w wykrywaniu oszustw. Banki mogą poszukiwać charakterystycznych cech oszustwa, a nawet określić sklep, w którym go dokonano.

Drugim krokiem jest przygotowanie danych. Jeśli masz jasno określony cel, Twoi specjaliści mogą określić odpowiedni zbiór danych, na podstawie którego będzie można uzyskać przydatne dla firmy informacje. Na tym etapie specjaliści od obróbki danych powinni je oczyścić przez usunięcie duplikatów, braków i nietypowych elementów. Ich obecność może zaburzyć jakość wyników osiąganych przez algorytmy i narzędzia data mining.

Trzecim krokiem jest budowa modelu i poszukiwanie wzorców. Do tego wykorzystuje się techniki i narzędzia opisane poniżej. Techniki data mining mogą wykorzystywać algorytmy uczenia głębokiego oraz nadzorowane i nienadzorowane metody nauki.

Czwarty i ostatni krok to ewaluacja wyników uzyskanych z pomocą techniki data mining, aby wprowadzić zmiany lub podjąć działania korzystne dla firmy.

Techniki data mining

Techniki data mining umożliwiają specjalistom od danych i firmom lepsze wykorzystywanie dużych ilości danych. Oto niektóre z tych technik:

  • Śledzenie wzorców to fundamentalna technika identyfikacji wzorców, takich jak na przykład wzrost sprzedaży szufli do śniegu przed zbliżającą się śnieżycą. Nie sprawdza się z kolei najlepiej w przypadku mniej oczywistych poszukiwań.
  • Drugą techniką jest klasyfikacja, która polega na porządkowaniu danych według kategorii i ich klasyfikowaniu. Na przykład klientów banku można sklasyfikować na podstawie ich historii finansowej, jako klientów niskiego, średniego i wysokiego ryzyka kredytowego.
  • Kolejna metoda spokrewniona ze śledzeniem wzorców to asocjacja. Polega ona na poszukiwaniu powiązań między zmiennymi w określonych momentach. Przykładem może być spostrzeżenie, że kiedy klient wkłada do koszyka makaron, to jego następnym wyborem będzie sos. Albo to, że po sosie do koszyka trafi parmezan.
  • Jeszcze inną metodą data mining jest wykrywanie nietypowych elementów, czyli wyjątków i anomalii. Przykładem może być nagły skok zainteresowania pań typowo męskim asortymentem w czerwcu, który przypada na tydzień lub dwa tygodnie przed dniem ojca.
  • Następna technika to grupowanie, która jest podobna do klasyfikacji. W tym przypadku dane grupuje się ze względu na podobieństwo. Klientów można grupować wg częstotliwości robienia zakupów albo dochodów netto.
  • Regresja to zdolność przewidywania wartości na podstawie wcześniejszych wartości. Polega ona na poszukiwaniu średniej w czasie, ponieważ takie rzeczy, jak ceny domów wahają się i czasami są wyższe, a czasami niższe od aktualnej.
  • Predykcja to technika data mining, która umożliwia firmom przewidywanie przyszłych wartości.

     

Narzędzia do data mining

Narzędzia do data mining są firmie niezbędne do uzyskiwania jak najlepszych wyników w zakresie optymalizacji wydajności. Niektóre aktualnie najpopularniejsze z tych narzędzi to:

  • MonkeyLearn
  • RapidMiner Studio
  • Sisense for Cloud Data Teams
  • Alteryx Designer
  • Qlik Sense
  • Orange

 

MonkeyLearn to narzędzie do analizy tekstu. Przy jego pomocy można wykrywać nastroje, jak na przykład negatywne opinie w Internecie, lub zautomatyzować oznaczanie zgłoszeń i procesy przekierowywania.

RapidMiner Studio to platforma open source z interfejsem typu „przeciągnij i upuść” umożliwiająca użytkownikom nie znającym się na programowaniu dostosowywać własne przypadki użycia. Za jej pomocą można wykrywać oszustwa albo rotację klientów. Dla programistów przeznaczone są rozszerzenia języków R i Python do data mining. Ponadto istnieje fantastyczna społeczność, która chętnie udziela pomocy.

Sisense for Cloud Data Teams umożliwia zespołom wydobywanie informacji z danych bez względu na poziom wiedzy technicznej ich członków.

Alteryx Designer umożliwia analitykom przygotowywanie, mieszanie i analizowanie danych za pomocą jednego narzędzia.  

Qlik Sense to program do wizualizacji umożliwiający tworzenie fantastycznych wykresów i grafów." Przy jego użyciu można przeprowadzić analizę kilku źródeł danych za pomocą funkcji przeciągania i upuszczania.