Sztuczna inteligencja wykład.cz8.pdf

Eksploracja danych

Problemy analizy danych

Rozwój technologii systemów baz danych, hurtowni danych,

sieci komputerowych, automatycznych narzędzi do

gromadzenia danych, spowodowały nagromadzenie

olbrzymich wolumenów danych.

Przykłady:

Firma telekomunikacyjna AT&T obsługuje miliardy połączeń

dziennie. Okazuje się, że danych jest tyle, że ich analiza musi

być wykonywana „w locie” ( on the fly ) poprzez strumienie

danych.

Innym przykładem może być sieć sprzedaży Wal-Mart , która

gromadzi dane dotyczące ponad 20 milionów transakcji

dziennie.

Ośrodek badawczy Very Long Baseline Interferometry ( VLBI )

posiada 16 teleskopów, z których każdy produkuje

1 Gigabit/sekundę danych astronomicznych w czasie

25-dniowej sesji obserwacyjnej.

Koncern Mobil Oil rozwija magazyn danych, który już w roku

1999 pozwalał na przechowywanie ponad 100 terabajtów

danych o wydobyciu ropy naftowej.

Rozwój sieci Web spowodował, iż stał sie on olbrzymią bazą

danych przechowującą terabajty danych. Przykładowo, Alexa

Internet Archiwum (7-letnie dane) - 500 TB, Google –

8 miliardów stron, Yahoo – 20 miliardów stron, IBM

WebFountain – 160 TB (2003).

Uniwersytet Berkeley (2003) szacuje swoje zbiory na

5 exabaitów (czyli około 5 milionów terabajtów) nowych

danych wygenerowanych w samym roku 2002. Niewątpliwie

największym ‘producentem danych’ w skali światowej są

Stany Zjednoczone, szacuje sie iż produkują aż 40% danych

światowych.

Nasze możliwości analizowania i rozumienia tak dużych

wolumenów danych są dużo mniejsze od możliwości ich

gromadzenia i przechowywania. Zaczynamy „tonąć” w

danych, ale brakuje nam wiedzy, która tkwi w

nagromadzonych danych.

Wiele firm, przedsiębiorstw, instytucji administracji

publicznej, ośrodków naukowych, stanęło przed problemem,

w jaki sposób efektywnie i racjonalnie wykorzystać

nagromadzona w tych danych wiedzę dla celów wspomagania

swojej działalności.

Tradycyjny sposób korzystania z baz danych, to jest

przetwarzanie transakcji w trybie on-line , sprowadza się,

najczęściej, do realizacji zapytań poprzez aplikacje lub

raporty. Jest on w pełni satysfakcjonujący w przypadku

bieżącej obsługi działalności danej firmy, to jest dla dobrze

zdefiniowanych procesów (obsługa klienta w banku,

rejestracja zamówień, obsługa sprzedaży, itp.).

Niestety, ten klasyczny model przetwarzania danych nie

wspomaga procesów analizy danych.

W niewielkim też stopniu systemy te wspomagają takie

operacje jak: agregacja danych, wykonywania podsumowań,

czy też optymalizacji złożonych zapytań formułowanych ad

hoc .

Analityczne przetwarzanie danych – OLAP

Opisane w poprzednim rozdziale problemy doprowadziły, w

latach 90-tych, do opracowania nowego modelu przetwarzania

danych, którego podstawowym celem było wspomaganie

procesów podejmowania decyzji. Opracowano nowy typ

relacyjnej bazy danych tak zwane magazyny, lub hurtownie

danych (ang. data warehouse ).

Model ten nazywamy również przetwarzaniem analitycznym

on-line (ang. On Line Analytical Processing - OLAP ).

Dostarcza bowiem narzędzi umożliwiających analizę w wielu

„wymiarach”, i co jest bardzo istotne, wymiarach

definiowanych przez użytkownika (takich, jak: czas,

miejsce, klasyfikacja produktów, itp.). Analiza polega na

obliczaniu agregatów dla zadanych „wymiarów” magazynu.

Należy podkreślić, że proces analizy jest całkowicie

sterowany przez użytkownika. Mówimy czasami o analizie

danych sterowanej zapytaniami (ang. query-driven

exploration ).

Metody eksploracji danych

W przeciwieństwie do technologii OLAP, technologia

eksploracji danych (ang. data mining ) umożliwia

automatyczną analizę danych.

Ogólnie problem eksploracji danych polega na

efektywnym znajdowaniu nieznanych dotychczas

zależności i związków pomiędzy danymi .

Automatyczna eksploracja danych otwiera nowe możliwości

w zakresie interakcji użytkownika z systemem bazy danych

(lub magazynem danych). Przede wszystkim umożliwia

analizę na znacznie wyższym poziomie abstrakcji.

Analiza danych sterowana zapytaniami, charakterystyczna dla

technologii OLAP, zakłada, że użytkownik:

- posiada pełną wiedzę o przedmiocie analizy,

- potrafi sterować tym procesem.

Eksploracja danych umożliwia analizę danych dla problemów,

dla których użytkownik nie dysponuje taką wiedzą. Tę wiedzę

chcemy właśnie wydobyć z danych.

Eksploracja danych, nazywana często odkrywaniem wiedzy w

bazach danych (ang. knowledge discovery in databases -

KDD ), jest jedną z najdynamiczniej i najintensywniej

rozwijanych dziedzin informatyki w ostatnim czasie. Integruje

wiele dyscyplin takich jak: statystyka, systemy baz danych,

sztuczna inteligencja, optymalizacja, obliczenia równoległe.

Bardzo ściśle z eksploracją danych wiąże się pojęcie tak

zwanej inteligencji biznesowej (ang. business intelligence ).

Problem eksploracji danych wiąże się bezpośrednio z

problemem formułowania zapytań - w jaki sposób uzyskać

dostęp do danych w przypadku kiedy nie potrafimy

sformułować zapytania w terminach języka dostępu do bazy

danych?

Przykładowo, w jaki sposób zidentyfikować rekordy w bazie

danych firmy telekomunikacyjnej, które odpowiadają

„fałszywym” połączeniom? Podobnie, w przypadku kart

kredytowych interesuje nas wykrycie kradzieży tych kart i ich

niestandardowe wykorzystanie.

Oczywiście, można analizować rekord po rekordzie w bazie

danych rozpatrując oddzielnie każdy przypadek. Podejście

takie jest jednak nie wykonalne w przypadku giga- i tera-

bajtowych baz danych. Z drugiej strony, bardzo trudno

sformułować zapytanie w języku SQL, lub nawet zdefiniować

procedurę składowaną, które umożliwiłoby przeprowadzenie

takiej analizy.

Metody eksploracji danych można podzielić, bardzo ogólnie,

na 6 zasadniczych klas:

• Odkrywanie asocjacji

Najszersza klasa metod obejmująca, najogólniej

odkrywanie różnego rodzaju nieznanych zależności

(asocjacji) w bazie danych. Odkrywane zależności

posiadają pewne miary statystyczne określające ich

wsparcie i ufność.

• Analiza skupień (Klastrowanie )

Celem tych metod jest znajdowanie skończonego zbioru

klas obiektów (klastrów) w bazie danych posiadających

podobne cechy. Liczba klastrów jest nieznana, stąd proces

klastrowania przebiega najczęściej w dwóch cyklach: cykl

zewnętrzny przebiega po liczbie możliwych klastrów, cykl

wewnętrzny próbuje znaleźć optymalny podział obiektów

pomiędzy klastry.

• Odkrywanie wzorców sekwencji

Odkrywanie czasowych wzorców zachowań, np.

znajdowanie sekwencji notowań giełdowych, zachowań

klientów ubezpieczalni, czy klientów supermarketów.

• Odkrywanie klasyfikacji

Celem tych metod jest znajdowanie zależności pomiędzy

klasyfikacją obiektów (klasyfikacja naturalna bądź

wprowadzona przez eksperta) a ich charakterystyką.

Zastosowanie: charakterystyka pacjentów, klientów kart

kredytowych, pożyczkobiorców.

• Odkrywanie podobieństw w przebiegach czasowych

Znajdowanie podobieństw w przebiegach czasowych

opisujących określone procesy.

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: