Sztuczna inteligencja wykład.cz8.pdf

(308 KB) Pobierz
Microsoft Word - Sztuczna inteligencja wykład.cz8.doc
1
Eksploracja danych
Problemy analizy danych
Rozwój technologii systemów baz danych, hurtowni danych,
sieci komputerowych, automatycznych narzędzi do
gromadzenia danych, spowodowały nagromadzenie
olbrzymich wolumenów danych.
Przykłady:
Firma telekomunikacyjna AT&T obsługuje miliardy połączeń
dziennie. Okazuje się, że danych jest tyle, że ich analiza musi
być wykonywana „w locie” ( on the fly ) poprzez strumienie
danych.
Innym przykładem może być sieć sprzedaży Wal-Mart , która
gromadzi dane dotyczące ponad 20 milionów transakcji
dziennie.
Ośrodek badawczy Very Long Baseline Interferometry ( VLBI )
posiada 16 teleskopów, z których każdy produkuje
1 Gigabit/sekundę danych astronomicznych w czasie
25-dniowej sesji obserwacyjnej.
Koncern Mobil Oil rozwija magazyn danych, który już w roku
1999 pozwalał na przechowywanie ponad 100 terabajtów
danych o wydobyciu ropy naftowej.
Rozwój sieci Web spowodował, iż stał sie on olbrzymią bazą
danych przechowującą terabajty danych. Przykładowo, Alexa
Internet Archiwum (7-letnie dane) - 500 TB, Google
8 miliardów stron, Yahoo – 20 miliardów stron, IBM
WebFountain – 160 TB (2003).
Uniwersytet Berkeley (2003) szacuje swoje zbiory na
5 exabaitów (czyli około 5 milionów terabajtów) nowych
danych wygenerowanych w samym roku 2002. Niewątpliwie
największym ‘producentem danych’ w skali światowej są
329807634.002.png
2
Stany Zjednoczone, szacuje sie iż produkują aż 40% danych
światowych.
Nasze możliwości analizowania i rozumienia tak dużych
wolumenów danych są dużo mniejsze od możliwości ich
gromadzenia i przechowywania. Zaczynamy „tonąć” w
danych, ale brakuje nam wiedzy, która tkwi w
nagromadzonych danych.
Wiele firm, przedsiębiorstw, instytucji administracji
publicznej, ośrodków naukowych, stanęło przed problemem,
w jaki sposób efektywnie i racjonalnie wykorzystać
nagromadzona w tych danych wiedzę dla celów wspomagania
swojej działalności.
Tradycyjny sposób korzystania z baz danych, to jest
przetwarzanie transakcji w trybie on-line , sprowadza się,
najczęściej, do realizacji zapytań poprzez aplikacje lub
raporty. Jest on w pełni satysfakcjonujący w przypadku
bieżącej obsługi działalności danej firmy, to jest dla dobrze
zdefiniowanych procesów (obsługa klienta w banku,
rejestracja zamówień, obsługa sprzedaży, itp.).
Niestety, ten klasyczny model przetwarzania danych nie
wspomaga procesów analizy danych.
W niewielkim też stopniu systemy te wspomagają takie
operacje jak: agregacja danych, wykonywania podsumowań,
czy też optymalizacji złożonych zapytań formułowanych ad
hoc .
329807634.003.png
3
Analityczne przetwarzanie danych – OLAP
Opisane w poprzednim rozdziale problemy doprowadziły, w
latach 90-tych, do opracowania nowego modelu przetwarzania
danych, którego podstawowym celem było wspomaganie
procesów podejmowania decyzji. Opracowano nowy typ
relacyjnej bazy danych tak zwane magazyny, lub hurtownie
danych (ang. data warehouse ).
Model ten nazywamy również przetwarzaniem analitycznym
on-line (ang. On Line Analytical Processing - OLAP ).
Dostarcza bowiem narzędzi umożliwiających analizę w wielu
„wymiarach”, i co jest bardzo istotne, wymiarach
definiowanych przez użytkownika (takich, jak: czas,
miejsce, klasyfikacja produktów, itp.). Analiza polega na
obliczaniu agregatów dla zadanych „wymiarów” magazynu.
Należy podkreślić, że proces analizy jest całkowicie
sterowany przez użytkownika. Mówimy czasami o analizie
danych sterowanej zapytaniami (ang. query-driven
exploration ).
Metody eksploracji danych
W przeciwieństwie do technologii OLAP, technologia
eksploracji danych (ang. data mining ) umożliwia
automatyczną analizę danych.
Ogólnie problem eksploracji danych polega na
efektywnym znajdowaniu nieznanych dotychczas
zależności i związków pomiędzy danymi .
Automatyczna eksploracja danych otwiera nowe możliwości
w zakresie interakcji użytkownika z systemem bazy danych
(lub magazynem danych). Przede wszystkim umożliwia
analizę na znacznie wyższym poziomie abstrakcji.
329807634.004.png
4
Analiza danych sterowana zapytaniami, charakterystyczna dla
technologii OLAP, zakłada, że użytkownik:
- posiada pełną wiedzę o przedmiocie analizy,
- potrafi sterować tym procesem.
Eksploracja danych umożliwia analizę danych dla problemów,
dla których użytkownik nie dysponuje taką wiedzą. Tę wiedzę
chcemy właśnie wydobyć z danych.
Eksploracja danych, nazywana często odkrywaniem wiedzy w
bazach danych (ang. knowledge discovery in databases -
KDD ), jest jedną z najdynamiczniej i najintensywniej
rozwijanych dziedzin informatyki w ostatnim czasie. Integruje
wiele dyscyplin takich jak: statystyka, systemy baz danych,
sztuczna inteligencja, optymalizacja, obliczenia równoległe.
Bardzo ściśle z eksploracją danych wiąże się pojęcie tak
zwanej inteligencji biznesowej (ang. business intelligence ).
Problem eksploracji danych wiąże się bezpośrednio z
problemem formułowania zapytań - w jaki sposób uzyskać
dostęp do danych w przypadku kiedy nie potrafimy
sformułować zapytania w terminach języka dostępu do bazy
danych?
Przykładowo, w jaki sposób zidentyfikować rekordy w bazie
danych firmy telekomunikacyjnej, które odpowiadają
„fałszywym” połączeniom? Podobnie, w przypadku kart
kredytowych interesuje nas wykrycie kradzieży tych kart i ich
niestandardowe wykorzystanie.
Oczywiście, można analizować rekord po rekordzie w bazie
danych rozpatrując oddzielnie każdy przypadek. Podejście
takie jest jednak nie wykonalne w przypadku giga- i tera-
bajtowych baz danych. Z drugiej strony, bardzo trudno
sformułować zapytanie w języku SQL, lub nawet zdefiniować
329807634.005.png
5
procedurę składowaną, które umożliwiłoby przeprowadzenie
takiej analizy.
Metody eksploracji danych można podzielić, bardzo ogólnie,
na 6 zasadniczych klas:
Odkrywanie asocjacji
Najszersza klasa metod obejmująca, najogólniej
odkrywanie różnego rodzaju nieznanych zależności
(asocjacji) w bazie danych. Odkrywane zależności
posiadają pewne miary statystyczne określające ich
wsparcie i ufność.
Analiza skupień (Klastrowanie )
Celem tych metod jest znajdowanie skończonego zbioru
klas obiektów (klastrów) w bazie danych posiadających
podobne cechy. Liczba klastrów jest nieznana, stąd proces
klastrowania przebiega najczęściej w dwóch cyklach: cykl
zewnętrzny przebiega po liczbie możliwych klastrów, cykl
wewnętrzny próbuje znaleźć optymalny podział obiektów
pomiędzy klastry.
Odkrywanie wzorców sekwencji
Odkrywanie czasowych wzorców zachowań, np.
znajdowanie sekwencji notowań giełdowych, zachowań
klientów ubezpieczalni, czy klientów supermarketów.
Odkrywanie klasyfikacji
Celem tych metod jest znajdowanie zależności pomiędzy
klasyfikacją obiektów (klasyfikacja naturalna bądź
wprowadzona przez eksperta) a ich charakterystyką.
Zastosowanie: charakterystyka pacjentów, klientów kart
kredytowych, pożyczkobiorców.
Odkrywanie podobieństw w przebiegach czasowych
Znajdowanie podobieństw w przebiegach czasowych
opisujących określone procesy.
329807634.001.png
Zgłoś jeśli naruszono regulamin