Optymalizacja systemów big data w przyszłości. Czy kiedyś skończy się miejsce?

Czas czytania: 3 min.

Wielkie dane stały się naprawdę wielkie. Big data to zmienne i różnorodne zbiory, których przetwarzanie jest naprawdę karkołomne. Są tak złożone, że nie da się ich analizować tradycyjnymi metodami. Trudno je przechowywać i analizować, trudno przesyłać. Portal Robohub w drugiej połowie ubiegłego roku szacował, że do 2025 roku wszystkie dane na świecie wyniosą około 175 trylionów gigabajtów.

Płyty DVD z takim zapisem stworzyłyby stos mogący okrążyć Ziemię 222 razy. W 2011 szacunki IDC Digital Universe mówiły o 1,8 zetabajta – to tak, jakby każdy mieszkaniec USA wysyłał ciągle 3 tweety na minutę przez 27 000 lat albo 20 miliardów dwugodzinnych filmów w jakości HD, które jedna osoba oglądałaby przez całą dobę… przez 47 milionów lat.

Co to jest big data i gdzie znajduje zastosowanie?

Big data to serwery, pamięć masowa, środowiska fizyczne, chmury hybrydowe czy komputery mainframe – kiedyś IBM, dziś wielu innych firm – do zastosowań finansowych i analitycznych. Ich następcą mają być komputery kwantowe. Jednym z największych wyzwań w informatyce jest radzenie sobie z napływem informacji przy jednoczesnym zachowaniu zdolności do ich efektywnego przechowywania i przetwarzania. Zespół z Laboratorium Informatyki i Sztucznej Inteligencji MIT (CSAIL) uważa, że odpowiedzią jest coś, co nazywa się “instance-optimized systems”.

Nowe zarządzanie danymi machine learning

Jako pierwszy krok w kierunku tej wizji naukowcy MIT opracowali Tsunami i Bao. Tsunami wykorzystuje uczenie maszynowe (ang. machine learning) do automatycznej reorganizacji układu pamięci masowej zbioru danych w oparciu o typy zapytań, które składają jego użytkownicy. O co chodzi w tym długim ciągu wyrazów? Algorytm uczy się od użytkowników. Testy pokazują, że może uruchamiać zapytania nawet 10 razy szybciej niż najnowocześniejsze systemy. Co więcej, jego zbiory danych mogą być organizowane za pomocą serii “wyuczonych indeksów”, które są do 100 razy mniejsze od indeksów używanych w tradycyjnych systemach. Oczekuje się, że to nowe podejście będzie podstawą powstających systemów adaptacyjnych.

Bao natomiast koncentruje się na poprawie efektywności optymalizacji zapytań poprzez naukę maszynową. Optymalizator zapytań przepisuje zapytania deklaratywne – najprościej mówiąc przekładające język na matematyczne wartości – na plan zapytania, które może być faktycznie wykonane na danych. Reszta to obliczenie wyniku dla zapytania. Często jednak istnieje więcej niż jeden plan zapytania – wybranie niewłaściwego może spowodować, że obliczenie odpowiedzi zajmie kilka dni zamiast kilku sekund. Bao łączy w sobie nowoczesne sieci neuronowe z próbkowaniem Thompsona – heurystykę wyboru działań, która pojawiła się już w 1933 roku. Wiąże się z pojęciem “problem jednorękiego bandyty” – w teorii prawdopodobieństwa to stan, w którym ograniczony zestaw zasobów musi zostać rozdzielony pomiędzy konkurencyjnymi wyborami (alternatywa) w sposób maksymalizujący zysk i minimalizujący ryzyko porażki, ale wartości wyboru są tylko częściowo znane w momencie alokacji. Zostają lepiej zrozumiane w miarę upływu czasu lub przydzielania.

Książki dla programistów

Tradycyjne optymalizatory zapytań potrzebują wielu lat na zbudowanie, są bardzo trudne w utrzymaniu i co najważniejsze – nie uczą się na własnych błędach. Bao jest pierwszym opartym na nauce podejściem do optymalizacji zapytań, które zostało w pełni zintegrowane z popularnym systemem zarządzania bazami danych PostgreSQL. Główny autor, Ryan Marcus z MIT, mówi, że Bao tworzy plany zapytań, które działają do 50 procent szybciej niż te tworzone przez optymalizator PostgreSQL, co oznacza, że może pomóc znacznie obniżyć koszty usług w chmurze, takich jak Amazon Redshift wchodząca w skład Amazon Web Services. Łącząc oba systemy MIT ma nadzieję zbudować system baz danych, który może zapewnić najlepszą możliwą wydajność dla każdej aplikacji bez ręcznego strojenia. Tsunami zmienia strukturę przechowywania danych dynamicznie i w oparciu o rodzaje otrzymywanych zapytań. Tworzy dzięki temu nowe sposoby przechowywania danych, które były dotychczas wykonalne. Projektowi przygladają się m.in. Microsoft Research i Harvard University.

Wysiłki miniaturyzacji urządzeń, zwiększania pamięci oraz alternatyw dla niej nie ustają, więc “koniec miejsca” prawdopodobnie nam nie grozi. To raczej mnogość danych kreuje nowe wyzwania. Jeżeli wystąpi taka konieczność, to zatrzymać tę machinę będzie naprawdę trudno.

Jak oceniasz ten wpis blogowy?

Kliknij gwiazdkę, aby go ocenić!

Średnia ocena: 5 / 5. Liczba głosów: 1

Jak dotąd brak głosów! Bądź pierwszą osobą, która oceni ten wpis.

Podziel się:

Oskar Pacelt

Fan dobrej literatury i muzyki. Wierzy, że udany tekst jest jak list wysłany w przyszłość. W życiu najbardziej interesuje go prawda, pozostałych zainteresowań zliczyć nie sposób. Kocha pływać.

Oskar Pacelt

Zobacz więcej:

Ciekawostki

Elektronika

Jak wycisnąć prąd elektryczny z cytryny?

Jak w prosty sposób pozyskać energię elektryczną z niekonwencjonalnych źródeł? Przeczytaj nasz artykuł i sprawdź, jak przeprowadzić eksperyment z cytryną i wycisnąć z niej… prąd!

Witold Krieser 21 marca 2025

Ciekawostki

Nowości

Nowości #75

Czas na dawkę inspiracji w Botland! Po raz kolejny z przyjemnością zapraszamy Was do zapoznania się z najnowszymi produktami, które pojawiły się w naszej ofercie.

Patrycja Genczelewska 26 stycznia 2025

Ciekawostki

InPost Pay i InPost Paczka w Weekend dostępne w Botland!

Skorzystaj z nowych usług w Botland – InPost Pay i InPost Paczka w Weekend. Zapłać jednym kliknięciem i otrzymaj paczkę już w sobotę lub niedzielę. Zobacz, jak te rozwiązania upraszczają zakupy i pozwalają zaoszczędzić czas!

Patrycja Genczelewska 12 marca 2025

Ciekawostki

Elektronika

Automatyzacja słowackiej fontanny Vodnik z urządzeniami SenseCAP LoRaWAN

Artykuł przedstawia projekt automatyzacji fontanny Vodnik w Trenčínie na Słowacji, wykorzystujący technologię IoT i monitoring pogodowy z zastosowaniem urządzeń SenseCAP LoRaWAN. Dzięki temu fontanna działa efektywnie, oszczędzając wodę i energię, jednocześnie minimalizując koszty konserwacji.

Patrycja Genczelewska 14 marca 2025

Arduino

Ciekawostki

Porady

Przewodnik po świecie Arduino – najciekawsze treści z naszego bloga

Odkryj świat Arduino dzięki naszemu przewodnikowi po najciekawszych artykułach na blogu! Znajdziesz tu podstawy elektroniki, przegląd produktów, inspirujące projekty DIY i praktyczne tutoriale.

Patrycja Genczelewska 27 stycznia 2025

Masz pytanie techniczne?

Napisz komentarz lub zapytaj na zaprzyjaźnionym forum o elektronice.