Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills

(ebook) (audiobook) (audiobook)

Promocja Przejdź
Promocja Przejdź

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills - okladka książki

Zajrzyj do książki

Autorzy:: Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
Wydawnictwo:: Helion
Wydawnictwo:: Helion
Ocena:: Bądź pierwszym, który oceni tę książkę
Stron:: 192
Druk:: oprawa miękka
Dostępne formaty::      PDF

     ePub

     Mobi

Czytaj fragment

Książka

42,78 zł ~~69,00 zł~~ (-38%)

41,40 zł najniższa cena z 30 dni

Dodaj do koszyka Darmowa dostawa od 60,00 zł Do darmowej dostawy brakuje Ci 0,00 zł Najtańsza dostawa od 9,90 zł Gratulujemy! Twoje zamówienie kwalifikuje się do darmowej wysyłki Wysyłamy w 24h

Ebook

35,88 zł ~~69,00 zł~~ (-48%)

34,50 zł najniższa cena z 30 dni

Dodaj do koszyka Dostępny natychmiast po opłaceniu zakupu lub Kup na prezent Kup 1-kliknięciem

Przenieś na półkę

Do przechowalni

Powiadom o dostępności audiobooka »

Kup w zestawie z dodatkowym rabatem i zyskaj darmową dostawę

Spark. Błyskawiczna analiza danych. Wydanie II Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills

Cena zestawu: 94,80 zł

Oszczędzasz: 63,00 zł (40%)

Dodaj do koszyka

Kup w zestawie z dodatkowym rabatem

Spark. Błyskawiczna analiza danych. Wydanie II Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills

Cena zestawu: 78,90 zł

Oszczędzasz: 79,00 zł (50%)

Dodaj do koszyka

Czego się nauczysz?

Instalowania i konfigurowania środowiska PySpark i Apache Spark 3.0
Przetwarzania i analizowania dużych zbiorów danych z użyciem DataFrame
Łączenia, przekształcania i filtrowania danych w PySpark
Tworzenia systemów rekomendacyjnych na podstawie rzeczywistych danych
Dobierania i optymalizowania hiperparametrów w modelach uczenia maszynowego
Budowania i regulowania drzew oraz lasów decyzyjnych do prognozowania
Wykrywania anomalii w danych za pomocą grupowania metodą k-średnich
Analizowania danych tekstowych z wykorzystaniem algorytmu LDA i Spark NLP
Przetwarzania i analizowania danych geoprzestrzennych oraz temporalnych
Szacowania ryzyka finansowego z użyciem metod VaR, symulacji historycznej i Monte Carlo
Przetwarzania i analizowania danych genomicznych z wykorzystaniem pakietu ADAM
Określania podobieństwa obrazów przy użyciu głębokiego uczenia i algorytmu PySpark LSH
Wektoryzowania i osadzania obrazów z użyciem PyTorch i integracji z PySpark
Zarządzania cyklem życia modeli uczenia maszynowego za pomocą platformy MLflow
Monitorowania, śledzenia eksperymentów i udostępniania modeli ML
Stosowania dobrych praktyk programowania i pracy z dużymi zbiorami danych w ekosystemie Spark

Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje do analizy dużych zbiorów danych, a PySpark skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData. By jednak można było w pełni skorzystać z tych możliwości, konieczne jest zrozumienie interakcji między algorytmami, zbiorami danych i wzorcami używanymi w analizie danych.

Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemowo zagłębić się we wzorce analityczne oparte na popularnych technikach przetwarzania danych, takich jak klasyfikacja, grupowanie, filtrowanie i wykrywanie anomalii, stosowane w genomice, bezpieczeństwie systemów IT i finansach. Dodatkowym plusem są opisy wykorzystania przetwarzania obrazów i języka naturalnego. Zaletą jest też szereg rzeczywistych przykładów dużych zbiorów danych i ich zaawansowanej analizy.

Dzięki książce poznasz:

model programowania w ekosystemie Spark
podstawowe metody stosowane w nauce o danych
pełne implementacje analiz dużych publicznych zbiorów danych
konkretne przypadki użycia narzędzi uczenia maszynowego
kod, który łatwo dostosujesz do swoich potrzeb

PySpark: systemowa odpowiedź na problemy inżyniera danych!

Wybrane bestsellery

O autorach książki

Akash Tandon jest inżynierem danych i przedsiębiorcą, a także współzałożycielem i dyrektorem technicznym firmy Looppanel.

Sandy Ryza jest starszym analitykiem w Cloudera i aktywnym uczestnikiem projektu Apache Spark.

Uri Laserson jest starszym analitykiem w Cloudera, gdzie pracuje nad językiem Python w środowisku Hadoop.

Sean Owen jest dyrektorem działu analiz danych na region EMEA w Cloudera i uczestnikiem projektu Apache Spark.

Josh Wills jest starszym menedżerem działu analiz danych w Cloudera i inicjatorem pakietu Apache Crunch.

Zobacz pozostałe książki z serii

Ebooka "Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark" przeczytasz na:

czytnikach Inkbook, Kindle, Pocketbook, Onyx Booxs i innych
systemach Windows, MacOS i innych

systemach Windows, Android, iOS, HarmonyOS
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi

Masz pytania? Zajrzyj do zakładki Pomoc »

Oceny i opinie klientów: Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills

(0)

Szczegóły książki

Dane producenta: »
Tytuł oryginału:: Advanced Analytics with PySpark: Patterns for Learning from Data at Scale Using Python and Spark
Tłumaczenie:: Andrzej Watrak
ISBN Książki drukowanej:: 978-83-832-2069-7, 9788383220697
Data wydania książki drukowanej :: 2023-03-07
ISBN Ebooka:: 978-83-832-2070-3, 9788383220703
Data wydania ebooka :: 2023-03-07 Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@helion.pl.
Format:: 165x235
Numer z katalogu:: 188234
Rozmiar pliku Pdf:: 3.6MB
Rozmiar pliku ePub:: 5.2MB
Rozmiar pliku Mobi:: 11.5MB
Pobierz przykładowy rozdział PDF
Przykłady na ftp

Zgłoś erratę
Kategorie:
Programowanie » Python - Programowanie
Big Data » Analiza danych

Dostępność produktu

Produkt nie został jeszcze oceniony pod kątem ułatwień dostępu lub nie podano żadnych informacji o ułatwieniach dostępu lub są one niewystarczające. Prawdopodobnie Wydawca/Dostawca jeszcze nie umożliwił dokonania walidacji produktu lub nie przekazał odpowiednich informacji na temat jego dostępności.

Spis treści książki

Słowo wstępne

1. Analiza wielkich zbiorów danych

Praca z wielkimi zbiorami danych
Przedstawiamy Apache Spark i PySpark
- Komponenty
- PySpark
- Ekosystem
Spark 3.0
PySpark i wyzwania w nauce o danych
O czym jest ta książka

2. Wprowadzenie do analizy danych za pomocą PySpark

Architektura systemu Spark
Instalacja interfejsu PySpark
Przygotowanie danych
Analiza danych za pomocą struktury DataFrame
Szybkie statystyki zbiorcze w strukturze DataFrame
Przestawienie i przekształcenie struktury DataFrame
Złączenie struktur DataFrame i wybór cech
Ocena modelu
Dalsze kroki

3. Rekomendowanie muzyki i dane Audioscrobbler

Zbiór danych
Wymagania dla systemu rekomendacyjnego
Algorytm naprzemiennych najmniejszych kwadratów
Przygotowanie danych
Utworzenie pierwszego modelu
Wyrywkowe sprawdzanie rekomendacji
Ocena jakości rekomendacji
Obliczenie wskaźnika AUC
Dobór wartości hiperparametrów
Przygotowanie rekomendacji
Dalsze kroki

4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego

Drzewa i lasy decyzyjne
Przygotowanie danych
Pierwsze drzewo decyzyjne
Hiperparametry drzewa decyzyjnego
Regulacja drzewa decyzyjnego
Weryfikacja cech kategorialnych
Losowy las decyzyjny
Prognozowanie
Dalsze kroki

5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania edług k-średnich

Grupowanie według k-średnich
Wykrywanie anomalii w ruchu sieciowym
- Dane KDD Cup 1999
Pierwsza próba grupowania
Dobór wartości k
Wizualizacja w środowisku R
Normalizacja cech
Zmienne kategorialne
Wykorzystanie etykiet i wskaźnika entropii
Grupowanie w akcji
Dalsze kroki

6. Wikipedia, algorytmy LDA i Spark NLP

Algorytm LDA
- Algorytm LDA w interfejsie PySpark
Pobranie danych
Spark NLP
- Przygotowanie środowiska
Przekształcenie danych
Przygotowanie danych za pomocą biblioteki Spark NLP
Metoda TF-IDF
Wyliczenie wskaźników TF-IDF
Utworzenie modelu LDA
Dalsze kroki

7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek

Przygotowanie danych
- Konwersja ciągów znaków na znaczniki czasu
- Obsługa błędnych rekordów danych
Analiza danych geoprzestrzennych
- Wprowadzenie do formatu GeoJSON
- Biblioteka GeoPandas
Sesjonowanie w interfejsie PySpark
- Budowanie sesji - dodatkowe sortowanie danych w systemie Spark
Dalsze kroki

8. Szacowanie ryzyka finansowego

Terminologia
Metody obliczania wskaźnika VaR
- Wariancja-kowariancja
- Symulacja historyczna
- Symulacja Monte Carlo
Nasz model
Pobranie danych
Przygotowanie danych
Określenie wag czynników
Losowanie prób
- Wielowymiarowy rozkład normalny
Wykonanie testów
Wizualizacja rozkładu zwrotów
Dalsze kroki

9. Analiza danych genomicznych i projekt BDG

Rozdzielenie sposobów zapisu i modelowania danych
Przygotowanie pakietu ADAM
Przetwarzanie danych genomicznych za pomocą pakietu ADAM
- Konwersja formatów plików za pomocą poleceń pakietu ADAM
- Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM
Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE
Dalsze kroki

10. Określanie podobieństwa obrazów za pomocą głębokiego uczenia i algorytmu PySpark LSH

PyTorch
- Instalacja
Przygotowanie danych
- Skalowanie obrazów za pomocą PyTorch
Wektoryzacja obrazów za pomocą modelu głębokiego uczenia
- Osadzenie obrazów
- Import osadzeń obrazów do pakietu PySpark
Określanie podobieństwa obrazów za pomocą algorytmu PySpark LSH
- Wyszukiwanie najbliższych sąsiadów
Dalsze kroki

11. Zarządzanie cyklem uczenia maszynowego za pomocą platformy MLflow

Cykl uczenia maszynowego
Platforma MLflow
Śledzenie eksperymentów
Zarządzanie modelami uczenia maszynowego i udostępnianie ich
Tworzenie i stosowanie projektów za pomocą modułu MLflow Projects
Dalsze kroki

pokaż cały spis treści

Helion - inne książki

Nowość Promocja

Autorzy prowadzą czytelnika przez wszystkie aspekty profesjonalnego programowania w Node.js od fundamentów platformy i systemu modułów, przez programowanie asynchroniczne z wykorzystaniem callbacks, obietnic i async/await, aż po zaawansowane wzorce projektowe i architektury mikrousług. Szczegółowo omawiają strumienie Node.js, konstrukcyjne, strukturalne i behawioralne wzorce projektowe. Książka zawiera praktyczne receptury odpowiadające na typowe wyzwania: asynchroniczną inicjalizację, buforowanie, anulowanie operacji czy wykonywanie zadań obciążających procesor. Końcowe rozdziały koncentrują się na skalowalności przedstawiają techniki skalowania aplikacji, zastosowanie Kubernetes i wzorce komunikacji w systemach rozproszonych z użyciem Redis, RabbitMQ i ZeroMQ.
- książka
- ebook
Node.js. Wzorce projektowe i techniki tworzenia aplikacji produkcyjnych. Wydanie IV

Luciano Mammino, Mario Casciaro, Colin J. Ihrig (Foreword), Matteo Collina (Fore

(77,40 zł najniższa cena z 30 dni)

79.98 zł ~~129.00 zł (-38%)~~
Nowość Promocja

Dane są dziś powszechnie dostępne, ale rzadko w takiej formie, w jakiej ich potrzebujemy. Na szczęście z pomocą przychodzi Power Query. To nowoczesne narzędzie idealne do analityki w Excelu i Power BI, które zamienia żmudne, wielogodzinne czyszczenie danych w automatyczny, błyskawiczny proces.
- książka
- ebook
Power Query w Excelu. Analizuj dane jak profesjonalista

Adam Kopeć

(53,40 zł najniższa cena z 30 dni)

55.18 zł ~~89.00 zł (-38%)~~
Bestseller Nowość Promocja

Sztuczna inteligencja coraz silniej wpływa na nasze życie. Systemy oparte na uczeniu maszynowym decydują o przyznaniu kredytu, wspierają diagnozowanie chorób, odgrywają coraz większą rolę w odkryciach z zakresu biologii, chemii, fizyki czy medycyny. Skokowy rozwój dużych modeli językowych, takich jak ChatGPT, Gemini czy Claude, pozwala używać AI do zadań, które jeszcze niedawno były zarezerwowane wyłącznie dla ludzi.
- książka
- ebook
Dlaczego maszyny się uczą? O pięknie matematyki i działaniu współczesnej sztucznej inteligencji

Anil Ananthaswamy

(41,40 zł najniższa cena z 30 dni)

42.78 zł ~~69.00 zł (-38%)~~
Nowość Promocja

Terraform to oprogramowanie typu open source umożliwiające zarządzanie infrastrukturą IT jako kodem (IaC, ang. infrastructure as code). Pozwala deklaratywnie zdefiniować zasoby chmurowe - takie jak AWS, Azure czy Google Cloud a także zasoby lokalne przy użyciu języka HCL, a potem zautomatyzować ich wdrażanie, wersjonowanie i modyfikowanie.
- książka
- ebook
Terraform w praktyce. Buduj i automatyzuj infrastrukturę chmurową oraz zarządzaj nią z wykorzystaniem Dockera

Mariusz Dworniczak

(35,94 zł najniższa cena z 30 dni)

37.14 zł ~~59.90 zł (-38%)~~
Bestseller Nowość Promocja

Ta książka ułatwi Ci zrozumienie nawet bardzo złożonych zagadnień związanych z projektowaniem relacyjnych baz danych i zrobi to w niezwykle przyjaznej formie. Nauczysz się sztuki projektowania poprzez praktyczne projekty, przejrzyste ilustracje, a także dzięki metodom nauki, które są ukierunkowane na działanie. Zrozumiesz, w jaki sposób budować bazy zupełnie od podstaw, tak aby umiejętnie połączyć wydajność działania z intuicyjnością obsługi. Krok po kroku zaprojektujesz, wdrożysz i zoptymalizujesz bazę danych dla aplikacji typu e-commerce. Przekonasz się też, jak używać technik generatywnej sztucznej inteligencji do usprawnienia najbardziej żmudnych etapów projektowania.
- książka
- ebook
Relacyjne bazy danych. Ilustrowany przewodnik

Qiang Hao, Michail Tsikerdekis

(53,40 zł najniższa cena z 30 dni)

55.18 zł ~~89.00 zł (-38%)~~
Nowość Promocja

Dzięki tej książce w pełni zrozumiesz zasady zarządzania powierzchnią ataku i nauczysz się przejmować kontrolę nad swoimi zasobami, zanim zrobią to atakujący. W książce: zarządzanie powierzchnią ataku w cyberbezpieczeństwie metody oceny i odwzorowywania powierzchni ataku organizacji strategie identyfikacji, klasyfikacji i ustalania priorytetów kluczowych zasobów powiązanie technicznych podatności z ryzykiem biznesowym zasady ciągłego monitorowania eliminacja luk w zabezpieczeniach
- książka
- ebook
Zarządzanie powierzchnią ataku w cyberbezpieczeństwie. Strategie i techniki ochrony zasobów cyfrowych

Ron Eddings, MJ Kaufmann

(59,40 zł najniższa cena z 30 dni)

61.38 zł ~~99.00 zł (-38%)~~
Nowość Promocja

Funkcjonalność oprogramowania nieustannie się poszerza, a nowoczesny kod jest coraz częściej generowany przez narzędzia oparte na sztucznej inteligencji. W tych warunkach czystość kodu staje się niezwykle ważna. Niezależnie od tego, czy pracujesz na oprogramowaniu zastrzeżonym, czy otwartym, czysty kod jest najlepszym sposobem na to, aby zachować świeżość projektów i ich gotowość do rozwoju.
- książka
- ebook
Czysty kod. Receptury. Przepisy na poprawienie struktury i jakości Twojego kodu

Maximiliano Contieri

(53,40 zł najniższa cena z 30 dni)

55.18 zł ~~89.00 zł (-38%)~~
Bestseller Nowość Promocja

Sztuczna inteligencja przestała być futurystyczną wizją to narzędzie, które już dziś zmienia codzienną pracę specjalistów IT. ChatGPT, Claude i inne modele AI rewolucjonizują sposób, w jaki programiści piszą kod, administratorzy zarządzają systemami, a menedżerowie prowadzą zespoły. Książka stanowi praktyczny przewodnik po zastosowaniu sztucznej inteligencji w realnych scenariuszach od automatyzacji rutynowych zadań po rozwiązywanie złożonych zagadnień technicznych. To pozycja dla każdego, kto chce nie tylko nadążyć za zmianami, ale też uczynić z AI przewagę konkurencyjną w swojej karierze.
- książka
- ebook
AI dla profesjonalistów IT. Narzędzia i techniki zwiększające produktywność

Chrissy LeMaire, Brandon Abshire

(77,40 zł najniższa cena z 30 dni)

79.98 zł ~~129.00 zł (-38%)~~
Bestseller Nowość Promocja

Systemy oparte na agentach AI rewolucjonizują sposób, w jaki organizacje rozwiązują złożone problemy biznesowe. Generatywna sztuczna inteligencja przyspiesza drogę od koncepcji przez prototyp aż do gotowego rozwiązania, a agenty AI łączące narzędzia, wiedzę, pamięć i uczenie się z zaawansowanymi modelami podstawowymi umożliwiają sekwencyjne wywoływanie modeli do realizacji niejednoznacznych zadań. Od agentów-koderów, przez agentów-badaczy, po agentów-analityków wszędzie widać, że mogą one znacząco przyspieszyć pracę zespołów. Jednak ich wdrożenie pozostaje wyzwaniem wymagającym intensywnego planowania.
- książka
- ebook
Aplikacje oparte na agentach AI. Projektowanie i wdrażanie systemów wieloagentowych

Michael Albada

(59,40 zł najniższa cena z 30 dni)

61.38 zł ~~99.00 zł (-38%)~~
Bestseller Nowość Promocja

Jeśli chcesz się nauczyć budować układy elektroniczne, które będą odporne na przeciążenia, przegrzewanie i inne awarie, jednym słowem - idealne, ta książka koniecznie musi się znaleźć na Twojej półce! Sięgaj po nią regularnie i twórz niezawodną elektronikę.
- książka
- ebook
Niezawodne układy elektroniczne. Podręcznik konstruktora

Witold Wrotek

(52,20 zł najniższa cena z 30 dni)

53.94 zł ~~87.00 zł (-38%)~~

Najczęściej zadawane pytania (FAQ)

1. Czy potrzebuję wcześniejszego doświadczenia z Apache Spark lub PySpark, aby korzystać z tej książki?

Nie, książka wprowadza czytelników w podstawy Apache Spark i PySpark, a następnie prowadzi przez coraz bardziej zaawansowane zagadnienia. Podstawowa znajomość Pythona i analizy danych będzie pomocna, ale nie jest wymagana znajomość Sparka.

2. Czy książka zawiera praktyczne przykłady kodu i projekty do samodzielnego wykonania?

Tak, książka jest bogata w praktyczne przykłady kodu, studia przypadków oraz projekty oparte na rzeczywistych zbiorach danych, które można samodzielnie przećwiczyć.

3. Jakie narzędzia i środowiska są potrzebne, aby realizować ćwiczenia z książki?

Do pracy z książką wystarczy komputer z zainstalowanym Pythonem, PySpark oraz dostęp do wybranych bibliotek PyData. Autor opisuje proces instalacji i konfiguracji potrzebnego oprogramowania krok po kroku.

4. Czy książka obejmuje zagadnienia uczenia maszynowego i sztucznej inteligencji w PySpark?

Tak, w książce znajdziesz rozdziały poświęcone m.in. klasyfikacji, grupowaniu, wykrywaniu anomalii, analizie tekstu i obrazów oraz zarządzaniu cyklem uczenia maszynowego z wykorzystaniem MLflow.

5. Czy publikacja porusza tematy związane z analizą danych w różnych branżach?

Tak, w książce omówiono praktyczne przykłady zastosowań analizy danych w finansach, genomice, bezpieczeństwie IT, analizie obrazów i danych geoprzestrzennych.

6. Czy książka jest aktualna względem najnowszych wersji Apache Spark?

Tak, książka koncentruje się na wersji 3.0 Apache Spark i omawia jej nowe funkcje oraz możliwości.

7. Czy materiały dodatkowe, takie jak dane lub kody źródłowe, są dostępne dla czytelników?

Tak, autor udostępnia przykładowe zbiory danych oraz kody źródłowe, które można pobrać i wykorzystać podczas nauki.

8. Czy ta książka pomoże mi przygotować się do pracy z dużymi zbiorami danych w praktycznych projektach?

Tak, książka kładzie nacisk na praktyczne aspekty analizy dużych zbiorów danych i pokazuje, jak efektywnie wykorzystywać PySpark w realnych zastosowaniach.

Zamknij

Proszę czekać...

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills