Spark. Błyskawiczna analiza danych. Wydanie II Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee

(ebook) (audiobook) (audiobook)

Promocja Przejdź
Promocja Przejdź

Spark. Błyskawiczna analiza danych. Wydanie II Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee - okladka książki

Spark. Błyskawiczna analiza danych. Wydanie II Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee - audiobook MP3

Spark. Błyskawiczna analiza danych. Wydanie II Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee - audiobook CD

Zajrzyj do książki

Autorzy:: Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee
Wydawnictwo:: Helion
Wydawnictwo:: Helion
Ocena:: 5.0/6 Opinie: 3
Stron:: 360
Druk:: oprawa miękka
Dostępne formaty::      PDF

     ePub

     Mobi

Czytaj fragment

Książka

56,07 zł ~~89,00 zł~~ (-37%)

53,40 zł najniższa cena z 30 dni

Dodaj do koszyka Wysyłamy w 24h

Ebook

47,17 zł ~~89,00 zł~~ (-47%)

44,50 zł najniższa cena z 30 dni

Dodaj do koszyka Dostępny natychmiast po opłaceniu zakupu lub Kup na prezent Kup 1-kliknięciem

Przenieś na półkę

Do przechowalni

Powiadom o dostępności audiobooka »

Czego się nauczysz?

Instalowania i konfigurowania Apache Spark na różnych środowiskach
Tworzenia i uruchamiania aplikacji Spark w Scali, Pythonie, SQL i Javie
Przetwarzania danych z użyciem RDD, DataFrame i Dataset
Łączenia się z różnorodnymi źródłami danych: JSON, Parquet, CSV, Avro, ORC, Hive, S3, Kafka
Wykonywania zapytań SQL oraz operacji analitycznych na danych wsadowych i strumieniowanych
Optymalizowania i dostrajania wydajności aplikacji Spark
Buforowania i trwałego przechowywania danych w Spark
Tworzenia i zarządzania jeziorami danych oraz repozytoriami Lakehouse (Delta Lake, Apache Hudi, Iceberg)
Przetwarzania i analizowania danych strumieniowych w czasie rzeczywistym
Projektowania i wdrażania potoków uczenia maszynowego z wykorzystaniem MLlib
Przygotowywania i transformowania danych do modeli uczenia maszynowego
Wdrażania i zarządzania modelami MLflow oraz integracji z MLlib
Skalowania i monitorowania potoków danych oraz modeli machine learning
Stosowania zaawansowanych funkcji Spark SQL, takich jak okna czasowe, złączenia, agregacje
Zarządzania schematem, ewolucją danych oraz historią operacji w Delta Lake
Korzystania z nowych funkcji Apache Spark 3.0, w tym dynamicznego oczyszczania partycji i adaptacyjnego wykonywania zapytań

Apache Spark jest oprogramowaniem open source, przeznaczonym do klastrowego przetwarzania danych dostarczanych w różnych formatach. Pozwala na uzyskanie niespotykanej wydajności, umożliwia też pracę w trybie wsadowym i strumieniowym. Framework ten jest również świetnie przygotowany do uruchamiania złożonych aplikacji, włączając w to algorytmy uczenia maszynowego czy analizy predykcyjnej. To wszystko sprawia, że Apache Spark stanowi znakomity wybór dla programistów zajmujących się big data, a także eksploracją i analizą danych.

To książka przeznaczona dla inżynierów danych i programistów, którzy chcą za pomocą Sparka przeprowadzać skomplikowane analizy danych i korzystać z algorytmów uczenia maszynowego, nawet jeśli te dane pochodzą z różnych źródeł. Wyjaśniono tu, jak dzięki Apache Spark można odczytywać i ujednolicać duże zbiory informacji, aby powstawały niezawodne jeziora danych, w jaki sposób wykonuje się interaktywne zapytania SQL, a także jak tworzy się potoki przy użyciu MLlib i wdraża modele za pomocą biblioteki MLflow. Omówiono również współdziałanie aplikacji Sparka z jego rozproszonymi komponentami i tryby jej wdrażania w poszczególnych środowiskach.

W książce:

API strukturalne dla Pythona, SQL, Scali i Javy
operacje Sparka i silnika SQL
konfiguracje Sparka i interfejs Spark UI
nawiązywanie połączeń ze źródłami danych: JSON, Parquet, CSV, Avro, ORC, Hive, S3 i Kafka
operacje analityczne na danych wsadowych i strumieniowanych
niezawodne potoki danych i potoki uczenia maszynowego

Spark: twórz skalowalne i niezawodne aplikacje big data!

Wybrane bestsellery

O autorach książki

Jules S. Damji - jest inżynierem oprogramowania dla wielu wiodących firm, takich jak Netscape, Sun Microsystems, Verisign i ProQuest. Zajmuje się systemami rozproszonymi.

Brooke Wenig - kieruje zespołem, który opracowuje potoki uczenia maszynowego. Prowadzi też szkolenia z zakresu rozproszonego uczenia maszynowego.

Tathagata Das - jest członkiem Apache Spark Project Management Committee. Pracuje nad strumieniowaniem strukturalnym i Delta Lake.

Denny Lee - zajmuje się systemami rozproszonymi i inżynierią danych, zwłaszcza dla branży ochrony zdrowia.

Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee - pozostałe książki

Promocja

Ready to simplify the process of building data lakehouses and data pipelines at scale? In this practical guide, learn how Delta Lake is helping data engineers, data scientists, and data analysts overcome key data reliability challenges with modern data engineering and management techniques.Authors Denny Lee, Tristen Wentling, Scott Haines, and Pras
- ebook
Delta Lake: The Definitive Guide

Denny Lee, Tristen Wentling, Scott Haines

(0,00 zł najniższa cena z 30 dni)

228.65 zł ~~269.00 zł (-15%)~~
Promocja

This cookbook presents recipes on leveraging the power of Python and putting it to use in the Apache Spark ecosystem. By the end of this book, you will be able to solve any problem associated with building effective, data-intensive applications and performing machine learning and structured streaming using PySpark.
- ebook
PySpark Cookbook. Over 60 recipes for implementing big data processing and analytics using Apache Spark and Python

Denny Lee, Tomasz Drabas

(0,00 zł najniższa cena z 30 dni)

107.10 zł ~~119.00 zł (-10%)~~
Promocja

This book will get you to grips with the Spark Python API. You'll explore how Python can be used with Spark to build scalable and reliable data-intensive applications.
- ebook
Learning PySpark. Build data-intensive applications locally and deploy at scale using the combined powers of Python and Spark 2.0

Tomasz Drabas, Denny Lee

(0,00 zł najniższa cena z 30 dni)

125.10 zł ~~139.00 zł (-10%)~~
Promocja

Data is bigger, arrives faster, and comes in a variety of formatsâ??and it all needs to be processed at scale for analytics or machine learning. But how can you process such varied workloads efficiently? Enter Apache Spark.Updated to include Spark 3.0, this second edition shows data engineers and data scientists why structure and unification in Spa
- ebook
Learning Spark. 2nd Edition

Jules S. Damji, Brooke Wenig, Tathagata Das

(0,00 zł najniższa cena z 30 dni)

203.15 zł ~~239.00 zł (-15%)~~

Zobacz pozostałe książki z serii

Ebooka "Spark. Błyskawiczna analiza danych. Wydanie II" przeczytasz na:

czytnikach Inkbook, Kindle, Pocketbook, Onyx Booxs i innych
systemach Windows, MacOS i innych

systemach Windows, Android, iOS, HarmonyOS
na dowolnych urządzeniach i aplikacjach obsługujących formaty: PDF, EPub, Mobi

Masz pytania? Zajrzyj do zakładki Pomoc »

Oceny i opinie klientów: Spark. Błyskawiczna analiza danych. Wydanie II Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee

(3)

6
(2)
5
(0)
4
(0)
3
(1)
2
(0)
1
(0)

5.0

Dobra jest. Znalazłem w niej dużo przydatnej wiedzy, która pomaga mi realizować projekt.

Opinia: anonimowa Opinia dodana: 2024-07-26 Ocena: 6

Opinia potwierdzona zakupem

Opinia dotyczy produktu: ksiązka drukowana

Czy opinia była pomocna:

TAK (0) NIE (0)
Bardzo dobra książka. Polecam dla zaznajomienia się z Apache Sparkiem.

Opinia: anonimowa Opinia dodana: 2023-03-14 Ocena: 6

Opinia potwierdzona zakupem

Opinia dotyczy produktu: ksiązka drukowana

Czy opinia była pomocna:

TAK (0) NIE (0)
Wydrukowana na brzydkim, cienkim, brązowawaym papierze. Zbędne, męczące, pretensjonalne tłumaczenie terminów technicznych takich jak job->zlecenie, late evaluation->późna ocena itd.

Opinia: Maharadża Opinia dodana: 2023-04-04 Ocena: 3

Opinia niepotwierdzona zakupem

Opinia dotyczy produktu: ksiązka drukowana

Czy opinia była pomocna:

TAK (0) NIE (1)

więcej opinii

ukryj opinie

Szczegóły książki

Dane producenta: »
Tytuł oryginału:: Learning Spark: Lightning-Fast Data Analytics, 2nd Edition
Tłumaczenie:: Robert Górczyński
ISBN Książki drukowanej:: 978-83-283-9914-3, 9788328399143
Data wydania książki drukowanej :: 2023-02-07
ISBN Ebooka:: 978-83-283-9915-0, 9788328399150
Data wydania ebooka :: 2023-02-07 Data wydania ebooka często jest dniem wprowadzenia tytułu do sprzedaży i może nie być równoznaczna z datą wydania książki papierowej. Dodatkowe informacje możesz znaleźć w darmowym fragmencie. Jeśli masz wątpliwości skontaktuj się z nami sklep@helion.pl.
Format:: 165x235
Numer z katalogu:: 185837
Rozmiar pliku Pdf:: 7.2MB
Rozmiar pliku ePub:: 10.8MB
Rozmiar pliku Mobi:: 21.8MB
Pobierz przykładowy rozdział PDF
Przykłady na ftp

Zgłoś erratę
Kategorie:
Bazy danych » Inne
Big Data » Analiza danych

Dostępność produktu

Produkt nie został jeszcze oceniony pod kątem ułatwień dostępu lub nie podano żadnych informacji o ułatwieniach dostępu lub są one niewystarczające. Prawdopodobnie Wydawca/Dostawca jeszcze nie umożliwił dokonania walidacji produktu lub nie przekazał odpowiednich informacji na temat jego dostępności.

Spis treści książki

Przedmowa

Wprowadzenie

1. Wprowadzenie do Apache Spark - ujednolicony silnik analityczny

Geneza Sparka
- Big data i przetwarzanie rozproszone w Google
- Hadoop w Yahoo!
- Wczesne lata Sparka w AMPLab
Czym jest Apache Spark?
- Szybkość
- Łatwość użycia
- Modułowość
- Rozszerzalność
Ujednolicona analityka
- Komponenty Apache Spark tworzą ujednolicony stos
- Spark MLlib
- Wykonywanie rozproszone w Apache Spark
Z punktu widzenia programisty
- Kto używa Sparka i w jakim celu?
- Popularność w społeczności i dalsza ekspansja

2. Pobranie Apache Spark i rozpoczęcie pracy

Krok 1. - pobranie Apache Spark
- Pliki i katalogi Sparka
Krok 2. - używanie powłoki Scali lub PySparka
- Używanie komputera lokalnego
Krok 3. - poznanie koncepcji aplikacji Apache Spark
- Aplikacja Sparka i SparkSession
- Zlecenia Sparka
- Etapy Sparka
- Zadania Sparka
Transformacje, akcje i późna ocena
- Transformacje wąskie i szerokie
Spark UI
Pierwsza niezależna aplikacja
- Zliczanie cukierków M&M's
- Tworzenie niezależnych aplikacji w Scali
Podsumowanie

3. API strukturalne Apache Spark

Spark - co się kryje za akronimem RDD?
Strukturyzacja Sparka
- Kluczowe zalety i wartość struktury
API DataFrame
- Podstawowe typy danych Sparka
- Strukturalne i złożone typy danych Sparka
- Schemat i tworzenie egzemplarza DataFrame
- Kolumny i wyrażenia
- Rekord
- Najczęściej przeprowadzane operacje z użyciem DataFrame
- Przykład pełnego rozwiązania wykorzystującego DataFrame
API Dataset
- Obiekty typowane i nietypowane oraz ogólne rekordy
- Tworzenie egzemplarza Dataset
- Operacje na egzemplarzu Dataset
- Przykład pełnego rozwiązania wykorzystującego Dataset
Egzemplarz DataFrame kontra Dataset
- Kiedy używać RDD?
Silnik Spark SQL
- Optymalizator Catalyst
Podsumowanie

4. Spark SQL i DataFrame - wprowadzenie do wbudowanych źródeł danych

Używanie Spark SQL w aplikacji Sparka
- Przykłady podstawowych zapytań
Widoki i tabele SQL
- Tabele zarządzane kontra tabele niezarządzane
- Tworzenie baz danych i tabel SQL
- Tworzenie widoku
- Wyświetlanie metadanych
- Buforowanie tabel SQL
- Wczytywanie zawartości tabeli do egzemplarza DataFrame
Źródła danych dla egzemplarzy DataFrame i tabel SQL
- DataFrameReader
- DataFrameWriter
- Parquet
- JSON
- CSV
- Avro
- ORC
- Obrazy
- Pliki binarne
Podsumowanie

5. Spark SQL i DataFrame - współpraca z zewnętrznymi źródłami danych

Spark SQL i Apache Hive
- Funkcje zdefiniowane przez użytkownika
Wykonywanie zapytań z użyciem powłoki Spark SQL, Beeline i Tableau
- Używanie powłoki Spark SQL
- Praca z narzędziem Beeline
- Praca z Tableau
Zewnętrzne źródła danych
- Bazy danych SQL i JDBC
- PostgreSQL
- MySQL
- Azure Cosmos DB
- MS SQL Server
- Inne zewnętrzne źródła danych
Funkcje wyższego rzędu w egzemplarzach DataFrame i silniku Spark SQL
- Opcja 1. - konwersja struktury
- Opcja 2. - funkcja zdefiniowana przez użytkownika
- Wbudowane funkcje dla złożonych typów danych
- Funkcje wyższego rzędu
Najczęściej wykonywane operacje w DataFrame i Spark SQL
- Suma
- Złączenie
- Okno czasowe
- Modyfikacje
Podsumowanie

6. Spark SQL i Dataset

Pojedyncze API dla Javy i Scali
- Klasy case Scali i JavaBean dla egzemplarzy Dataset
Praca z egzemplarzem Dataset
- Tworzenie przykładowych danych
- Transformacja przykładowych danych
Zarządzanie pamięcią podczas pracy z egzemplarzami Dataset i DataFrame
- Kodeki egzemplarza Dataset
- Wewnętrzny format Sparka kontra format obiektu Javy
- Serializacja i deserializacja
Koszt związany z używaniem egzemplarza Dataset
- Strategie pozwalające obniżyć koszty
Podsumowanie

7. Optymalizacja i dostrajanie aplikacji Sparka

Optymalizacja i dostrajanie Sparka w celu zapewnienia efektywności działania
- Wyświetlanie i definiowanie konfiguracji Apache Spark
- Skalowanie Sparka pod kątem ogromnych obciążeń
Buforowanie i trwałe przechowywanie danych
- DataFrame.cache()
- DataFrame.persist()
- Kiedy buforować i trwale przechowywać dane?
- Kiedy nie buforować i nie przechowywać trwale danych?
Rodzina złączeń w Sparku
- Złączenie BHJ
- Złączenie SMJ
Spark UI
- Karty narzędzia Spark UI
Podsumowanie

8. Strumieniowanie strukturalne

Ewolucja silnika przetwarzania strumieni w Apache Spark
- Przetwarzanie strumieniowe mikropartii
- Cechy mechanizmu Spark Streaming (DStreams)
- Filozofia strumieniowania strukturalnego
Model programowania strumieniowania strukturalnego
Podstawy zapytania strumieniowania strukturalnego
- Pięć kroków do zdefiniowania zapytania strumieniowego
- Pod maską aktywnego zapytania strumieniowanego
- Odzyskiwanie danych po awarii i gwarancja "dokładnie raz"
- Monitorowanie aktywnego zapytania
Źródło i ujście strumieniowanych danych
- Pliki
- Apache Kafka
- Niestandardowe źródła strumieni i ujść danych
Transformacje danych
- Wykonywanie przyrostowe i stan strumieniowania
- Transformacje bezstanowe
- Transformacje stanowe
Agregacje strumieniowania
- Agregacja nieuwzględniająca czasu
- Agregacje z oknami czasowymi na podstawie zdarzeń
Złączenie strumieniowane
- Złączenie strumienia i egzemplarza statycznego
- Złączenia między egzemplarzami strumieniowanymi
Dowolne operacje związane ze stanem
- Modelowanie za pomocą mapGroupsWithState() dowolnych operacji stanu
- Stosowanie limitów czasu do zarządzania nieaktywnymi grupami
- Generalizacja z użyciem wywołania flatMapGroupsWithState()
Dostrajanie wydajności działania
Podsumowanie

9. Tworzenie niezawodnych jezior danych za pomocą Apache Spark

Waga optymalnego rozwiązania w zakresie pamięci masowej
Bazy danych
- Krótkie wprowadzenie do SQL
- Odczytywanie i zapisywanie informacji w bazie danych za pomocą Apache Spark
- Ograniczenia baz danych
Jezioro danych
- Krótkie wprowadzenie do jezior danych
- Odczytywanie i zapisywanie danych jeziora danych za pomocą Apache Spark
- Ograniczenia jezior danych
Lakehouse - następny krok w ewolucji rozwiązań pamięci masowej
- Apache Hudi
- Apache Iceberg
- Delta Lake
Tworzenie repozytorium danych za pomocą Apache Spark i Delta Lake
- Konfiguracja Apache Spark i Delta Lake
- Wczytywanie danych do tabeli Delta Lake
- Wczytywanie strumieni danych do tabeli Delta Lake
- Zarządzanie schematem podczas zapisu w celu zapobiegania uszkodzeniu danych
- Ewolucja schematu w celu dostosowania go do zmieniających się danych
- Transformacja istniejących danych
- Audyt zmian danych przeprowadzany za pomocą historii operacji
- Wykonywanie zapytań do poprzednich migawek tabeli dzięki funkcjonalności podróży w czasie
Podsumowanie

10. Uczenie maszynowe z użyciem biblioteki MLlib

Czym jest uczenie maszynowe?
- Nadzorowane uczenie maszynowe
- Nienadzorowane uczenie maszynowe
- Dlaczego Spark dla uczenia maszynowego?
Projektowanie potoków uczenia maszynowego
- Wczytywanie i przygotowywanie danych
- Tworzenie zbiorów danych - testowego i treningowego
- Przygotowywanie cech za pomocą transformerów
- Regresja liniowa
- Stosowanie estymatorów do tworzenia modeli
- Tworzenie potoku
- Ocena modelu
- Zapisywanie i wczytywanie modeli
Dostrajanie hiperparametru
- Modele oparte na drzewach
- k-krotny sprawdzian krzyżowy
- Optymalizacja potoku
Podsumowanie

11. Stosowanie Apache Spark do wdrażania potoków uczenia maszynowego oraz ich skalowania i zarządzania nimi

Zarządzanie modelem
- MLflow
Opcje wdrażania modelu za pomocą MLlib
- Wsadowe
- Strumieniowane
- Wzorce eksportu modelu dla rozwiązania niemalże w czasie rzeczywistym
Wykorzystanie Sparka do pracy z modelami, które nie zostały utworzone za pomocą MLlib
- Zdefiniowane przez użytkownika funkcje pandas
- Spark i rozproszone dostrajanie hiperparametru
Podsumowanie

12. Epilog - Apache Spark 3.0

Spark Core i Spark SQL
- Dynamiczne oczyszczanie partycji
- Adaptacyjne wykonywanie zapytań
- Podpowiedzi dotyczące złączeń SQL
- API wtyczek katalogu i DataSourceV2
- Planowanie z użyciem akceleratorów
- Strumieniowanie strukturalne
PySpark, zdefiniowane przez użytkownika funkcje pandas i API funkcji pandas
- Usprawnione zdefiniowane przez użytkownika funkcje pandas zapewniające obsługę podpowiedzi typów w Pythonie
- Obsługa iteratora w zdefiniowanych przez użytkownika funkcjach pandas
- Nowe API funkcji pandas
Zmieniona funkcjonalność
- Obsługiwane języki
- Zmiany w API DataFrame i Dataset
- Polecenia SQL EXPLAIN i DataFrame
Podsumowanie

pokaż cały spis treści

Helion - inne książki

Najczęściej zadawane pytania (FAQ)

1. Czy muszę znać Apache Spark, aby korzystać z tej książki?

Nie, książka prowadzi czytelnika krok po kroku od podstaw instalacji i konfiguracji Apache Spark, aż po zaawansowane zastosowania, dzięki czemu nadaje się także dla osób rozpoczynających naukę tego narzędzia.

2. Jakie języki programowania są wykorzystywane w książce?

W książce omówiono korzystanie z Apache Spark w językach Python, Scala, Java oraz SQL, prezentując przykłady i wyjaśnienia dla każdego z nich.

3. Czy książka zawiera praktyczne przykłady kodu?

Tak, publikacja zawiera liczne przykłady kodu oraz scenariusze zastosowań, które pomagają zrozumieć praktyczne aspekty pracy z Apache Spark i jego komponentami.

4. Czy z książki dowiem się, jak przetwarzać dane zarówno wsadowe, jak i strumieniowe?

Tak, książka szczegółowo opisuje zarówno przetwarzanie wsadowe, jak i strumieniowe, pokazując, jak wykorzystywać Spark do pracy z różnymi rodzajami danych.

5. Czy publikacja omawia integrację Sparka z innymi źródłami danych, np. bazami SQL, Hive czy Kafka?

Tak, w książce znajdziesz rozdziały poświęcone integracji z wieloma różnymi źródłami danych, takimi jak bazy SQL, Hive, S3, Kafka i wiele innych.

6. Czy Spark. Błyskawiczna analiza danych. Wydanie II jest aktualna względem najnowszych wersji Apache Spark?

Tak, książka uwzględnia nowości wprowadzone w Apache Spark 3.0 oraz opisuje najnowsze funkcje i zmiany w API.

7. Czy książka pomoże mi w nauce budowy potoków uczenia maszynowego w Sparku?

Tak, publikacja zawiera rozdziały poświęcone tworzeniu, wdrażaniu i zarządzaniu potokami uczenia maszynowego z wykorzystaniem MLlib oraz MLflow.

8. Czy mogę korzystać z tej książki podczas przygotowań do pracy z dużymi zbiorami danych (big data)?

Zdecydowanie tak - książka jest skoncentrowana na efektywnym przetwarzaniu i analizie dużych zbiorów danych przy użyciu Apache Spark, co czyni ją wartościowym źródłem wiedzy dla specjalistów big data.

Zamknij

Proszę czekać...

Spark. Błyskawiczna analiza danych. Wydanie II Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee

Kup w zestawie z dodatkowym rabatem i zyskaj darmową dostawę

Kup w zestawie z dodatkowym rabatem