ODBIERZ TWÓJ BONUS :: »

Ekstrakcja danych z językiem Python. Pozyskiwanie danych z internetu. Wydanie II Ryan Mitchell

(ebook) (audiobook) (audiobook)
Autor:
Ryan Mitchell
Wydawnictwo:
Helion
Wydawnictwo:
Helion
Ocena:
2.0/6  Opinie: 4
Stron:
272
Druk:
oprawa miękka
Dostępne formaty:
     PDF
     ePub
     Mobi
Czytaj fragment
Książka
59,00 zł

Powiadom mnie, gdy książka będzie dostępna

Ebook
19,90 zł 59,00 zł (-66%)
29,49 zł najniższa cena z 30 dni

Dodaj do koszyka Dostępny natychmiast po opłaceniu zakupu lub Kup na prezent Kup 1-kliknięciem

Przenieś na półkę

Do przechowalni

Powiadom o dostępności audiobooka »

Czego się nauczysz?

  • Tworzenia robotów indeksujących z użyciem bibliotek BeautifulSoup i Scrapy
  • Analizy i przetwarzania struktury HTML oraz nawigowania po drzewie DOM
  • Stosowania wyrażeń regularnych do wydobywania danych z kodu strony
  • Pełzania po pojedynczych domenach i całych witrynach internetowych
  • Planowania i definiowania modeli ekstrakcji danych dla różnych typów stron
  • Przechowywania danych w plikach CSV, bazach MySQL i plikach multimedialnych
  • Odczytywania i przetwarzania plików tekstowych, CSV, PDF i DOCX
  • Oczyszczania i normalizacji danych przy użyciu narzędzi takich jak OpenRefine
  • Analizy tekstu i przetwarzania języka naturalnego z wykorzystaniem NLTK
  • Obsługi formularzy, logowania i uwierzytelniania HTTP w Pythonie
  • Ekstrakcji danych z dynamicznych stron wykorzystujących JavaScript i Selenium
  • Pozyskiwania danych poprzez interfejsy API, w tym obsługi nieudokumentowanych API
  • Przetwarzania obrazów i rozpoznawania tekstu (OCR) za pomocą Tesseract i Pillow
  • Unikania zabezpieczeń antybotowych oraz etycznych aspektów ekstrakcji
  • Testowania witryn internetowych i automatyzacji testów z użyciem unittest i Selenium
  • Zrównoleglania procesu ekstrakcji danych z użyciem wątków i procesów
  • Wdrażania zdalnej ekstrakcji danych przy użyciu serwerów, proxy i narzędzi typu Tor
  • Analizowania kwestii prawnych i etycznych związanych z web scrapingiem

Ekstrakcję danych (ang. web scraping), zwaną też wydobywaniem danych z zasobów internetu, wiele osób postrzega jako wyższy stopień wtajemniczenia: przy niewielkim wysiłku można uzyskać imponujące wyniki i wykorzystać je w różnoraki sposób. Nie dziwi więc, że wokół tej dziedziny narosło mnóstwo mitów. Wątpliwości jest wiele, począwszy od legalności tego rodzaju praktyk, skończywszy na właściwościach różnych narzędzi. W praktyce na ekstrakcję danych składa się cały szereg zróżnicowanych technik i technologii, takich jak analiza danych, analiza składniowa języka naturalnego, a także zabezpieczenie informacji. Aby w pełni wykorzystać ich zalety, konieczne jest zrozumienie sposobu, w jaki funkcjonują.

Ta książka jest znakomitym przewodnikiem po technikach pozyskiwania danych z internetu. Przedstawiono tu również zasady gromadzenia, przekształcania i wykorzystywania danych z różnych zasobów. W kontekście ekstrakcji danych omówiono zagadnienia związane z bazami danych, serwerami sieciowymi, protokołem HTTP, językiem HTML, bezpieczeństwem sieciowym, przetwarzaniem obrazów, analizą danych i wieloma innymi kwestiami. Zaprezentowane tu rozwiązania programistyczne zostały napisane w Pythonie. Nie zabrakło też omówienia bibliotek przydatnych w pracy osób tworzących roboty indeksujące. Dzięki tej książce szybko zaczniesz pozyskiwać i w dowolny sposób wykorzystywać posiadane dane. Już dziś te rozwiązania są stosowane w prognozowaniu rynkowym, tłumaczeniu maszynowym, a nawet w diagnostyce medycznej!

Najważniejsze zagadnienia:

  • korzystanie z platformy Scrapy do tworzenia robotów
  • metody odczytu, wydobywania i przechowywania pozyskiwanych danych
  • oczyszczanie i normalizacja danych
  • interfejsy API
  • przetwarzanie obrazów na tekst
  • testowanie witryn za pomocą robotów

Wyszukuj dane, gromadź je i korzystaj z nich do woli!

Wybrane bestsellery

O autorze książki

Ryan Mitchell - jest starszą inżynier oprogramowania w firmie HedgeServ (Boston), gdzie zajmuje się tworzeniem interfejsu API przedsiębiorstwa i narzędzi do analizy danych. Ukończyła uczelnię Olin College of Engineering, a także Harvard University Extension School z tytułem magistra inżynierii oprogramowania oraz certyfikat studiów podyplomowych na kierunku analiza danych. Przed dołączeniem do firmy HedgeServ zajmowała się pisaniem robotów indeksujących i narzędzi automatyzacji w przedsiębiorstwie Abine. Zajmuje się również doradztwem na temat ekstrakcji danych w branży detalicznej, finansowej i farmaceutycznej, ponadto była konsultantką ds. programu nauczania i wykładowczynią kontraktową na Uniwersytecie Północnozachodnim i uczelni Olin College of Engineering.

Zobacz pozostałe książki z serii

Helion - inne książki

Najczęściej zadawane pytania (FAQ)
1. Czy książka ,,Ekstrakcja danych z językiem Python. Pozyskiwanie danych z internetu. Wydanie II" zawiera praktyczne przykłady kodu?
Tak, książka prezentuje liczne przykłady kodu w języku Python, ilustrujące techniki ekstrakcji danych, korzystanie z bibliotek takich jak BeautifulSoup, Scrapy, Requests czy Selenium oraz integrację z bazami danych.
2. Czy do korzystania z książki potrzebuję wcześniejszego doświadczenia w programowaniu w Pythonie?
Podstawowa znajomość Pythona będzie pomocna, jednak książka wprowadza czytelnika w niezbędne zagadnienia i narzędzia krok po kroku, co ułatwia naukę nawet osobom na poziomie początkującym.
3. Jakie narzędzia i biblioteki są omawiane w książce?
W publikacji szczegółowo omówiono m.in. BeautifulSoup, Scrapy, Requests, Selenium, Pillow, Tesseract, OpenRefine oraz narzędzia do pracy z bazami danych i przetwarzania tekstu (np. NLTK).
4. Czy książka porusza kwestie legalności i etyki web scrapingu?
Tak, jeden z rozdziałów poświęcony jest zagadnieniom prawnym i etycznym związanym z ekstrakcją danych, w tym prawom autorskim, plikowi robots.txt i praktykom zgodnym z obowiązującym prawem.
5. Czy dzięki tej książce nauczę się pozyskiwać dane z różnych typów stron internetowych, także zabezpieczonych lub dynamicznych?
Tak, książka pokazuje, jak radzić sobie z różnymi typami stron, w tym dynamicznymi (JavaScript), zabezpieczonymi formularzami oraz jak korzystać z interfejsów API i przetwarzać dane z różnych formatów plików.
6. Czy publikacja obejmuje zagadnienia związane z automatyzacją i testowaniem procesów ekstrakcji danych?
Tak, osobny rozdział poświęcony jest testowaniu witryn za pomocą robotów indeksujących oraz automatyzacji zadań, w tym wielowątkowości i uruchamianiu procesów na serwerach zdalnych.
7. Czy książka jest aktualna względem najnowszych narzędzi i technologii?
To drugie, zaktualizowane wydanie, które uwzględnia bieżące trendy, nowe biblioteki i aktualizacje narzędzi wykorzystywanych w web scrapingu z użyciem Pythona.
8. Czy publikacja dostępna jest w wersji elektronicznej (e-book)?
Tak, książka jest dostępna zarówno w wersji papierowej, jak i elektronicznej (e-book) na Helion.pl.

Zamknij

Przenieś na półkę
Dodano produkt na półkę
Usunięto produkt z półki
Przeniesiono produkt do archiwum
Przeniesiono produkt do biblioteki
Proszę czekać...
ajax-loader

Zamknij

Wybierz metodę płatności

Książka
35,40 zł
Czasowo niedostępna
Ebook
19,90 zł
Dodaj do koszyka
Zamknij Pobierz aplikację mobilną Ebookpoint