Jak scraper może pomóc w Twoich badaniach?

Feb 26, 2021

Czym jest scraper? To program, który automatyzuje przeglądanie stron internetowych oraz pozwala na pobieranie ich treści. Sens wykorzystania scrapera w badaniach polega jednak w tym, że jesteśmy w stanie bardzo dokładnie zaplanować, jakie treści mają zostać pobrane oraz w jakiej formie zostaną udostępnione.

Dobrym przykładem byłoby takie oto badanie: wiemy, że książki o historii (literatura faktu) są ważną częścią oferty wydawniczej. Możemy założyć sobie także, że stosunek czytelników i czytelniczek do książek historycznych jest nieco inny niż do beletrystyki - wywołują one inne emocje, podlegają ocenie innego typu itd. Nasze badanie miałoby sprawdzić, czy oceny książek historycznych różnią się w jakiś sposób od ocen beletrystyki.

W serwisie Lubimyczytac.pl znajdziemy oceny i komentarze recenzujące poszczególne tytyły. Moglibyśmy zebrać sobie oceny dla książek historycznych i np. książek z kategorii “fantastyka” i “kryminał” i sprawdzić, czy:

średnia ocena książki historycznej jest wyższa lub niższa od średniej oceny książki z kategorii “fantastyka” i “kryminał”;
jak ta relacja układa się dla średniej liczby komentarzy;
jaka jest relacja między średnią liczbą komentarzy a średnią oceną dla analizowanych kategorii.

To oczywiście projekt badania przygotowany na szybko i bez przeglądu literatury na ten temat. Jak jednak moglibyśmy go zrealizować, skoro w polskim internecie nie znajdziemy lepszego źródła recenzji i ocen niż Lubimyczytac.pl, a serwis ten nie udostępnia swoich danych w żaden uporządkowany sposób? W takim zadaniu przyda nam się scraper. Scraper, napisany w dowolnym języku programowania lub “wyklikany” w jednym z wielu serwisów, pozwalających na konstruowanie takich programów w trybie wizualnym, umożliwiłby nam:

zdobycie URLi każdej książki z wybranej do badania kategorii;
pobranie z tych URLi podstawowych informacji o książce (tytuł, autor itp.) oraz oceny i komentarzy
wyeksportowanie tych danych do CSV do dalszego przetwarzania, liczenia średnich itp.

Mamy więc zadanie, w którym musimy przeglądać witrynę internetową już nie w trybie “użytkownika ludzkiego”, ale “użytkownika maszynowego”. Scraper nie będzie interesował się dizajnem strony, o ile nie będzie on miał dla nas znaczenia (moglibyśmy przecież w zupełnie innym badaniu analizować kolory witryn).

Jak zbudować sobie scraper? Przede wszystkim trzeba mieć koncepcję badania i dokładnie rozpisać, jakie dane i w jaki sposób powinny być zbierane. Należy też wybrać źródła, które będą analizowane. Potem można skorzystać z gotowych rozwiązań takich jak Import.io czy Automatio.co.

Automatio.co to nowa usługa pozwalająca na proste konstrowanie scraperów do pobierania danych ze stron WWW. Tworzone w tym systemie scrapery obsługują nie tylko parsowanie kodu HTML w celu wyodrębniania interesujących nas treści, ale także kliknięcia, przewijanie stron, logowanie do kont, tworzenie screenshotów czy wpisywanie znaków do pól wyszukiwania. Możliwy jest eksport danych do plików JSON i CSV. Usługa nie jest jeszcze w pełni dostępna - należy aplikować o early access.

POLECANE WPISY

Praktyka ochrony zbiorów audiowizualnych (raport technologiczny)

W październiku zeszłego roku Digital Preservation Coalition wydała opracowanie podsumowujące metody i strategie ochrony zbiorów audiowizualnych. Raport przedstawia podstawowe informacje o cechach plików audiowizualnych, najlepsze praktyki w zakresie ich wieczystego zabezpieczania oraz wyzwania z tym związane, m.in. ryzyka prawne, kontrowersje etyczne, problemy wynikające z ewolucji sprzętu komputerowego czy koszty finansowe. Przygotowano także studia przypadku z Międzynarodowej Agencji Energetyki Atomowej, archiwów zespołu Marka Morrisa, znanego amerykańskiego tancerza oraz Borthwick Institute for Archives na Uniwersytecie w Yorku.

W czasie lockdownu rośnie liczba edycji Wikipedii

Analiza 223 milionów edycji z 12 wersji językowych Wikipedii z lat 2018-2020 pozwoliła wykazać, że pandemia i lockdown przełożyły się na zwiększenie liczby edycji oraz zwiększenie liczby osób w społeczności. Jak przekonują autorzy, edycje w anglojęzycznej Wikipedii wzrosły o 20 proc. od poziomu, jaki możnaby zakładać na podstawie analizy danych z lat poprzedzających pandemię. Wzrosty liczby edycji przekraczają założenia także w Wikipediach w włoskim, niemieckim, francuskim, koreańskim i japońskim - dzieje się to jednak po krótkotrwałym szoku, wyraźnym spowolnieniu edycji, spowodowanym zakazem przemieszczania się.

Pierwsza analiza dostępności historycznych zasobów polskiego Webu

Współcześnie dostępnych jest niecałe 22 proc. badanych adresów URL z wydanego w 1997 roku drukowanego katalogu stron WWW "Polish World". Równocześnie prawie 80 proc. adresów jest dostępnych w archiwach Webu - nie oznacza jednak, że została zachowana ich oryginalna postać.

Digital Humanities Awards: nominacje za 2019 rok

Dostępna jest już lista publikacji, wydarzeń i projektów, zgłoszonych do nagrody Digital Humanities Awards za 2019 rok. DHA organizowana jest od 2012 roku i jej celem jest wyróżnienie 'talentu i doświadczenia w społeczności humanistyki cyfrowej'. Nominacje i głosowanie jest otwarte dla wszystkich, z nagrodą nie są związane żadne korzyści finansowe.

Indeks Hirscha nie jest już dobrym wskaźnikiem renomy naukowej

Autorzy opracowania zebrali dane o najczęściej cytowanych autorach z dziedzin takich jak biologia, informatyka, ekonomia i fizyka. Analiza 3.9 mln artykułów i 323 milionów cytatów wykazała, że korelacja poziomu indeksu Hirscha z otrzymywaniem nagród naukowych, wskaźnikiem pozycji w świecie naukowym, wyraźnie zmalała. W ramach badania zebrano dane o ponad 10 tys. nagród naukowych, począwszy od lat 70. - autorzy sugerują, że konieczne jest przemyślenie znaczenia indeksu-h w ocenie dorobku naukowego i systemach grantowych.

Facebook: społecznościowe agregowanie kont zmarłych osób

Profiles de Gente Morta to brazylijska społeczność facebookowa, której celem jest agregowanie informacji o osobach niedawno zmarłych, których profile dostępne są w tym serwisie społecznościowym. Osoby angażujące się w PGM chcą upamiętniać zmarłych, szczególnie w okresie pandemii, kiedy organizacja tradycyjnych pogrzebów jest zakazana - szukają też danych na stronach zakładów pogrzebowych. Społeczność wypracowała szczegółowy schemat publikowania informacji o zmarłych, nad przestrzeganiem zasad czuwają moderatorzy. Początki PGM sięgają lat 00. i serwisu Orkut, na Facebooku grupa liczy prawie 155 tys. osób.

Historia i Media to serwis o kulturze cyfrowej, humanistyce i badaniach Internetu. Publikujemy odnośniki i komentarze do wartościowych tekstów i zasobów. Po więcej materiałów zapraszam na Historia i Media.

Możesz również zgłaszać własne linki: https://historiaimedia.org/add/

Grafika: Natasha Remarchuk, https://icons8.com/

Historia i Media

Jak scraper może pomóc w Twoich badaniach?

POLECANE WPISY

Discussion about this post