Przejdź do treści

Jakie wina sprzedają się najlepiej? Czy Polacy lubią wino czerwone czy białe? Słodkie czy wytrawne? Jak wybrać wino dobre i tanie?

Dane na potrzeby analizy pobierzemy ze sklepu internetowego. Odpowiedni skrypt (i pobrane dane) znajdziecie w repo na GitHubie, w pliku get_data.R. Skrypt jest dość długi, nie wnosi niczego ciekawego do samej analizy.

Po zebraniu danych możemy przystąpić do EDA (eksploracji danych). Potrzebujemy właściwie tylko pakietu tidyverse (od zaktualizowanej kilka dni temu wersji w skład ekosystemu wchodzą stringr i forcats; w przyszłości przydałoby się jeszcze lubridate dla kompletu).

Wczytujemy więc zapisane dane, lekko je modyfikujemy (ze względu na późniejszą kolejność i porządek na wykresach).

W pierwszej kolejności zrobimy remanent: zobaczymy co oferuje sklep. Jakie wina ze względu na pochodzenie, smak czy kolor.

Najwięcej oferowanych win pochodzi z Włoch i Francji, kolejna jest Hiszpania i Chile. Nie ma w tym nic dziwnego. Z jednej strony kraje te “od zawsze” produkują wina, a drugiej – te wina są najpopularniejsze.

Najwięcej oferowanych jest win wytrawnych. Niektórzy twierdzą, że inne smaki to nie wino ;)

Jeśli zaś chodzi o kolor to oczywiście dominuje czerwony (55% oferowanych win). Niemalże 41% to wina białe. Kolor “inny” mają dwa wina (andaluzyjskie “Alma Azul Blue Chardonnay” w wersji spokojnej i musującej).

Zobaczmy jeszcze jak wygląda przekrój smaku i koloru – więcej jest wytrawnych białych czy czerwonych?

Wiemy już, że 55% wszystkich oferowanych win to wina wytrawne, zaś z powyższego wykresu widzimy, że 49% wszystkich to wytrawne czerwone. Prawie połowa wytrawnych stanowią wina białe. W dużym uproszczeniu można powiedzieć, że:

  • wino czerwone to wino wytrawne
  • wino białe to też wytrawne
  • słodkie są wina białe
  • różowe są… wytrawne (i to dla mnie zaskoczenie – sądziłem, że będą to półsłodkie)

Swoją drogą powyższa tabela świetnie nadaje się do przećwiczenia prawa Bayesa. Jeśli mam wino czerwone to z jakim prawdopodobieństwem jest ono słodkie? I tego typu zadania na maturę.

Czy są kraje, gdzie produkuje się więcej win słodkich niż wytrawnych?

Suma w kolumnie (dla danego smaku) daje 100%. Możemy więc wyczytać, że:

  • produkcję win półsłodkich zdominowali Niemcy – ponad 1/4 półsłodkich win oferowanych w sklepie pochodzi z Niemiec
  • słodkie pochodzą mniej więcej równomiernie z Portugalii i Włoch
  • Niemcy dostarczają też najwięcej win półwytrawnych – ma to sens, klimat jest umiarkowany, daleko od morza, stąd może wynikać wypośrodkowany charakter wina
  • najwięcej win wytrawnych w ofercie Winezji pochodzi z Włoch

Zejdźmy teraz poziom niżej – do regionów. Czy region, z którego pochodzi wino ma wpływ na jego smak? Oczywiście tak, ale czy jest to bardzo widoczne – czy są regiony gdzie produkuje się tylko wina słodkie?

Słodkie wina powstają na Węgrzech (Tokaj) i w Austrii (Burgenland). Najwięcej widać zielonego (czyli win wytrawnych według legendy), ale to wynika również z tego, że w ofercie w ogóle dominują wina wytrawne.

Tyle przeglądu cech. Przejdźmy do cen i (nieco później) ocen.

Czy kraj pochodzenia ma wpływ na cenę butelki?

Najtańsze są wina z Polski, co być może da się wytłumaczyć kosztem transportu. Największą medianę cen (i jednocześnie największy ich rozstrzał) mają wina z Francji.

Popularne wina chilijskie mieszczą się w większości w cenie do około 100 zł za butelkę. Spodziewam się, że to jeden z czynników ich popularności. Drugi to (zapewne) ocena. Sprawdźmy jak wypadają te wina według oceny ekspertów:

I tutaj mamy ciekawostkę: wino z Chile jest średnio (dokładniej: medianą) gorzej ocenione niż wino z Polski. Zaś Francja nie jest wcale najlepsza – lepsze są węgierskie tokaje.

Czy smak wina ma wpływ na cenę? Droższe są słodkie czy wytrawne?

Patrząc na medianę to słodkie wina są nieznacznie droższe od wytrawnych. Widać wyraźnie różnicę pomiędzy smakami pośrednimi (półsłodkie i półwytrawne) a pełnymi.

Porównajmy jeszcze cenę i ocenę. Czy lepsze oznacza droższe?

Jest tak jak można się spodziewać: za jakość należy zapłacić. To naturalne prawo rynku. Do wyboru wina dobrego i taniego (oraz taniego i dobrego) jeszcze wrócimy.

Czy eksperci mają jakieś preferencje jeśli chodzi o smak?

Znowu: wina wyraziste (nie jakieś pół-) są oceniane lepiej. Różnica jest na poziomie kilku punktów (w skali 1-100, gdzie najniżej oceniane wino w naszym zbiorze ma ocenę 78, a najwyżej – 98), co wydaje się być całkiem sporą wartością.

A teraz klucz do rozwoju biznesu. Nie wiem czy sklep Winezja.pl prowadzi takie analizy. Jeśli nie – zrobiłem to za nich (gratis). Z jednej strony znamy podaż (ofertę sklepu) i wiemy, że najwięcej oferowanych jest win wytrawnych (prawie 82%), ale czy też takich sprzedaje się najwięcej?

Wykres może być mylący. Grupuje on wina po smakach i pokazuje rozstrzał liczby sprzedanych butelek. Na pierwszy rzut oka widać, że mediana dla półwytrawnych win jest większa niż win wytrawnych, a w ogóle największa dla win słodkich. Czy to znaczy, że słodkich sprzedaje się najwięcej? Nie.

Zobaczmy to w formie tabeli, zestawiając udział procentowy smaków ze względu na liczbę sprzedanych butelek (ich sumę dla danego smaku) po stronie popytowej oraz liczbę win (oferowanych) po stronie podażowej:

Smak Popyt Podaż Popyt % Podaż %
Półsłodkie 36918 42 7.7 5.5
Słodkie 14181 55 2.9 7.1
Półwytrawne 51527 43 10.7 5.6
Wytrawne 379527 630 78.7 81.8

Podaż i popyt nie są idealnie zrównoważone (widać to szczególnie w przypadku win półwytrawnych). Ale może tak powinno być? Najwięcej oferowanych jest tych, które kupują się najlepiej – wśród kategorii “wina wytrawne” mamy największy wybór.

Schodząc dodatkowo na poziom koloru (wystarczy dodać w grupowaniu kolor) widać podobną równowagę. Jeśli miałbym coś sugerować to dodanie win czerwonych półwytrawnych: spożycie to 5.5%, a oferta to 1.2%.

No właśnie – co pijemy? Jak rozkłada się popularność (mierzona liczbą sprzedanych butelek) na poszczególne smaki i kolory?

Wróćmy teraz do ocen. Na początek oceny ekspertów, tym razem podzielone według smaków i kraju pochodzenia wina:

Na czerwono oznaczone są te kraje, dla których ocena była najwyższa. Sprawdźmy w detalach, po trzy kraje dla danego smaku:

Smak Kraj Ocena
Półsłodkie Francja 86.7
Półsłodkie Węgry 84.0
Półsłodkie Portugalia 83.2
Słodkie Niemcy 97.7
Słodkie Austria 89.0
Słodkie Węgry 89.0
Półwytrawne Słowacja 88.0
Półwytrawne Niemcy 86.2
Półwytrawne Francja 85.3
Wytrawne Izrael 88.6
Wytrawne Francja 87.7
Wytrawne Liban 87.5

Ta Słowacja (półwytrawne) wygląda interesująco – jakie to wino?

Nazwa Kolor Rocznik Producent Cena [zł] Ocena
Chateau Bela Riesling Sturovo Region Muzla Białe 2015 Chateau Bela S.R.O. 69.99 88

W sklepie mamy również oceny rozbite na poszczególne składowe: smak, gładkość, budowa i aromat. Swoją drogą kod strony jest nieco zakręcony w tym miejscu – dla zainteresowanych polecam prześledzić skrypt pobierający dane. Ja to wygląda w rozbiciu na gatunki (smaki)?

Najsmaczniejsze są wina wytrawne (jak pamiętacie w ogólnej ocenie są również dobrze oceniane) i to bez względu na kolor. Jakie wina są najlepsze w danej kategorii oceny? Zróbmy tabelę:

Cecha Kolor Smak Ocena
budowa Czerwone Słodkie 3.4
aromat Czerwone Wytrawne 2.6
gładkość Różowe Wytrawne 3.3
smak Różowe Wytrawne 3.9

Odejdźmy teraz od koloru w zamian za kraj:

Jeśli chcesz najbardziej aromatyczne wino – kup chilijskie słodkie. Najsmaczniejsze – austriackie wytrawne.

Teraz przełóżmy te same dane w inną formę:

Celowałbym w Portugalię, bez względu na rodzaj wina :)

Do każdego z win w sklepie mamy podaną zalecaną temperaturę podawania. Nauczmy się więc przy okazji czegoś i dowiedzmy w jakiej temperaturze podawać wina? Biorąc pod uwagę najczęściej występującą temperaturę dla każdego z gatunków i kolorów:

Smak Białe Czerwone Różowe Inne
Półsłodkie 8°C 14°C 10°C
Słodkie 8-10°C 18°C
Półwytrawne 10°C 14-16°C 10°C
Wytrawne 10°C 18°C 10°C 12°C

Zasada jest prosta: zawsze około 10 stopni Celsiusza, chyba że wino czerwone to nieco cieplejsze (16 stopni będzie ok).

Przejdźmy teraz do roczników, a raczej informacji od kiedy wina są dostępne w sklepie:

Widać tutaj historię zdobywania nowych pozycji w ofercie (tak sobie to tłumaczę). Nie wiem kiedy powstał sklep, można sądzić że w 2010 roku. W 2016 dotarła druga fala nowych zakupów (kontraktów).

Popatrzmy na roczniki oferowanych win:

Najwięcej w ofercie jest win z rocznika 2015. Ma to swoje uzasadnienie, zapewne w cenie jaki dostępności u producentów.

Czy wina długo dostępne są bardziej popularne?

To nie powinno zaskakiwać: towary, które są od długiego czasu oferowane zdążyły się sprzedać. A jeśli się sprzedają to nie zostają wycofane.

Sprawdźmy czy cena ma przełożenie na popularność wina?

Oczywiście, że ma. Mało jest osób, które są w stanie wydać dużo na wino – większość Polaków robi tego typu zakupy w marketach, Lidlach czy Biedronkach, a tam ceny są w okolicy 20-30 złotych. Jeśli ktoś szuka innego wina robi to w sklepie internetowym (albo specjalistycznym stacjonarnym). A jeśli szuka to znaczy, że mu zależy i jest w stanie zapłacić nieco więcej niż w markecie.

Z powyższych przyczyn najwięcej sprzedaje się win w cenie w okolicach 30-40 złotych. Jest to kompromis pomiędzy jakością, ceną i narzutem związanym z kosztem dostawy.

Przejdźmy teraz do szczepów winorośli. Bo przecież wszystko od tego zależy. Jakie szczepy są najpopularniejsze? Od razu w podziale na kraj pochodzenia:

Cabernet Sauvignon czy Merlot to najpopularniejsze szczepy, jak widać występują w wielu krajach. Podobnie jest z Syrah czy Shiraz. Ale są unikaty – Furmint z Węgier, niemiecki (i trochę też polski albo słowacki) Riesling. Gruzja, Portugalia, Hiszpania i Włochy mają swoje lokalne szczepy.

Wino z którego szczepu winogron jest najlepsze według ekspertów?

Merlot Noir i dwa wina pochodzące (częściowo) z tego szczepu:

Nazwa Szczep Ocena
Château Haut-Brion Pessac-Leognan Rouge AOC 2010 Cabernet Sauvignon (57%),
Merlot Noir (23%),
Cabernet Franc (20%)
98
Château La Mission Haut-Brion Pessac-Léognan Rouge AOC 2010 Cabernet Sauvignon (62%),
Merlot Noir (37%),
Cabernet Franc (1%)
95

Oba są czerwonymi winami wytrawnymi z Francji, z rocznika 2010. Château Haut-Brion Pessac-Leognan Rouge AOC 2010 jest najlepiej ocenianym winem w całej Winezji.

Widzieliśmy, że szczep ma wpływ na ocenę, co za tym idzie pewnie też na cenę:

Najdroższym winem ze szczepem Petit Verdot (też w mieszance) jest francuskie czerwone wytrawne Le Clarence de Haut-Brion Pessac-Leognan Rouge AOC 2011 – 999 zł za butelkę.

Mając informację o szczepach i kraju pochodzenia możemy sprawdzić czy szczepy są ograniczone terytorialnie. Widzieliśmy to już wyżej (wykres z najpopularniejszymi szczepami w danym kraju), ale zbudujmy z tych informacji graf, który pokaże nam połączenia:

Wzięliśmy pod uwagę tylko górną 1/4 najpopularniejszych szczepów. Przygotowaliśmy grupy poszczególnych szczepów i widać wyraźnie, że istnieje podział terytorialny. Jakiś enolog zapewne mógłby opowiadać o tym godzinami. Jako laik widzę po prostu różnice w klimacie i ukształtowaniu terenu (góry, dostęp do morza).

Czas na najciekawszą sprawę – wybór dobrego i taniego. Wiadomo przecież, że dobre wino jest dobre, bo jest tanie i dobre.

Tylko jak wybrać to najlepsze (według tak założonych kryteriów)?

Najpierw wybierzmy najlepsze z najtańszych, na przykład takie standardowe czerwone półwytrawne:

Nazwa Kraj Cena Ocena
Les Grands Chemins Carignan Francja 29.99 84
Parthenium Nero D’Avola I.G.P. Włochy 29.99 81
Fiuza 3 Castas Touriga Nacional Semi Dry Red Portugalia 34.99 84
Sachino Red Gruzja 39.99 81
Almarosa Primitivo Puglia I.G.T. Włochy 44.99 82

Teraz odwróćmy kolejność: najtańsze białe półsłodkie z najlepszych:

Nazwa Kraj Cena Ocena
Franz Reh & Sohn Piesporter Michelsberg Niemcy 29.99 83
Cava Rigol Semi Seco Hiszpania 29.99 82
Villa Rosale Chardonnay Pinot Bianco I.G.T. Włochy 24.99 81
Wine Moments Müller-Thurgau Leiblich Niemcy 24.99 80
Kumala Cape Classics White Republika Południowej Afryki 24.99 79
Liebfraumilch Johannes Egberts Niemcy 16.59 78

A co dostaniemy łącząc oba zbiory i wybierając te z najniższą ceną?

Smak Kolor Nazwa Kraj Cena Ocena
Półsłodkie Czerwone Vinha Maria Medium Sweet Red Portugalia 27.99 83
Półsłodkie Różowe Wine Moments Dornfelder Lieblich Rose Niemcy 24.99 79
Półsłodkie Różowe Villa Rosale Zinfandel I.G.T. Włochy 24.99 80
Półwytrawne Czerwone Parthenium Nero D’Avola I.G.P. Włochy 29.99 81
Półwytrawne Czerwone Les Grands Chemins Carignan Francja 29.99 84
Półwytrawne Różowe Les Grands Chemins Cinsault Rose Francja 29.99 83
Wytrawne Inne Alma Azul Blue Chardonnay Sparkling Hiszpania 59.99 80

Czy to dobra metoda? Niekoniecznie. A może po prostu kierować się wskaźnikiem jakości do ceny? Wybierzmy więc według tej miary wina przy dodatkowym założeniu, że szukamy tylko z tych lepszych połówek ceny (niższa cena) i jakości (wyższa ocena ekspertów):

Smak Kolor Nazwa Kraj Cena Ocena Jakość/Cena
Półsłodkie Białe Franz Reh & Sohn Piesporter Michelsberg Niemcy 29.99 83 2.77
Półsłodkie Czerwone Vinha Maria Medium Sweet Red Portugalia 27.99 83 2.97
Półsłodkie Różowe Villa Rosale Zinfandel I.G.T. Włochy 24.99 80 3.20
Słodkie Białe Osborne Sherry Medium Golden Hiszpania 49.99 84 1.68
Półwytrawne Białe Senorío De Orgaz Semi Seco Hiszpania 27.99 83 2.97
Półwytrawne Czerwone Les Grands Chemins Carignan Francja 29.99 84 2.80
Półwytrawne Różowe Les Grands Chemins Cinsault Rose Francja 29.99 83 2.77
Wytrawne Białe Senorío De Orgaz Brut Hiszpania 27.99 84 3.00
Wytrawne Czerwone Bajoz Crianza Toro Hiszpania 34.99 86 2.46
Wytrawne Różowe Chivite Gran Feudo Rosado Navarra D.O. Hiszpania 39.99 85 2.13
Wytrawne Inne Alma Azul Blue Chardonnay Sparkling Hiszpania 59.99 80 1.33

Zobaczmy czy oferta jest w pewnym sensie zbalansowana – czy mamy tyle samo win zbyt drogich w porównaniu do ich jakości co zbyt tanich? Jak wygląda rozkład jakości do ceny? Teoretycznie rozkłady powinny być symetryczne.

Czerwona linia to mediana.

Niestety w danych nie znajdziemy informacji o różnych wskaźnikach jakimi zapewne można opomiarować wino – takie dane znaleźć można na UCI, w paczce Wine Data Set. Gdybyśmy takie dane posiadali zabawa byłaby jeszcze lepsza. Można by przygotować jakieś modele regresyjne albo klasyfikujące. Tutaj oceny cząstkowe (aromat, gładkość itd.), ceny czy oceny ekspertów są zbyt zbliżone, aby cokolwiek na ich podstawie wnioskować czy przewidywać. Tak czy inaczej – mam nadzieję, że się podobało, a i o winie czegoś się dowiedzieliście.

Na koniec chciałbym zaznaczyć, że sklep Winezja.pl w żaden sposób nie sponsorował tego wpisu (a szkoda – byłoby łatwiej z kieliszkiem w dłoni ;-). Co więcej – był (może nadal jest? możecie im donieść…) nieświadomy całej akcji i analizy. Trafiło na ten sklep z Google – był to pierwszy sklep, który na stronie prezentował interesujące mnie dane. Być może odkrywam jakieś tajemnice handlowe sklepu – nie wiem, na pewno nie robię tego rozmyślnie.

Inspiracją dla wpisu: Analyzing 1000+ Greek Wines With Python.

9 komentarzy do “Wino”

  1. „Czas na najciekawszą sprawę – wybór dobrego i taniego. Wiadomo przecież, że dobre wino jest dobre, bo jest tanie i dobre.” – chyba malutki błąd – powinno być „tanie wino jest dobre (…)”

    1. Chciałem zauważyć, że ocena 4.9 jednego wina, która została uśredniona z 4 głosów jest zupełnie inną oceną niż ocena 4.5 (chociażby), która została uśredniona z 50 głosów. Dlatego wskaźnik oceny, który jest tu brany jest dość niemiarodajny.

      Gdyby zastosować chociażby takie podejście: http://www.evanmiller.org/how-not-to-sort-by-average-rating.html – sortowanie według oceny byłoby znacznie bardziej wymowne.

      Nie spodziewałem się takiego wpisu, tym bardziej, że szykuję wesele i właśnie szukałem informacji o winach :) Czy istnieje jakaś możliwość by mógł Pan sprawdzić jak by to wyglądało z wykorzystaniem tego binoma?

      1. Ok, zauważyłem, że bierzesz pod uwagę opinie eksperta, a nie opinie wystawione przez ludzi, to zmienia zupełnie mój tok rozumowania :)

        1. To jak już lubię sobie popisać, to w ostatnim wykresie rozumiem, że wartość x to jest jakosc_cena, a czym w takim razie jest wartość y? Na nie wiem skąd jest wyliczana, żeby zrozumieć ten wykres.

          Czytając dokumentację medoty geom_density() (http://ggplot2.tidyverse.org/reference/geom_density.html) wydaje mi się, że ta wartość to jest wskaźnik „gęstości występowania takiego jakosc_cena”. Czyli biorąc na tapet wina białe słodkie: najwięcej można spotkać takich, których jakość/cena jest równa mniej więcej 1.7~1.8

          Dobrze kombinuję? :)

            1. Zapewne tak. Zwykle cały proces powstawania wpisu dałoby się zamknąć w okolicach 20 godzin. Kod idzie szybko (analiza jest wynikiem zabawy danymi i to co uznaję za ciekawe zostaje we wpisie – dlatego często powtarzają się fragmenty tego samego kodu, zupełnie bez sensu powtarzane są obliczenia typu filtrowanie czy grupowanie), opisywanie długo. Najdłużej zbieranie danych (scrapping czy jak w przypadku sieci neuronowych trening sieci).

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *