In [33]:
library(bigrquery)
# Store the project id
projectid = "ceska-televize"
# Set your query
sql <- "SELECT eventDate, deviceID, sessionID, eventLabel from L1.CT_HITS_FACT where eventDate >= '2020-05-01' and eventCategory = 'Video' and eventAction='Prehrat'"
# Run the query and store the data in a dataframe
df <- query_exec(sql, projectid, use_legacy_sql = FALSE, allow_large_results = TRUE, max_pages=Inf)
# Print the query result
nrow(df)
0 bytes processed
4571930
In [34]:
library(dplyr)
library(tidyr)
names(df) <- c("date","user","session","porad")
data <- df %>% group_by(user,porad) %>%
summarise(
shlednuti=length(porad)
) %>%
arrange(desc(shlednuti))
head(data)
A grouped_df: 6 × 3
user porad shlednuti
<chr> <chr> <int>
2130452816.1573570907 Sametová revoluce 434
625748391.1589549122 Méďové | Méďové se rodí v lednu 382
434504640.1531560908 Herbář | Herbář VII 371
2130452816.1573570907 Václav III. 347
697703908.1574500546 UčíTelka | Český jazyk 326
300753701.1555777368 Výživa 319
In [35]:
datam <- data[1:10000,] %>% spread(porad, shlednuti)
datam
A grouped_df: 8569 × 1825
user 1. Newtonův zákon 10 let od ničivé tsunami v Indonésii (2004) 100 let od pandemie španělské chřipky 13. komnata | 13. komnata Daniela Landy 13. komnata | 13. komnata Michala Davida 168 hodin | Neděle 10. května 168 hodin | Neděle 16. června 2019 168 hodin | Neděle 17. května 168 hodin | Neděle 24. května ⋯ Znehodnocení peněz Zprávy | Pondělí 11. května Zprávy v českém znakovém jazyce | Zprávy ve znakové řeči Zrádci | Všechno bude OK (6/6) Zrádci | Ze života pozůstalých (3/6) Zrak Ztracená brána | 3/3 Zuby: Dentální hygiena Zvuk 她教 | 捷克语
<chr> <int> <int> <int> <int> <int> <int> <int> <int> <int> ⋯ <int> <int> <int> <int> <int> <int> <int> <int> <int> <int>
1000089823.1586371805 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1000258059.1587452450 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1000382949.1585159734 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1001038010.1508251126 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1001075286.1590577080 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1001245213.1588498494 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1001385987.1522166989 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
100147631.1547663562 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1001833701.1590931493 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
100183888.1441304812 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1002912975.1587981723 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
100299943.1588543812 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1003024900.1545771934 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1003093583.1578232973 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1003095009.1587573297 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1003104275.1590334243 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
100340164.1448062407 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
100346836.1584950640 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1004311389.1588757416 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1004313784.1589811543 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1004556101.1487538129 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1004861464.1590337424 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1005246134.1585590293 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1005723036.1589058191 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1006116725.1547058719 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1006156629.1590476419 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1006220870.1589800748 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1006233852.1588622829 NA NA NA NA NA 25 NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1006429726.1590944819 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
1006559230.1588736891 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
991932171.1561404199 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
992092295.1569525356 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
992108774.1576868286 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
992597793.1547217533 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
99269882.1591085581 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
992964473.1583832161 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
992970353.1591120886 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
993250976.1562312252 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
993447706.1589543348 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
993685276.1588597911 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
993845382.1544378125 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
993967815.1559033479 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
994659400.1572159777 NA NA NA NA NA 41 NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
995043004.1588591948 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
995175063.1589464138 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
995260687.1497775779 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
995764198.1447451437 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
995893256.1586512010 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
996241819.1587727037 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
99664456.1577364829 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
996703845.1588058442 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
997124071.1581844210 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
998083506.1590402009 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
998269635.1580288810 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
998300734.1589362742 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
998421858.1580076079 NA NA NA NA NA 23 NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
998458114.1590995657 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
998763274.1573992265 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
999285826.1548741503 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
999834241.1573913191 NA NA NA NA NA NA NA NA NA ⋯ NA NA NA NA NA NA NA NA NA NA
In [36]:
library("arules")
library("recommenderlab")
In [37]:
# Create a temporary directory
# Write our data.frame to a csv
write.csv(data[,c(1,2)], "/tmp/tall_transactions.csv")
# Read that csv back in
relations <- read.transactions(
file = "/tmp/tall_transactions.csv",
format = "single",
sep = ",",
cols=c("user","porad"),
rm.duplicates = T,
header=TRUE
)
summary(relations)
transactions as itemMatrix in sparse format with
911987 rows (elements/itemsets/transactions) and
56152 columns (items) and a density of 4.926816e-05
most frequent items:
Polopatě | Polopatě
31766
Všechno, co mám ráda | Všechno, co mám ráda
21701
Anatomie zrady | 2/2
16306
UčíTelka | Český jazyk
15254
168 hodin | Neděle 10. května
14637
(Other)
2423353
element (itemset/transaction) length distribution:
sizes
1 2 3 4 5 6 7 8 9 10 11
565547 134618 62143 35311 23215 16865 11859 9705 7352 5781 4693
12 13 14 15 16 17 18 19 20 21 22
4204 3600 2931 2465 2170 1814 1655 1526 1342 1109 1087
23 24 25 26 27 28 29 30 31 32 33
875 807 738 642 585 508 485 403 407 358 355
34 35 36 37 38 39 40 41 42 43 44
314 311 209 261 208 209 202 159 183 148 147
45 46 47 48 49 50 51 52 53 54 55
127 119 140 102 95 92 78 60 71 77 64
56 57 58 59 60 61 62 63 64 65 66
65 75 46 52 53 46 49 40 37 42 47
67 68 69 70 71 72 73 74 75 76 77
31 26 22 45 23 28 22 25 26 27 32
78 79 80 81 82 83 84 85 86 87 88
23 25 15 22 19 15 13 12 13 13 10
89 90 91 92 93 94 95 96 97 98 99
12 8 14 18 11 12 5 7 6 4 14
100 101 102 103 104 105 106 107 108 109 110
10 8 9 7 9 9 9 11 9 6 4
111 112 113 114 115 116 117 118 119 120 121
6 5 5 7 7 2 1 6 4 2 4
122 123 124 125 126 127 128 129 130 131 132
4 4 4 6 3 2 3 2 4 2 3
133 134 135 136 137 138 139 140 141 142 143
5 4 4 3 2 3 5 3 4 2 2
144 146 147 148 149 151 152 153 154 155 156
2 4 2 1 3 1 1 3 4 1 2
159 163 165 166 167 169 170 171 176 177 178
1 2 2 3 1 1 1 1 1 1 1
179 180 181 182 183 184 185 186 188 189 191
1 1 1 3 1 1 2 1 1 2 1
192 193 198 200 201 203 204 208 209 212 221
1 1 1 1 1 1 1 1 1 1 2
223 228 234 241 249 258 271 273 297 298 304
1 2 1 1 1 1 1 2 1 1 1
314 329 353 357 361 364 435 450 505 525 606
1 1 1 1 1 1 1 1 1 1 1
709 800
1 1
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 1.000 1.000 2.767 2.000 800.000
includes extended item information - examples:
labels
1 - Сер, ви вдова! |
2 -terapie
3 ... až na věky |
includes extended transaction information - examples:
transactionID
1 1000003432.1588073586
2 1000003562.1579139637
3 1000009105.1589546482
In [39]:
rules <- apriori(relations, parameter = list(support = 0.001, confidence = 0.6))
Apriori
Parameter specification:
confidence minval smax arem aval originalSupport maxtime support minlen
0.6 0.1 1 none FALSE TRUE 5 0.001 1
maxlen target ext
10 rules TRUE
Algorithmic control:
filter tree heap memopt load sort verbose
0.1 TRUE TRUE FALSE TRUE 2 TRUE
Absolute minimum support count: 911
set item appearances ...[0 item(s)] done [0.00s].
set transactions ...[56152 item(s), 911987 transaction(s)] done [1.57s].
sorting and recoding items ... [513 item(s)] done [0.05s].
creating transaction tree ... done [0.54s].
checking subsets of size 1 2 3 4 5 6 7 8 9 done [0.34s].
writing ... [53104 rule(s)] done [0.01s].
creating S4 object ... done [0.37s].
In [40]:
inspect(head(rules, n = 50, by = "confidence"))
lhs rhs support confidence coverage lift count
[1] {Labyrint | 1/7,
Labyrint | 2/7,
Labyrint | 3/7,
Labyrint | 5/7,
Labyrint | 6/7} => {Labyrint | 4/7} 0.001006593 0.9967427 0.001009883 603.5965 918
[2] {Labyrint | 1/7,
Labyrint | 2/7,
Labyrint | 3/7,
Labyrint | 5/7} => {Labyrint | 4/7} 0.001083349 0.9959677 0.001087735 603.1272 988
[3] {Labyrint | 1/7,
Labyrint | 3/7,
Labyrint | 5/7,
Labyrint | 6/7} => {Labyrint | 4/7} 0.001021944 0.9946638 0.001027427 602.3376 932
[4] {Labyrint | 1/7,
Labyrint | 3/7,
Labyrint | 5/7} => {Labyrint | 4/7} 0.001101989 0.9940653 0.001108568 601.9752 1005
[5] {Labyrint | 2/7,
Labyrint | 3/7,
Labyrint | 5/7,
Labyrint | 7/7} => {Labyrint | 4/7} 0.001035102 0.9936842 0.001041682 601.7444 944
[6] {Labyrint | 2/7,
Labyrint | 3/7,
Labyrint | 5/7,
Labyrint | 6/7,
Labyrint | 7/7} => {Labyrint | 4/7} 0.001015365 0.9935622 0.001021944 601.6705 926
[7] {MOST! | 1/8,
MOST! | 4/8,
MOST! | 5/8,
MOST! | 7/8,
MOST! | 8/8} => {MOST! | 6/8} 0.001106375 0.9921337 0.001115147 345.0851 1009
[8] {MOST! | 1/8,
MOST! | 4/8,
MOST! | 5/8,
MOST! | 7/8} => {MOST! | 6/8} 0.001225895 0.9920142 0.001235763 345.0435 1118
[9] {MOST! | 1/8,
MOST! | 3/8,
MOST! | 4/8,
MOST! | 5/8,
MOST! | 7/8,
MOST! | 8/8} => {MOST! | 6/8} 0.001086638 0.9919920 0.001095410 345.0358 991
[10] {Labyrint | 2/7,
Labyrint | 3/7,
Labyrint | 5/7,
Labyrint | 6/7} => {Labyrint | 4/7} 0.001085542 0.9919840 0.001094314 600.7148 990
[11] {MOST! | 1/8,
MOST! | 2/8,
MOST! | 4/8,
MOST! | 5/8,
MOST! | 7/8,
MOST! | 8/8} => {MOST! | 6/8} 0.001074577 0.9919028 0.001083349 345.0048 980
[12] {MOST! | 1/8,
MOST! | 3/8,
MOST! | 4/8,
MOST! | 5/8,
MOST! | 7/8} => {MOST! | 6/8} 0.001198482 0.9918330 0.001208351 344.9805 1093
[13] {MOST! | 1/8,
MOST! | 2/8,
MOST! | 3/8,
MOST! | 4/8,
MOST! | 5/8,
MOST! | 7/8,
MOST! | 8/8} => {MOST! | 6/8} 0.001061419 0.9918033 0.001070191 344.9701 968
[14] {MOST! | 1/8,
MOST! | 2/8,
MOST! | 4/8,
MOST! | 5/8,
MOST! | 7/8} => {MOST! | 6/8} 0.001186420 0.9917507 0.001196289 344.9518 1082
[15] {MOST! | 1/8,
MOST! | 2/8,
MOST! | 3/8,
MOST! | 4/8,
MOST! | 5/8,
MOST! | 7/8} => {MOST! | 6/8} 0.001168876 0.9916279 0.001178745 344.9091 1066
[16] {Labyrint | 1/7,
Labyrint | 2/7,
Labyrint | 5/7,
Labyrint | 6/7} => {Labyrint | 4/7} 0.001017558 0.9914530 0.001026330 600.3933 928
[17] {Labyrint | 1/7,
Labyrint | 2/7,
Labyrint | 3/7,
Labyrint | 6/7} => {Labyrint | 4/7} 0.001015365 0.9914347 0.001024137 600.3822 926
[18] {MOST! | 1/8,
MOST! | 5/8,
MOST! | 7/8,
MOST! | 8/8} => {MOST! | 6/8} 0.001135981 0.9913876 0.001145850 344.8255 1036
[19] {Labyrint | 1/7,
Labyrint | 2/7,
Labyrint | 3/7,
Labyrint | 4/7,
Labyrint | 6/7} => {Labyrint | 5/7} 0.001006593 0.9913607 0.001015365 610.0594 918
[20] {MOST! | 1/8,
MOST! | 3/8,
MOST! | 5/8,
MOST! | 7/8,
MOST! | 8/8} => {MOST! | 6/8} 0.001100893 0.9911155 0.001110761 344.7309 1004
[21] {MOST! | 1/8,
MOST! | 2/8,
MOST! | 5/8,
MOST! | 7/8,
MOST! | 8/8} => {MOST! | 6/8} 0.001099796 0.9911067 0.001109665 344.7279 1003
[22] {MOST! | 1/8,
MOST! | 2/8,
MOST! | 3/8,
MOST! | 5/8,
MOST! | 7/8,
MOST! | 8/8} => {MOST! | 6/8} 0.001075673 0.9909091 0.001085542 344.6591 981
[23] {Labyrint | 2/7,
Labyrint | 3/7,
Labyrint | 5/7} => {Labyrint | 4/7} 0.001172166 0.9907322 0.001183131 599.9567 1069
[24] {Labyrint | 1/7,
Labyrint | 3/7,
Labyrint | 4/7,
Labyrint | 6/7} => {Labyrint | 5/7} 0.001021944 0.9904357 0.001031813 609.4902 932
[25] {Labyrint | 1/7,
Labyrint | 2/7,
Labyrint | 4/7,
Labyrint | 6/7} => {Labyrint | 5/7} 0.001017558 0.9903949 0.001027427 609.4651 928
[26] {Labyrint | 2/7,
Labyrint | 3/7,
Labyrint | 4/7,
Labyrint | 6/7,
Labyrint | 7/7} => {Labyrint | 5/7} 0.001015365 0.9903743 0.001025234 609.4524 926
[27] {Labyrint | 3/7,
Labyrint | 4/7,
Labyrint | 6/7,
Labyrint | 7/7} => {Labyrint | 5/7} 0.001110761 0.9902248 0.001121727 609.3604 1013
[28] {MOST! | 1/8,
MOST! | 2/8,
MOST! | 5/8,
MOST! | 7/8} => {MOST! | 6/8} 0.001217123 0.9901873 0.001229184 344.4081 1110
[29] {Labyrint | 2/7,
Labyrint | 3/7,
Labyrint | 4/7,
Labyrint | 6/7} => {Labyrint | 5/7} 0.001085542 0.9900000 0.001096507 609.2221 990
[30] {MOST! | 2/8,
MOST! | 3/8,
MOST! | 4/8,
MOST! | 6/8,
MOST! | 7/8,
MOST! | 8/8} => {MOST! | 5/8} 0.001187517 0.9899452 0.001199579 336.3700 1083
[31] {MOST! | 1/8,
MOST! | 2/8,
MOST! | 3/8,
MOST! | 5/8,
MOST! | 7/8} => {MOST! | 6/8} 0.001186420 0.9899360 0.001198482 344.3206 1082
[32] {Labyrint | 1/7,
Labyrint | 4/7,
Labyrint | 6/7} => {Labyrint | 5/7} 0.001047164 0.9896373 0.001058129 608.9989 955
[33] {Labyrint | 2/7,
Labyrint | 5/7,
Labyrint | 7/7} => {Labyrint | 4/7} 0.001046068 0.9896266 0.001057033 599.2872 954
[34] {Labyrint | 2/7,
Labyrint | 4/7,
Labyrint | 5/7,
Labyrint | 7/7} => {Labyrint | 3/7} 0.001035102 0.9895178 0.001046068 584.4737 944
[35] {Labyrint | 1/7,
Labyrint | 3/7,
Labyrint | 6/7} => {Labyrint | 4/7} 0.001031813 0.9894848 0.001042778 599.2013 941
[36] {Labyrint | 3/7,
Labyrint | 5/7,
Labyrint | 7/7} => {Labyrint | 4/7} 0.001132692 0.9894636 0.001144753 599.1885 1033
[37] {MOST! | 2/8,
MOST! | 4/8,
MOST! | 5/8,
MOST! | 7/8} => {MOST! | 6/8} 0.001337738 0.9894566 0.001351993 344.1539 1220
[38] {Labyrint | 2/7,
Labyrint | 5/7,
Labyrint | 6/7,
Labyrint | 7/7} => {Labyrint | 4/7} 0.001026330 0.9894292 0.001037295 599.1677 936
[39] {Labyrint | 2/7,
Labyrint | 4/7,
Labyrint | 6/7,
Labyrint | 7/7} => {Labyrint | 5/7} 0.001026330 0.9894292 0.001037295 608.8708 936
[40] {Labyrint | 2/7,
Labyrint | 4/7,
Labyrint | 5/7,
Labyrint | 6/7,
Labyrint | 7/7} => {Labyrint | 3/7} 0.001015365 0.9893162 0.001026330 584.3546 926
[41] {MOST! | 1/8,
MOST! | 3/8,
MOST! | 5/8,
MOST! | 7/8} => {MOST! | 6/8} 0.001216026 0.9892953 0.001229184 344.0978 1109
[42] {MOST! | 2/8,
MOST! | 3/8,
MOST! | 4/8,
MOST! | 5/8,
MOST! | 7/8} => {MOST! | 6/8} 0.001316905 0.9892916 0.001331159 344.0965 1201
[43] {Labyrint | 3/7,
Labyrint | 5/7,
Labyrint | 6/7,
Labyrint | 7/7} => {Labyrint | 4/7} 0.001110761 0.9892578 0.001122823 599.0639 1013
[44] {Labyrint | 4/7,
Labyrint | 6/7,
Labyrint | 7/7} => {Labyrint | 5/7} 0.001211640 0.9892569 0.001224798 608.7648 1105
[45] {Labyrint | 1/7,
Labyrint | 2/7,
Labyrint | 4/7,
Labyrint | 5/7,
Labyrint | 6/7} => {Labyrint | 3/7} 0.001006593 0.9892241 0.001017558 584.3002 918
[46] {MOST! | 2/8,
MOST! | 4/8,
MOST! | 6/8,
MOST! | 7/8,
MOST! | 8/8} => {MOST! | 5/8} 0.001203965 0.9891892 0.001217123 336.1131 1098
[47] {MOST! | 2/8,
MOST! | 4/8,
MOST! | 5/8,
MOST! | 7/8,
MOST! | 8/8} => {MOST! | 6/8} 0.001203965 0.9891892 0.001217123 344.0609 1098
[48] {Labyrint III | 4/7,
Labyrint III | 5/7,
Labyrint III | 7/7} => {Labyrint III | 6/7} 0.001002207 0.9891775 0.001013172 745.5512 914
[49] {Labyrint | 2/7,
Labyrint | 4/7,
Labyrint | 6/7} => {Labyrint | 5/7} 0.001098700 0.9891412 0.001110761 608.6936 1002
[50] {Labyrint | 1/7,
Labyrint | 2/7,
Labyrint | 5/7} => {Labyrint | 4/7} 0.001097603 0.9891304 0.001109665 598.9868 1001
In [ ]:
In [65]:
library(stringr)
data$serie <- str_split_fixed(data$porad,"\\|",2)[,1]
head(data)
A grouped_df: 6 × 4
user porad shlednuti serie
<chr> <chr> <int> <chr>
2130452816.1573570907 Sametová revoluce 434 Sametová revoluce
625748391.1589549122 Méďové | Méďové se rodí v lednu 382 Méďové
434504640.1531560908 Herbář | Herbář VII 371 Herbář
2130452816.1573570907 Václav III. 347 Václav III.
697703908.1574500546 UčíTelka | Český jazyk 326 UčíTelka
300753701.1555777368 Výživa 319 Výživa
In [66]:
data_serie <- data %>% group_by(user,serie) %>%
summarise(
shlednuti=sum(shlednuti)
) %>%
arrange(desc(shlednuti))
head(data_serie)
A grouped_df: 6 × 3
user serie shlednuti
<chr> <chr> <int>
1381557243.1562095330 AZ-kvíz 940
697703908.1574500546 UčíTelka 707
277334440.1502122135 AZ-kvíz 657
1255427073.1585331084 Události v kultuře 653
1531236250.1588422778 AZ-kvíz 650
593345317.1572792095 Buly hokej živě 634
In [67]:
# Write our data.frame to a csv
write.csv(data_serie[,c(1,2)], "/tmp/tall_serie.csv")
# Read that csv back in
relations <- read.transactions(
file = "/tmp/tall_serie.csv",
format = "single",
sep = ",",
cols=c("user","serie"),
rm.duplicates = T,
header=TRUE
)
summary(relations)
transactions as itemMatrix in sparse format with
911987 rows (elements/itemsets/transactions) and
8555 columns (items) and a density of 0.0002008416
most frequent items:
Události 168 hodin Polopatě
43012 41373 31766
Případy 1. oddělení UčíTelka (Other)
29446 26666 1394713
element (itemset/transaction) length distribution:
sizes
1 2 3 4 5 6 7 8 9 10 11
679453 117086 45625 22738 13152 8562 5789 4207 3055 2272 1711
12 13 14 15 16 17 18 19 20 21 22
1366 1026 887 732 521 448 421 323 291 241 215
23 24 25 26 27 28 29 30 31 32 33
178 166 149 139 94 78 81 78 68 68 75
34 35 36 37 38 39 40 41 42 43 44
41 52 51 38 28 24 41 25 25 19 22
45 46 47 48 49 50 51 52 53 54 55
19 15 19 21 14 12 12 15 13 7 14
56 57 58 59 60 61 62 63 64 65 66
10 11 7 4 8 9 8 4 7 3 4
67 68 69 70 71 72 73 74 75 76 77
4 7 5 7 2 3 1 2 1 2 2
78 79 80 81 82 83 84 85 89 91 92
2 1 1 2 1 1 3 4 4 2 1
93 94 95 96 98 99 102 103 104 105 109
2 1 1 1 1 1 1 2 1 1 1
111 112 113 115 117 121 126 135 138 153 160
1 1 2 1 1 1 1 1 1 1 1
176 182 183 195 202 244 361
1 1 1 1 1 1 1
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 1.000 1.000 1.718 2.000 361.000
includes extended item information - examples:
labels
1 - Сер, ви вдова!
2 -terapie
3 ... až na věky
includes extended transaction information - examples:
transactionID
1 1000003432.1588073586
2 1000003562.1579139637
3 1000009105.1589546482
In [71]:
rules <- apriori(relations, parameter = list(support = 0.0005, confidence = 0.5))
Apriori
Parameter specification:
confidence minval smax arem aval originalSupport maxtime support minlen
0.5 0.1 1 none FALSE TRUE 5 5e-04 1
maxlen target ext
10 rules TRUE
Algorithmic control:
filter tree heap memopt load sort verbose
0.1 TRUE TRUE FALSE TRUE 2 TRUE
Absolute minimum support count: 455
set item appearances ...[0 item(s)] done [0.00s].
set transactions ...[8555 item(s), 911987 transaction(s)] done [0.73s].
sorting and recoding items ... [465 item(s)] done [0.03s].
creating transaction tree ... done [0.77s].
checking subsets of size 1 2 3 4 done [0.03s].
writing ... [27 rule(s)] done [0.00s].
creating S4 object ... done [0.34s].
In [72]:
inspect(head(rules, n = 50, by = "confidence"))
lhs rhs support confidence coverage lift count
[1] {Labyrint ,
Labyrint III } => {Labyrint II. } 0.0008388277 0.8351528 0.0010044003 319.34949 765
[2] {Otázky Václava Moravce ,
Reportéři ČT ,
Události, komentáře } => {168 hodin } 0.0005230338 0.7871287 0.0006644832 17.35072 477
[3] {Studio ČT24 ,
Události za okamžik a počasí } => {Události } 0.0005394814 0.7500000 0.0007193085 15.90231 492
[4] {168 hodin ,
Události za okamžik a počasí } => {Události } 0.0005318058 0.7484568 0.0007105364 15.86959 485
[5] {Máte slovo s M. Jílkovou ,
Reportéři ČT } => {168 hodin } 0.0008158011 0.7099237 0.0011491392 15.64888 744
[6] {Interview ČT24 ,
Reportéři ČT } => {168 hodin } 0.0005986927 0.7008986 0.0008541788 15.44994 546
[7] {Reportéři ČT ,
Události, komentáře } => {168 hodin } 0.0010559361 0.6983321 0.0015120830 15.39337 963
[8] {Otázky Václava Moravce ,
Reportéři ČT } => {168 hodin } 0.0014430030 0.6977731 0.0020680119 15.38104 1316
[9] {Anatomie zrady ,
Reportéři ČT } => {168 hodin } 0.0007193085 0.6919831 0.0010394885 15.25342 656
[10] {Reportéři ČT ,
Všechnopárty } => {168 hodin } 0.0005186477 0.6624650 0.0007829059 14.60275 473
[11] {Reportéři ČT ,
Události } => {168 hodin } 0.0014616436 0.6602278 0.0022138473 14.55343 1333
[12] {Láska v čase korony ,
Reportéři ČT } => {168 hodin } 0.0005109722 0.6554149 0.0007796164 14.44734 466
[13] {Labyrint ,
Labyrint II. } => {Labyrint III } 0.0008388277 0.6544055 0.0012818165 236.54748 765
[14] {Labyrint II. ,
Labyrint III } => {Labyrint } 0.0008388277 0.6364393 0.0013180012 183.91139 765
[15] {Desatero hříchů ,
Případy detektiva Murdocha } => {Detektiv Endeavour Morse } 0.0005285163 0.6195373 0.0008530823 46.54502 482
[16] {Dicte – kriminální reportérka ,
V pasti } => {Desatero hříchů } 0.0008081256 0.6193277 0.0013048432 47.08393 737
[17] {Interview ČT24 ,
Studio ČT24 } => {Události } 0.0005581220 0.5850575 0.0009539610 12.40502 509
[18] {Studio ČT24 ,
Události, komentáře } => {Události } 0.0006019823 0.5736677 0.0010493571 12.16352 549
[19] {Doktor Thorne ,
V pasti } => {Desatero hříchů } 0.0005208408 0.5594817 0.0009309343 42.53418 475
[20] {Desatero hříchů ,
Doktor Thorne } => {V pasti } 0.0005208408 0.5434783 0.0009583470 60.39297 475
[21] {168 hodin ,
Otázky Václava Moravce ,
Události, komentáře } => {Reportéři ČT } 0.0005230338 0.5414302 0.0009660225 23.72675 477
[22] {Detektiv Endeavour Morse ,
V pasti } => {Desatero hříchů } 0.0007774234 0.5375284 0.0014462925 40.86520 709
[23] {Detektiv Endeavour Morse ,
Dicte – kriminální reportérka } => {Desatero hříchů } 0.0007138260 0.5279805 0.0013519930 40.13933 651
[24] {Otázky Václava Moravce ,
Studio ČT24 } => {Události } 0.0005383849 0.5279570 0.0010197514 11.19432 491
[25] {Interview ČT24 ,
Události, komentáře } => {Otázky Václava Moravce } 0.0007006679 0.5063391 0.0013837917 23.81387 639
[26] {Labyrint II. } => {Labyrint III } 0.0013180012 0.5039832 0.0026151689 182.17446 1202
[27] {Místo zločinu Plzeň ,
Vraždy v kruhu } => {Případy 1. oddělení } 0.0007138260 0.5030912 0.0014188799 15.58149 651
Content source: etnetera-activate/r-minicourse
Similar notebooks: