notebook.community

Edit and run



In [1]:

    
# $example on$
from pyspark.mllib.fpm import FPGrowth
# $example off$

# $example on$
data = sc.textFile("/FileStore/tables/bbuho3mt1465490003985/sample_fpgrowth.txt")
transactions = data.map(lambda line: line.strip().split(' '))
model = FPGrowth.train(transactions)
result = model.freqItemsets().collect()
for fi in result:
  print(fi)
# $example off$



In [2]:

    
from pyspark.mllib.fpm import PrefixSpan

data = [
    [["a", "b"], ["c"]],
    [["a"], ["c", "b"], ["a", "b"]],
    [["a", "b"], ["e"]],
    [["f"]]]
rdd = sc.parallelize(data, 2)
model = PrefixSpan.train(rdd)
sorted(model.freqSequences().collect())



In [3]: