Stat 133 Assignment 8

Xinyang Geng



In [57]:

    
library(DataComputing)

library(repr)

options(repr.plot.width=9, repr.plot.height=5)



In [2]:

    
address <- readRDS("address.rds")



In [3]:

    
head(address)









    Out[3]:





address first_name sex

	1 900 SETON DR ARDALAN M
	2 2650 RIDGE AVE THOMAS M
	3 4126 N HOLLAND SYLVANIA RD RASHID M
	4 456 MAGEE AVE DAVID M
	5 11100 EUCLID AVE JENNIFER F
	6 12605 E 16TH AVE KEVIN M



In [4]:

    
sampled_address = address %>%
    sample_n(size=50)
sampled_address









    Out[4]:





address first_name sex

	590261 3300 OAK LAWN AVE SIMRAT F
	822697 156 INDIANWOOD BLVD 
	493134 2600 GREENWOOD RD CLIFTON M
	193166 5783 WOOSTER PIKE LEONARD M
	531488 6565 W EMERALD ST DONALD M
	20245 303 SECOND AVE-SUITE-20 NITIN M
	278539 4420 LAKE BOONE TRL TINA F
	26210 330 E HIBISCUS BLVD ANETTE F
	790051 49 LAKE AVE INCORONATA F
	830077 300 W 27TH ST KAILASH M
	73455 10600 QUIVIRA RD RHONDA F
	198993 5133 RIDGE RD STE 5 SANDRA F
	140605 1300 CRANE ST F M
	206848 155 STATE HIGHWAY 37 HILLARY F
	480699 3900 UNIVERSITY BLVD S DAVID M
	674447 3300 GALLOWS RD DAN M
	129531 121 DEKALB AVE VASANTHA F
	202381 520 MARY STREET KRISTI F
	381638 3 W HOMESTEAD AVE ROBERT M
	212311 313 337 W BALD EAGLE ST 
	32556 8200 WEDNESBURY LN TOVA F
	463275 1140 TOWN SQUARE ROAD 
	765354 1040 LONGFIELD CT DAVID M
	9963 22 ASYLUM STREET THEODORE M
	506541 2905 W WARNER RD GEORGE M
	277754 1513 EAST CLEVELAND AVENUE JANICE F
	101381 400 PARNASSUS AVE FL 8 RICHARD M
	177909 100 MCGOWAN CT GWENDOLYN F
	234590 842 E MAIN ST BRETT M
	841518 10 SEVERANCE CIR YIPING F
	674536 2007 E US HIGHWAY 136 
	203832 990 OAK RIDGE TPKE NAWRAS M
	301879 1630 COMMANCHE AVE SHANE M
	62369 1125 W KAGY BLVD JEFF M
	384691 12130 CORTEZ BLVD ARTURO M
	450267 3401 PGA BLVD G M
	411743 1 LYONS ST MICHAEL M
	285941 1421 3RD AVE THOMAS M
	752961 200 1ST ST SW JOSEPH M
	196556 7325 MEDICAL CENTER DR HEATHER F
	306451 1100 N PALM CANYON DR STE 206 HETAL M
	488061 2428 W WHITTIER BLVD HAMID M
	176551 680 CENTRE ST GERALD M
	163121 1041 HOSPITAL DRIVE LEA GRACE F
	381788 1646 PARK RIDGE DR MARK M
	71695 7391 W CHARLESTON BLVD HUSAMEDDIN M
	339470 17071 FORT ST 
	648332 3400 SPRUCE STREET PETER M
	191746 122 S PATTERSON AVE JOANNE F
	874573 1801 E MARCH LN BLDG D # 470 EARL M

Testing Regex

1.

Pattern like [number] [name] [street]



In [5]:

    
# Match
sampled_address %>%
    filter(grepl("[0-9]+ [A-Z]+ ST", address))









    Out[5]:





address first_name sex

	1 1300 CRANE ST F M
	2 520 MARY STREET KRISTI F
	3 22 ASYLUM STREET THEODORE M
	4 1 LYONS ST MICHAEL M
	5 680 CENTRE ST GERALD M
	6 17071 FORT ST 
	7 3400 SPRUCE STREET PETER M



In [6]:

    
# Not match
sampled_address %>%
    filter(!grepl("[0-9]+ [A-Z]+ ST", address))









    Out[6]:





address first_name sex

	1 3300 OAK LAWN AVE SIMRAT F
	2 156 INDIANWOOD BLVD 
	3 2600 GREENWOOD RD CLIFTON M
	4 5783 WOOSTER PIKE LEONARD M
	5 6565 W EMERALD ST DONALD M
	6 303 SECOND AVE-SUITE-20 NITIN M
	7 4420 LAKE BOONE TRL TINA F
	8 330 E HIBISCUS BLVD ANETTE F
	9 49 LAKE AVE INCORONATA F
	10 300 W 27TH ST KAILASH M
	11 10600 QUIVIRA RD RHONDA F
	12 5133 RIDGE RD STE 5 SANDRA F
	13 155 STATE HIGHWAY 37 HILLARY F
	14 3900 UNIVERSITY BLVD S DAVID M
	15 3300 GALLOWS RD DAN M
	16 121 DEKALB AVE VASANTHA F
	17 3 W HOMESTEAD AVE ROBERT M
	18 313 337 W BALD EAGLE ST 
	19 8200 WEDNESBURY LN TOVA F
	20 1140 TOWN SQUARE ROAD 
	21 1040 LONGFIELD CT DAVID M
	22 2905 W WARNER RD GEORGE M
	23 1513 EAST CLEVELAND AVENUE JANICE F
	24 400 PARNASSUS AVE FL 8 RICHARD M
	25 100 MCGOWAN CT GWENDOLYN F
	26 842 E MAIN ST BRETT M
	27 10 SEVERANCE CIR YIPING F
	28 2007 E US HIGHWAY 136 
	29 990 OAK RIDGE TPKE NAWRAS M
	30 1630 COMMANCHE AVE SHANE M
	31 1125 W KAGY BLVD JEFF M
	32 12130 CORTEZ BLVD ARTURO M
	33 3401 PGA BLVD G M
	34 1421 3RD AVE THOMAS M
	35 200 1ST ST SW JOSEPH M
	36 7325 MEDICAL CENTER DR HEATHER F
	37 1100 N PALM CANYON DR STE 206 HETAL M
	38 2428 W WHITTIER BLVD HAMID M
	39 1041 HOSPITAL DRIVE LEA GRACE F
	40 1646 PARK RIDGE DR MARK M
	41 7391 W CHARLESTON BLVD HUSAMEDDIN M
	42 122 S PATTERSON AVE JOANNE F
	43 1801 E MARCH LN BLDG D # 470 EARL M

2.

Pattern like [number] th street



In [7]:

    
# Match
sampled_address %>%
    filter(grepl("[0-9]+ [A-Z]+ ST", address))









    Out[7]:





address first_name sex

	1 1300 CRANE ST F M
	2 520 MARY STREET KRISTI F
	3 22 ASYLUM STREET THEODORE M
	4 1 LYONS ST MICHAEL M
	5 680 CENTRE ST GERALD M
	6 17071 FORT ST 
	7 3400 SPRUCE STREET PETER M



In [8]:

    
# Not match
sampled_address %>%
    filter(!grepl("[0-9]+ [A-Z]+ ST", address))









    Out[8]:





address first_name sex

	1 3300 OAK LAWN AVE SIMRAT F
	2 156 INDIANWOOD BLVD 
	3 2600 GREENWOOD RD CLIFTON M
	4 5783 WOOSTER PIKE LEONARD M
	5 6565 W EMERALD ST DONALD M
	6 303 SECOND AVE-SUITE-20 NITIN M
	7 4420 LAKE BOONE TRL TINA F
	8 330 E HIBISCUS BLVD ANETTE F
	9 49 LAKE AVE INCORONATA F
	10 300 W 27TH ST KAILASH M
	11 10600 QUIVIRA RD RHONDA F
	12 5133 RIDGE RD STE 5 SANDRA F
	13 155 STATE HIGHWAY 37 HILLARY F
	14 3900 UNIVERSITY BLVD S DAVID M
	15 3300 GALLOWS RD DAN M
	16 121 DEKALB AVE VASANTHA F
	17 3 W HOMESTEAD AVE ROBERT M
	18 313 337 W BALD EAGLE ST 
	19 8200 WEDNESBURY LN TOVA F
	20 1140 TOWN SQUARE ROAD 
	21 1040 LONGFIELD CT DAVID M
	22 2905 W WARNER RD GEORGE M
	23 1513 EAST CLEVELAND AVENUE JANICE F
	24 400 PARNASSUS AVE FL 8 RICHARD M
	25 100 MCGOWAN CT GWENDOLYN F
	26 842 E MAIN ST BRETT M
	27 10 SEVERANCE CIR YIPING F
	28 2007 E US HIGHWAY 136 
	29 990 OAK RIDGE TPKE NAWRAS M
	30 1630 COMMANCHE AVE SHANE M
	31 1125 W KAGY BLVD JEFF M
	32 12130 CORTEZ BLVD ARTURO M
	33 3401 PGA BLVD G M
	34 1421 3RD AVE THOMAS M
	35 200 1ST ST SW JOSEPH M
	36 7325 MEDICAL CENTER DR HEATHER F
	37 1100 N PALM CANYON DR STE 206 HETAL M
	38 2428 W WHITTIER BLVD HAMID M
	39 1041 HOSPITAL DRIVE LEA GRACE F
	40 1646 PARK RIDGE DR MARK M
	41 7391 W CHARLESTON BLVD HUSAMEDDIN M
	42 122 S PATTERSON AVE JOANNE F
	43 1801 E MARCH LN BLDG D # 470 EARL M

Back to Street



In [9]:

    
pattern <- "(ST|RD|ROAD)"
sampled_address %>% 
    filter(!grepl(pattern, address),  # Not contain existing street ends
           !grepl(" APT|UNIT [[:digit:]]+$", address)) 
            # Not contain APT or UNIT followed by a space, numbers in the end of the string. (not an apt or unit number)









    Out[9]:





address first_name sex

	1 3300 OAK LAWN AVE SIMRAT F
	2 156 INDIANWOOD BLVD 
	3 303 SECOND AVE-SUITE-20 NITIN M
	4 4420 LAKE BOONE TRL TINA F
	5 330 E HIBISCUS BLVD ANETTE F
	6 49 LAKE AVE INCORONATA F
	7 3900 UNIVERSITY BLVD S DAVID M
	8 121 DEKALB AVE VASANTHA F
	9 8200 WEDNESBURY LN TOVA F
	10 1040 LONGFIELD CT DAVID M
	11 400 PARNASSUS AVE FL 8 RICHARD M
	12 100 MCGOWAN CT GWENDOLYN F
	13 10 SEVERANCE CIR YIPING F
	14 2007 E US HIGHWAY 136 
	15 990 OAK RIDGE TPKE NAWRAS M
	16 1630 COMMANCHE AVE SHANE M
	17 1125 W KAGY BLVD JEFF M
	18 12130 CORTEZ BLVD ARTURO M
	19 3401 PGA BLVD G M
	20 7325 MEDICAL CENTER DR HEATHER F
	21 2428 W WHITTIER BLVD HAMID M
	22 1041 HOSPITAL DRIVE LEA GRACE F
	23 1646 PARK RIDGE DR MARK M
	24 122 S PATTERSON AVE JOANNE F
	25 1801 E MARCH LN BLDG D # 470 EARL M

We not filter all the street ends and plot out the histogram



In [92]:

    
# All street end appears above 1000 times in the whole dataset
# The code is pretty self-explanatory and hence the explanation is omitted.
st_ends = address %>% 
    filter(!grepl(" APT|UNIT [[:digit:]]+$", address))  %>%
    select(address) %>%
    mutate(address=gsub("\\.+$", "", address)) %>%              # Remove trailing .
    mutate(st_end=strsplit(address, " ")) %>%
    mutate(st_end=factor(sapply(st_end, tail, n=1))) %>%        # Find street ends
    filter(!grepl("[0-9]+$", st_end)) %>%                       # Not end by number
    select(st_end) %>%
    group_by(st_end) %>%
    summarise(count=n()) %>%
    filter(count >= 1000)



In [93]:

    
st_ends %>% ggplot(aes(st_end, count)) +
    geom_bar(stat = "identity") +
    theme(axis.text.x = element_text(angle = 90, hjust = 1))

Now showing all the street ends



In [94]:

    
st_ends %>% arrange(desc(count))









    Out[94]:





st_end count

	1 ST 197656
	2 AVE 147397
	3 RD 124995
	4 DR 85169
	5 BLVD 61001
	6 STREET 19591
	7 PKWY 14388
	8 ROAD 11732
	9 HWY 10702
	10 LN 10292
	11 WAY 9564
	12 DRIVE 9507
	13 NE 9189
	14 S 9042
	15 AVENUE 8715
	16 N 8574
	17 SW 6882
	18 NW 6488
	19 PL 6402
	20 SE 6017
	21 CT 5759
	22 E 5525
	23 W 5342
	24 CIR 4966
	25 PLZ 3720
	26 BROADWAY 3713
	27 PIKE 3665
	28 A 2088
	29 TRL 1945
	30 CTR 1901
	31 PARKWAY 1825
	32 LANE 1787
	33 TPKE 1646
	34 B 1613
	35 BOULEVARD 1487
	36 SOUTH 1458
	37 CENTER 1254
	38 HIGHWAY 1242
	39 SQ 1148
	40 REAL 1138
	41 PARK 1125
	42 FWY 1011

	address	first_name	sex
1	900 SETON DR	ARDALAN	M
2	2650 RIDGE AVE	THOMAS	M
3	4126 N HOLLAND SYLVANIA RD	RASHID	M
4	456 MAGEE AVE	DAVID	M
5	11100 EUCLID AVE	JENNIFER	F
6	12605 E 16TH AVE	KEVIN	M

	address	first_name	sex
590261	3300 OAK LAWN AVE	SIMRAT	F
822697	156 INDIANWOOD BLVD
493134	2600 GREENWOOD RD	CLIFTON	M
193166	5783 WOOSTER PIKE	LEONARD	M
531488	6565 W EMERALD ST	DONALD	M
20245	303 SECOND AVE-SUITE-20	NITIN	M
278539	4420 LAKE BOONE TRL	TINA	F
26210	330 E HIBISCUS BLVD	ANETTE	F
790051	49 LAKE AVE	INCORONATA	F
830077	300 W 27TH ST	KAILASH	M
73455	10600 QUIVIRA RD	RHONDA	F
198993	5133 RIDGE RD STE 5	SANDRA	F
140605	1300 CRANE ST	F	M
206848	155 STATE HIGHWAY 37	HILLARY	F
480699	3900 UNIVERSITY BLVD S	DAVID	M
674447	3300 GALLOWS RD	DAN	M
129531	121 DEKALB AVE	VASANTHA	F
202381	520 MARY STREET	KRISTI	F
381638	3 W HOMESTEAD AVE	ROBERT	M
212311	313 337 W BALD EAGLE ST
32556	8200 WEDNESBURY LN	TOVA	F
463275	1140 TOWN SQUARE ROAD
765354	1040 LONGFIELD CT	DAVID	M
9963	22 ASYLUM STREET	THEODORE	M
506541	2905 W WARNER RD	GEORGE	M
277754	1513 EAST CLEVELAND AVENUE	JANICE	F
101381	400 PARNASSUS AVE FL 8	RICHARD	M
177909	100 MCGOWAN CT	GWENDOLYN	F
234590	842 E MAIN ST	BRETT	M
841518	10 SEVERANCE CIR	YIPING	F
674536	2007 E US HIGHWAY 136
203832	990 OAK RIDGE TPKE	NAWRAS	M
301879	1630 COMMANCHE AVE	SHANE	M
62369	1125 W KAGY BLVD	JEFF	M
384691	12130 CORTEZ BLVD	ARTURO	M
450267	3401 PGA BLVD	G	M
411743	1 LYONS ST	MICHAEL	M
285941	1421 3RD AVE	THOMAS	M
752961	200 1ST ST SW	JOSEPH	M
196556	7325 MEDICAL CENTER DR	HEATHER	F
306451	1100 N PALM CANYON DR STE 206	HETAL	M
488061	2428 W WHITTIER BLVD	HAMID	M
176551	680 CENTRE ST	GERALD	M
163121	1041 HOSPITAL DRIVE	LEA GRACE	F
381788	1646 PARK RIDGE DR	MARK	M
71695	7391 W CHARLESTON BLVD	HUSAMEDDIN	M
339470	17071 FORT ST
648332	3400 SPRUCE STREET	PETER	M
191746	122 S PATTERSON AVE	JOANNE	F
874573	1801 E MARCH LN BLDG D # 470	EARL	M

	st_end	count
1	ST	197656
2	AVE	147397
3	RD	124995
4	DR	85169
5	BLVD	61001
6	STREET	19591
7	PKWY	14388
8	ROAD	11732
9	HWY	10702
10	LN	10292
11	WAY	9564
12	DRIVE	9507
13	NE	9189
14	S	9042
15	AVENUE	8715
16	N	8574
17	SW	6882
18	NW	6488
19	PL	6402
20	SE	6017
21	CT	5759
22	E	5525
23	W	5342
24	CIR	4966
25	PLZ	3720
26	BROADWAY	3713
27	PIKE	3665
28	A	2088
29	TRL	1945
30	CTR	1901
31	PARKWAY	1825
32	LANE	1787
33	TPKE	1646
34	B	1613
35	BOULEVARD	1487
36	SOUTH	1458
37	CENTER	1254
38	HIGHWAY	1242
39	SQ	1148
40	REAL	1138
41	PARK	1125
42	FWY	1011