우선 데이터는 아래와 같이 발신지별 통화량 데이터를 나타내고 있다.
텍스트 데이터를 geocoding하고 google map을 이용하여 시각화.
library(ggmap)
# geocode를 이용하여 주소 텍스트를 WGS84 좌표계 (longitude, latitude)로 변환한다
# geocode Test
geocode("도곡동 강남구")
f <- file('seoul_calltaxi.csv', open="r", encoding="UTF-8")
df <- read.table(f, sep=',', dec=',', header=FALSE)
head(df)
df<-df[,c(-1, -2)]
head(df)
colnames(df) = c("gu", "dong", "callcount")
# "XX동 XX구 형태로 geocode를 호출하여 해당 주소지의 longitude, latitude return
df <- cbind(df, geocode(paste(df$dong, " ", df$gu)))
head(df)
# Map drawing
cent <- c(mean(df$lon), mean(df$lat))
map <- ggmap(get_googlemap(center=cent, zoom=11), extent="device",
maptype="roadmap",
base_layer=ggplot(df, aes(x=lon, y=lat, size=callcount)))
map + geom_point(color="red", alpha=0.8)
결과물은 아래.
데이터량이 많지 않았지만.....
교통이 그다지 좋지 않은 노원구 일대와,
아마도 귀가를 위해 콜택시를 불렀을 것 같은 강남구 일대에 콜택시를 부르기 위한 통화가 많은 것을 알 수 있다.
(클릭하면 확대됨)
찬호 재밌는 일 하네^^
답글삭제안녕하세요. 빅데이터허브 운영자입니다.
답글삭제먼저 저희 데이터를 활용하여 좋은 자료 만들어주셔서 감사합니다.
앞으로도 많은 관심 부탁드리며 이용 시 문의사항이나 필요한 부분 있으시면 말씀 부탁드립니다. 감사합니다. (빅데이터허브 02-2102-7444)