2014년 8월 27일 수요일

서울 시내 콜택시 이용현황 Visualization

SKT 빅데이터허브에 올라와 있는 "콜택시 이용자료"를 기반으로 서울시내 콜택시 이용 현황을 시각화 해봤다.

우선 데이터는 아래와 같이 발신지별 통화량 데이터를 나타내고 있다.


텍스트 데이터를 geocoding하고 google map을 이용하여 시각화.

library(ggmap)

# geocode를 이용하여 주소 텍스트를 WGS84 좌표계 (longitude, latitude)로 변환한다
# geocode Test 
geocode("도곡동 강남구")

f <- file('seoul_calltaxi.csv', open="r", encoding="UTF-8")
df <- read.table(f, sep=',', dec=',', header=FALSE)
head(df)
df<-df[,c(-1, -2)]
head(df)
colnames(df) = c("gu", "dong", "callcount")

# "XX동 XX구 형태로 geocode를 호출하여 해당 주소지의 longitude, latitude return
df <- cbind(df, geocode(paste(df$dong, " ", df$gu)))
head(df) 

# Map drawing
cent <- c(mean(df$lon), mean(df$lat))
map <- ggmap(get_googlemap(center=cent, zoom=11), extent="device", 
             maptype="roadmap",
             base_layer=ggplot(df, aes(x=lon, y=lat, size=callcount)))
map + geom_point(color="red", alpha=0.8)


결과물은 아래.
데이터량이 많지 않았지만.....
교통이 그다지 좋지 않은 노원구 일대와,
아마도 귀가를 위해 콜택시를 불렀을 것 같은 강남구 일대에 콜택시를 부르기 위한 통화가 많은 것을 알 수 있다.

(클릭하면 확대됨)


댓글 2개:

  1. 안녕하세요. 빅데이터허브 운영자입니다.
    먼저 저희 데이터를 활용하여 좋은 자료 만들어주셔서 감사합니다.
    앞으로도 많은 관심 부탁드리며 이용 시 문의사항이나 필요한 부분 있으시면 말씀 부탁드립니다. 감사합니다. (빅데이터허브 02-2102-7444)

    답글삭제