오늘부터 기술 블로그를 시작하기로 했다.
'코딩'에 대한 첫 입문은 대학원에서 stata와 matlab을 접하면서부터이다.
그 당시에는 그저 교수님이 짜주신 코드 파일에 숫자만 바꿔서 돌리는 게 전부였다.
2019년부터 석사 졸업 논문을 준비했다.
사실, 생각만 했다.
막연하게 하고 싶은 주제들을 떠올리며, 데이터가 있는지 없는지 검증 작업부터 시작했다.
이 무렵, 나를 참고 천천히 지도해주신 내 지도교수님께 정말 감사할 따름이다.
에콰도르로 상수도사업평가 출장을 다녀오고서야 내가 하고 싶은 분야를 찾았다.
환경이었다. 그것도, 대기환경.
그래서 경제학 학술지 중 top 10 학술지에서는 어떤 환경 관련 연구를 하고 있나 찾아봤다.
사실, 한 4-5개 본 것 같다. 당시 최신 publish 된 논문들로...
그중 영국의 대기오염(정확히는 PM2.5, 초미세먼지)이 교통사고율에 미치는 영향을 분석한 논문에 꽂혔다.
나는 그 논문을 들고 이걸 따라 하고 싶다고 교수님께 내밀었고,
교수님은 사실 난감한 표정을 지으셨다.
그럼에도 불구하고 교수님은 일단 데이터를 확보할 수 있는지 확인해 보라고 하셨다.
나는 우리나라의 대기오염 정보를 1시간/시.군 단위로 얻을 수 있었다. 데이터의 풍부함에 필이 받아, 교통사고 빅데이터 담당자에 전화를 걸어 여러 번 독촉(중간에 심지어 학교를 통해 공문도 보냈다)을 한 끝에, 1시간/시.군 단위의 교통사고 데이터를 얻을 수 있었다. 이후에는 NASA에서 제공하는 기후 관련 위성 데이터를 확보하였고, 우리나라 기상청에서 제공하는 날씨 데이터도 받았다.
우리나라는 1시간/시.군 단위의 데이터를 모두 제공했지만, 아쉽게도 NASA는 3시간 단위, 1*1km 격자의 데이터를 제공했다. 나중에 그리드를 매칭 시키느라 죽을 쒔다.
하여간, 이 모든 작업을 하면서 나는 떠듬떠듬 구글링을 통해 R, python, stata를 넘나들며 마구잡이로 더러운 코드를 짜기 시작했다.ㅋㅋ
이 과정에서 기초도 없이 멘땅에 헤딩 식으로 도전했던 거라 솔직히 엄청 힘들었지만, 퀘스트를 하나씩 클리어하듯 쾌감을 느꼈다.
Opening