기본연구 | 연구보고서 | 발간물 : 한국환경연구원

사업보고서 환경 빅데이터 분석 및 서비스 개발

저자 강성원
연구진
발간일 2017-12-31
첨부파일
- 사업2017_07_강성원.pdf 다운로드 HTML Viewer

목차
요약

제1부: 총론

제1장: 서론
1. 연구의 필요성 및 목적
2. 연구의 범위
3. 연구 내용 및 방법론
4. 본문의 구성

제2장: 빅데이터 연구 방법론 활용방안
1. 서론
2. 환경정책연구 방법론
3. 빅데이터 연구 방법론 소개
4. 빅데이터 연구 방법론의 환경정책연구에 대한 적용 가능성
5. 요약 및 결론

제2부: 빅데이터 연구 방법론 적용(사례)

제1장: 딥러닝을 활용한 환경리스크 예측
1. 서론
2. 국내외 관련 선행연구
3. 연구 방법론
4. 결과
5. 결론
제2장: 기후변화에 따른 감염성 질병 예측
1. 서론
2. 감염성 질환의 시공간 패턴 분석
3. 감염성 질환 예측
4. 민감도 분석: 변수 영향력 평가
5. 결론 및 정책적 시사점

제3장: 텍스트 마이닝을 이용한 KEI 연구동향 분석
1. 서론
2. 텍스트 마이닝 기반 연구동향 분석 방법론
3. 분석 데이터 개요
4. LDA 기반 토픽 클러스터링 분석
5. 연관어 및 네트워크 분석
6. Word2Vec 분석
7. 요약 및 결론

제4장: 미세먼지 발생요인 패턴 분석
1. 서론
2. 변수 선정 및 분석을 위한 데이터 전처리
3. 의사결정나무 분석
4. 민감도 분석: 변수 영향력 평가
5. 결론 및 정책적 제언

제5장: 환경분야 빅데이터 수집 방법론
1. 데이터 관리 계획서와 연구 데이터 관리 서비스의 이해
2. 환경 빅데이터 분석플랫폼의 개요
3. 시사성 있는 환경 빅데이터 탐색
4. 환경분야 빅데이터 수집 방법론
5. 환경 빅데이터 수집-저장 사례
6. 소결 및 제언

제3부: 요약 및 시사점
1. 2017년 연구성과 요약
2. 정책적 활용방안

참고문헌

부 록
Ⅰ. 제거 대상 키워드 목록
Ⅱ. 네이버 환경뉴스 언론사별 산출량
Ⅲ. 시군구별 대기오염물질 및 기상기후 측정소 매칭 테이블
Ⅳ. 민감도 분석 모델별 결과
Ⅴ. 환경 빅데이터 분석플랫폼 구성방안
Ⅵ. 시공간 자료 추정 방법론
Ⅶ. 텍스트 분석 방법론: LDA, Word2Vec

Abstract

본 연구는 단기예측 및 패턴 파악에 비교우위가 있는 빅데이터 연구 방법론의 환경정책연구에 대한 적용 가능성을 모색하였다. 본 연구는 환경연구 전 부문에 빅데이터 연구 방법론을 적용하는 ‘환경 빅데이터 연구’, 환경 관련 자료를 수집, 축적하는 ‘환경 빅데이터 플랫폼 구축 연구’, 연구성과를 이용하여 환경 서비스를 개발하는 ‘원내외 빅데이터 서비스 개발’의 3개 영역에 걸쳐서 3년간 3단계의 연구를 진행한다. 2017년에는 본 연구를 구성하는 3단계 연구 중 ‘환경 빅데이터 연구’에 중점을 두는 제1단계 연구를 시작하였다. 2017년에는 상대적으로 전처리 부담이 적은 수치 및 전산화된 텍스트 분석에 집중하여, 빅데이터 연구 방법론의 환경정책연구 가능성을 진단하였다. 그 결과 환경오염 추정 알고리듬 3개, 텍스트 자료 이용 환경연구 동향 파악 알고리듬 3개, 온라인 환경 관련 자료의 집적을 자동화하는 자료 수집 알고리듬 3개를 구축하였다.
본 연구에서 개발한 환경오염 추정 3개 알고리듬은 ① 서울지역 측정소 단위 시간별 미세먼지 오염도를 예측하는 KNN 공간순환신경망 알고리듬, ② 기초지자체의 월별 장감염 발생 건수를 추정하는 심층신경망 알고리듬 ③ 기초지자체 월별 미세먼지 오염도 발생요인을 파악하는 의사결정나무 기반 알고리듬이다.
서울지역 측정소 단위 시간별 미세먼지 농도 예측 KNN 공간순환신경망 알고리듬은 서울지역 39개 측정소의 2016년 1년간 미세먼지(PM10) 오염도 자료를 이용하여 구축하였으며, 미세먼지 농도를 2시간 전에 예측할 수 있도록 하였다. 설명변수로는 4개 대기오염물질 오염도(SO2, CO, O3, NO2) 및 기상 정보(기온, 강수량, 풍속, 풍향)를 사용하였다. 분석 결과 본 연구에서 개발한 KNN공간순환신경망 알고리듬은 통상적으로 시계열 예측에 사용하는 ARIMA 모델보다 예측치와 실측치 간 평균제곱근오차를 10.5% 축소하는 정확한 추정치를 제공할 수 있음을 확인하였다.
기초지자체의 월별 장감염 발생 건수를 추정하는 심층신경망 알고리듬은 건강보험 코호트 DB를 이용하여 구축한 2009~2013년 월별 장감염 발생빈도를 기상자료, 대기오염 자료, 인구 통계적 자료, 위-경도 좌표를 이용하여 추정하는 심층신경망 알고리듬이다. 이 알고리듬은 노드가 500개인 3개의 은닉층을 지니며, 활성화 함수로는 ReLU 함수를 사용하였고, Epoch 30회에 걸쳐서 학습을 진행하여 도출한 모수 값을 이용하여 구축하였다. 이렇게 구축한 심층신경망 모델은 같은 변수를 사용한 선형회귀분석 모델보다 평균제곱근오차가 25% 낮은 정확한 추정치를 도출할 수 있었다.
기초지자체 월별 미세먼지 농도 추정 의사결정나무 기반 알고리듬은 2001년 1월~2016년 9월 시군구 월평균 미세먼지(PM10) 농도 자료의 추정을 목적으로 구축하였다. 독립변수로는 대기오염물질 오염도, 대기오염물질 배출량, 기상변수, 황사일수, 중국 베이징, 상하이, 톈진의 대기오염 자료를 이용하였다. 자료의 가용성에 따라서 추정 시기와 독립변수의 집합을 달리하는 6개의 실험을 실시하였으며, 매 실험에 의사결정나무, 랜덤포레스트, 배깅, 부스팅 4개의 방법론을 적용하였다. 분석 결과 랜덤포레스트 및 부스팅 알고리듬은 선형회귀분석의 평균제곱오차를

저자발간물

이전글 지속가능한 동시베리아 지역공동체
다음글 자연혜택 평가를 통한 지역경제 활성화 방안(II)