본문으로 바로가기 주메뉴 바로가기
연구보고서
사업보고서 환경 빅데이터 분석 및 서비스 개발 Ⅱ

제1부 서 론
1. 연구의 필요성 및 목적
2. 연구의 범위
3. 연구 내용 및 방법론
4. 보고서의 구성

제2부 환경 빅데이터 연구
제1장 컨벌루션 신경망을 활용한 미세먼지 예측
1. 서론
2. 선행연구
3. Interpolation Convolutional Neural Network(ICNN)
4. 결과
5. 결론

제2장 데이터 기반 한강 수질 예측모형 개발
1. 서론
2. 수질 예측 방법론
3. 한강 수질 데이터 구축
4. 예측모형 구축 및 평가
5. 결론

제3장 기계학습 기반 환경이슈 감성분류기 개발: 기후변화 중심으로
1. 서론
2. 학습 데이터 구축
3. 기계학습을 이용한 감성분류기 구축
4. 요약 및 결론

제4장 미세먼지 오염이 서울시 지하철 이용에 미치는 영향 분석
1. 서론
2. 지하철 승하차 인원 예측 모델 구축
3. 미세먼지가 유동인구에 미치는 영향
4. 요약 및 결론

제5장 딥러닝을 이용한 국내 COPD 노인 질환자의 사망위험 추정
1. 서론
2. 선행연구
3. 연구방법론
4. 요약

제3부 환경 빅데이터 플랫폼/환경 빅데이터 서비스
제1장 오픈데이터맵 서비스 구축
1. 서론
2. 오픈데이터맵 구축
3. 데이터 소스 목록 및 메타정보 검증
4. 오픈데이터맵 웹 서비스 구축
5. 요약 및 결론

제2장 대용량 데이터 분석 기능
1. 서론
2. 분석플랫폼 동향 분석
3. 데이터 분석환경
4. 분석플랫폼 운영관리
5. 요약 및 결론

제3장 연구동향 분석 서비스
1. 서론
2. 토픽 모델링 및 연구동향 분석
3. 키워드 네트워크 분석
4. 요약 및 결론

제4부 결 론
제1장 요약 및 시사점
1. 2018년 연구결과 요약
2. 2018년 연구성과
3. 2018년 연구성과의 정책적 활용방안

참고문헌

부 록
Ⅰ. 환경분야 데이터 활용 실태조사

Abstract
본 연구는 2017년부터 시작된 계속사업으로서, 환경연구에 기계학습(Machine Learning) 연구방법론을 접목하여 환경정책 개발 가능성을 모색하는 연구이다. 본 연구는 환경연구에 빅데이터 방법론을 적용하는 ‘환경 빅데이터 연구’, 환경 빅데이터 연구에 필요한 대용량 데이터 수집 및 처리 인프라를 구축하는 ‘환경 빅데이터 인프라 구축’, 환경 빅데이터 연구성과를 기반으로 원내·외 서비스를 개발하는 ‘원내·외 빅데이터 서비스 개발’ 등 3개 영역으로 구성되며, 연구단계별로 각 3년씩 총 3단계에 걸쳐 진행한다. 2018년은 환경 빅데이터 연구에 중점을 두는 제1단계(2017~2019년)의 2차 연도에 해당된다.
2018년 환경 빅데이터 연구 영역에서는 2017년에는 인프라의 한계로 시도하기 어려웠던 대용량-비정형 데이터 분석을 시작하였고, 대기-기후 관련 매체 연구에 주력하였던 연구의 영역을 수질 및 수용체 반응을 대상으로 확대하였다. 환경 빅데이터 인프라 구축 영역에서는 대용량-비정형 데이터 연구를 수행할 수 있는 환경 빅데이터 플랫폼 구축을 병행하였다. 그리고 환경 빅데이터 서비스 개발 영역에서는 2017년 연구성과를 이용하여 환경연구 텍스트 데이터로부터 연구주제 및 연구키워드 네트워크를 파악하는 연구동향 파악 서비스를 구축하였다. 세부적인 연구의 성과들을 영역별로 요약하면 다음과 같다.
첫 번째, 2018년 환경 빅데이터 연구 영역에서는 총 5건의 연구를 수행하였다. 5건의 연구 중 대용량-비정형 데이터 분석으로 환경 빅데이터 분석 영역을 확대한 연구는 ‘컨벌루션 신경망을 활용한 미세먼지 예측’, ‘기계학습 기반 환경이슈 감성분류기 개발: 기후변화를 중심으로’, ‘딥러닝을 이용한 국내 COPD 노인환자의 사망위험 추정’ 3건이다. 그리고 ‘데이터 기반 한강 수질 예측모형 개발’ 연구를 수행하여 매체 연구의 영역을 수질로 확장하였고, ‘미세먼지 오염이 서울시 지하철 이용에 미치는 영향 분석’ 연구를 수행하여 수용체의 반응을 연구의 영역에 포괄하였다.
‘컨벌루션 신경망을 활용한 미세먼지 예측’ 연구에서는 컨벌루션 신경망 모형을 이용하여 미세먼지 오염도를 예측하는 알고리듬을 개발하였다. 이 알고리듬은 전국을 10×10 격자로 구분한 공간의 미세먼지 오염도를 1~24시간 이전에 예측하는 데 활용되었다. 이 알고리듬은 4개 대기오염물질 오염도 정보 및 4개 기상 정보를 예측에 활용하였다. 이 알고리듬에 투입된 모든 정보는 컨벌루션 신경망의 입력자료로 활용될 수 있도록 전국을 10×10 격자로 구분한 공간에 역거리가중법(IDW)을 이용하여 할당되었다. 이 알고리듬은 1시간 이후 미세먼지 농도 예측의 평균제곱근오차를 2.07㎍/m3 까지 축소할 수 있었으며, 8시간 이후 예측의 평균제곱근오차도 9.09㎍/m3 까지 축소할 수 있었다. 이는 2017년에 개발한 KNN-순환신경망 모형의 1시간 이후 예측치 평균제곱근오차 7.96㎍/m3 를 획기적으로 개선한 결과이다.
‘기계학습 기반 환경이슈 감성분류기 개발: 기후변화 중심으로’ 연구에서는 임베딩을 이용한 양방향 장단기 메모리(Bidirectional Long Short-Term Memory) 모형을 이용하여 기후변화와 관련된 SNS 문서의 감성을 7가지로 분류하는 감
저자발간물