search for




 

On-line Health Counseling on Latent Tuberculosis Infection: An Analysis Using Text Mining and Machine Learning
Yakhak Hoeji 2024;68(2):84-93
Published online April 30, 2024
© 2024 The Pharmaceutical Society of Korea.

Yeon-Soo Choi*, Dong-Young Park**, Yun-Kyoung Song**, Hae-Young Park***, and Jin-Won Kwon***,#

*College of Pharmacy, Daegu Catholic University
**College of Pharmacy, The Catholic University of Korea
***BK21 FOUR Community-Based Intelligent Novel Drug Discovery Education Unit, College of Pharmacy and Research Institute of Pharmaceutical Sciences, Kyungpook National University
Correspondence to: #Jin-Won Kwon, MPH, PhD. BK21 FOUR Community-Based Intelligent Novel Drug Discovery Education Unit, College of Pharmacy and Research Institute of Pharmaceutical Sciences, Kyungpook National University, Daegu 41566, South Korea
Tel: +82-53-950-8580; Fax: +82-53-950-8557
E-mail: jwkwon@knu.ac.kr
Yeon-Soo Choi and Dong-Young Park contributed equally to this work
Received August 4, 2023; Revised February 28, 2024; Accepted March 4, 2024.
Abstract
The study’s objective is to explore the health information needs of latent tuberculosis patients and their communities by analyzing data from the online health counselling platform, Naver Jisik-iN. Initially, 3,261 questions related to ‘latent tuberculosis’ were collected. Following the removal of duplicates and irrelevant image information, the final dataset for analysis comprised 2,198 questions. Text pre-processing, Latent Dirichlet Allocation (LDA) topic modelling, and Long Short-Term Memory (LSTM)-based text summarization model were used. Manual categorization was added to supplement the unsupervised learning process. Seven topics were identified using LDA, from which five specific topics (‘side effects’, ‘treatment’, ‘army’, ‘interaction’, and ‘infectiousness’) were derived. Subsequently, manual classification was conducted based on these five topics. Manual summary and LSTM-based text summarization results were consistent. Numerous individuals sought information about the potential for curing latent tuberculosis and the risk of tuberculosis development. Moreover, questions related to the interpretation of test results and interactions with other substances were widespread. Concerning side effects, issues predominantly revolved around drug discontinuation due to skin problems and elevated liver function tests. The findings reveal the prevalent concerns and inquiries of society regarding latent tuberculosis. The identified topics offer valuable insights into the key aspects of interest related to this condition.
Keywords : Latent tuberculosis, Topic modeling, Text mining, Text summarization
서 론(Introduction)

결핵균에 감염되어 체내에 소수의 살아있는 균이 존재하나 임상적으로 결핵 증상이 없고 외부로 배출되지 않아 타인에게 전파되지 않으며, 항산균 도말검사와 흉부 X-선 검사에서 정상인 경우를 잠복결핵감염(Latent tuberculosis infection, LTBI)이라고 정의한다.

국내 결핵 환자는 2021년 전체 환자 22,904명(10만 명당 44.6명), 신규 발생 환자 18,335명(10만 명당 35.7명)이다. 결핵환자는 2011년 전체 환자 50,491명(10만 명당 100.8명), 신규 발생환자 39,557명(10만 명당 7 8 .9명)의 정점 이후 계속하여 감소하고 있다. 그러나 여전히 경제협력개발기구(OECD) 국가 중 결핵 발병률이 가장 높다.1)

정부는 세계보건기구(WHO)의 결핵퇴치전략(End TB Strategy, 2035년까지 2015년 대비 결핵 발생률 90%, 사망자 수 95% 감소)의 기조에 맞춰 2027년까지 결핵 발생률(인구 10만 명당 발생률)을 2022년의 절반 수준인 20명 이하를 목표로 결핵관리 종합계획(2023-2027)을 추진하고 있다.2,3) 결핵 퇴치의 주요 전략으로 잠복결핵 검진 및 치료지원 확대가 시행되고 있으나, 여전히 잠복결핵의 검진율 및 치료율은 낮다. 잠복결핵감염은 감염자의 약 10%가 평생에 걸쳐 결핵환자로 이환되며, 잠복결핵감염을 진단하고 치료하면 결핵 예방효과도 60~90%인 만큼 잠복결핵 관리의 중요성에 대한 사회적 인식 제고가 필요하다.4) 그러나 일반인의 잠복결핵에 관한 관심도 혹은 필요로 하는 잠복결핵 관련 정보의 특성에 대해서는 연구가 수행된 바가 없다.

온라인은 일반인이 일상에서 질병에 관한 증상, 원인, 치료 및 부작용, 경과 등에 관한 정보를 습득하는 중요한 수단으로, 접근 용이성으로 인하여 온라인 건강 정보의 검색 및 상담은 일상화되고 있다. 온라인 상담은 익명성으로 인하여 환자들이 자신의 문제 및 궁금한 점을 더 자유롭게 이야기할 수 있는 장점이 있다.5,6) 텍스트 마이닝 기법은 온라인상에서 일반인이 상담하는 내용을 분석하기에 적합한 분석 도구이다. 본 연구는 네이버 지식인에서 검색된 잠복결핵 관련 질문을 텍스트 마이닝과 토픽 모델링을 통해 분석함으로써 잠복결핵 감염자 및 주변인들이 필요로 하는 정보의 특성을 분석함으로 이를 통해 잠복결핵 감염 관리의 정책을 보다 효과적으로 개발하고 시행할 수 있을 것으로 기대된다.

방 법(Methods)

1. 데이터 수집

웹사이트 분석 평가서비스 기관인 ‘Internet Trend’에 따르면, 최근 6년(2017.1.1~2022.12.31) 간 건강, 의학 카테고리의 검색엔진은 네이버가 72.71%, 구글이 15.00%, 다음이 8.27%의 점유율을 나타냈다.7) 이에 본 연구에서는 점유율 1위 검색 엔진인 네이버의 네이버 지식인을 이용한 2017년 1월 1일부터 2022년 5월 11일까지 질문을 분석하였다. 자료는 웹 크롤러(Web crawler)를 이용하여 '잠복결핵'이라는 키워드가 들어간 모든 질문을 날짜순으로 3,260건 수집하였다. Http 요청 및 html 데이터 추출을 파이썬 3 .8 환경에서 request 2.31.0과 beautifulsoup 4.12.3을 사용하였다. Beautifulsoup는 파이썬에서 HTML 및 XML 문서를 파싱하고 검색하는데 필요한 라이브러리로, 주로 웹페이지에서 HTML 구문을 분석하고 정보를 추출하는데 활용이 된다. Request 라이브러리를 통해 웹페이지의 HTML을 가져오고 Beautifulsoup을 통해 HTML에서 정보가 있는 태그를 찾고 해당 내용을 추출한다. 본 연구는 경북대학교 생명윤리심의위원회로부터 심의면제를 받았다(접수번호: 2022-0109).

2. 텍스트 전처리

<Figure 1>은 본 연구 과정의 전체적인 프레임워크이다. 웹 크롤링으로 수집된 자료는 엑셀 문서 형태로 저장한 후 분석 결과를 정확하게 끌어낼 수 있도록 데이터 전처리 과정을 진행하였다. 텍스트 분석에 앞서 전처리 과정(정제 과정)을 거친다. 이를 통해 데이터의 품질을 향상 시키고 분석에 적합한 형태로 만든다. 수집된 데이터의 문자 인코딩이 UTF-8 인지 확인한 이후 HTML 태그를 제거한다. Beautifulsoup를 활용하여 순수한 텍스트만을 남긴다음 텍스트 사이의 불필요한 공백을 제거한다. 띄어쓰기가 2회 이상 진행된 경우 이를 1회로 만들어 주는 과정을 의미한다. 그리고 불용어를 제거하는 과정을 거친다. 한국어 불용어 리스트(https://deep.chulgil.me/hangugeo-bulyongeo-riseuteu/)를 참고하여 분석의 대상이 될 수 없는 단어를 사전에 제거하는 과정이다. 그리고 토큰화 과정을 거치는데, 토큰화란 텍스트를 단어 또는 문장 단위로 나누는 과정을 의미하는데, 본 실험에서는 KoNLPy 라이브러리를 활용하여 명사만을 추출하여 실험을 진행하였다. 이러한 작업을 모두 진행한 다음 정규화를 진행하였다. 정규화란 특정 용어나 약어를 표준화하여 텍스트의 일관성을 유지하는 작업이다. 예를 들면 “잠복 결핵”, “잠복결핵이”, “잠복결핵을”과 같이 띄어쓰기나 조사가 달라서 다른 단어로 인식되지 않도록 하였다. 잠복결핵 치료 약으로 사용된 상품명은 성분명으로 변경하여 “유한짓정” 및 “isoniazid”는 이소니아지드로, “리팜핀”은 리팜피신으로, “튜비스투”, “튜비스투정” 및 “튜비스정” 등은 이소니아지드와 리팜피신으로 변경하였다. 또한, “pyridoxine”과 “신일피리독신”은 피리독신으로, “X-ray”, “흉부 x선” 및 “흉부x촬영” 등은 엑스레이로, “투베르쿨린”, “PPD”는 피부반응검사로 바꾸어 동일한 의미의 단어는 하나로 일치시켰다. 모든 이미지 정보와 중복 질문을 제거하여 최종적으로 2,198개의 질문 데이터세트(Dataset)를 생성하였다.



Fig. 1. Framework.
LDA=Latent Dirichlet Allocation; TF-IDF=Term frequency inverse document frequency; LSTM=Long short-term memory

3. 분석 과정

자료 분석은 2단계로 나눠 수행하였는데, 첫 번째는 2,198개의 질문 데이터세트로 Latent Dirichlet Allocation (LDA) 토픽모델링 분석을 진행하고 그 결과를 바탕으로 토픽별로 수동 분류하였다. 두 번째는 토픽별 수동 분류한 자료를 이용하여 텍스트 마이닝 기법으로 단어 네트워크 및 핵심어 빈도 분석과 Long Short-Term Memory (LSTM)을 사용한 토픽별 핵심 내용을 요약하였다.

LDA 토픽모델링

토픽 모델링은 비정형 데이터에서 어떠한 주제(Topic)를 찾기 위한 분석 방법으로, 대량의 데이터 중 원하는 정보만을 추출하여 숨겨진 패턴의 연계성을 파악하고 추론하기 위해 활용된다. 토픽 모델링 분석에서는 데이터 차원이 커질수록 효율적인 작업이 어려우므로 본 연구에서는 LDA 알고리즘을 활용하여 데이터 차원을 최소화하였다. LDA 알고리즘은 많은 문서를 분석하는데 용이하고 문서 집합 내 동시 출현 빈도를 기준으로 계산된 통계적 수치를 이용하므로 토픽별 비중을 알 수 있다는 장점이 있다.8,9)

LDA 모형을 활용한 토픽 모델링을 수행하기 위하여 연구자가 토픽의 수를 결정해야 한다. 최적의 토픽 수를 결정하기 위해 본 연구에서는 조화평균에 기초한 로그우드(log likelihood)를 이용하여 최소 2개부터 최대 15개까지 잠재 토픽이 가능하다고 추정하였다.10) 토픽 개수별 CONTENT SATURATION 결과, Fig. 2에서 나타나듯이 7개의 토픽까지 내용 점유율이 증가하였으며, 8~9개 사이는 약간 증가, 9개 이후에는 증가율이 거의 미미하였다. 5개, 7개, 9개 토픽에 대한 민감도 비교 분석 결과 토픽 수 7개까지는 기울기가 급격히 증가하나 이후에는 미미하게 증가하므로 7개의 토픽이 가장 적절하다고 판단되어 최종적으로 7개를 토픽의 수로 결정하였다. 토픽모델링 결과로 나타난 7개의 질문 영역과 Key word를 통해 영역별 토픽을 추론하였다. 이후 주제별 연관성과 정확성을 높이기 위해 연구원 2인이 2,198개의 질문 데이터세트를 주제별로 수동 분류하였다.



Fig. 2. Selection of optimal number of topics

텍스트 마이닝

텍스트 마이닝 단어 네트워크와 핵심어의 빈도 분석은 RStudio Version 4.2.1 프로그램을 사용하였다. 토큰화된 단어들의 문서 내 등장 빈도를 측정하여 상위 50개의 핵심어를 추출하여 주요 질문을 파악한다. 출현 빈도가 높으나 그 중요도가 떨어지는 단어일 수 있으므로 TF-IDF (Term frequency inverse document frequency)를 이용하여 출현 단어의 중요도를 측정하였다. 높은 TF (term frequency) 값과 TF-IDF 값을 가지는 단어는 질문 내의 키워드일 가능성이 높으므로, TF와 TF-IDF 값 기준으로 상위 키워드를 추출하여 단어 네트워크를 생성하고 핵심어의 빈도를 분석하였다9,11). 단어 네트워크의 노드(node)는 텍스트 내 동시에 출현한 횟수를 계산한 값으로, 빈도가 높은 단어일수록 여러 텍스트에 등장한 핵심어라 볼 수 있다. 연결 중심성(degree centrality)과 위세 중심성(eigenvector centrality)을 통해 다른 단어와 직접적으로 연결된 정도와 노드의 중요도를 파악할 수 있다.12)

Long short-term memory (LSTM)

LSTM은 장기 의존성 문제를 해결하기 위해 제안된 순환 신경망(recurrent neural network, RNN)의 한 종류이다. LSTM을 하기 위해서 파이썬 3 .8 환경에서 tensorflow 2.13, torch 1.12.0+cu116, numpy 1.24.3, pandas 2.0.3을 사용하였다. RNN은 순차적인 데이터 처리에 적합한 구조를 갖추고 있지만, 긴 시퀀스에서 장기 의존성을 학습하는 데 어려움이 있다. LSTM은 이러한 문제를 해결하기 위해 게이트 메커니즘을 도입하여 정보의 흐름을 조절한다.13) 문장을 요약하는 작업에서 LSTM은 주어진 긴 문장을 입력으로 받아 문장의 중요한 내용을 추출하고 해당 정보를 기반으로 요약 문장을 생성한다. 문장 내의 단어 간의 관계를 파악하고, 문맥 정보를 이해하여 요약에 필요한 정보를 보존한다. 이를 통해 자연어 처리 작업에서 효과적인 문장 요약모델을 구축할 수 있다.

LDA 수행과 수동 분류를 통해 문서를 총 7개 군으로 분류하였다. 각 군별로 텍스트 요약 작업을 수행해 보았다. 우선 LDA 분석 결과 각 군에 속할 확률이 8 0% 이상인 문장을 추출하여 분류 작업을 수행하였다. 문장의 길이는 5000~10000개 정도이고 단어의 수가 500~1000개로서 작은 사이즈에 속하고, 역전파 과정에서 여러층의 레이어를 통과함에 따라 기울기가 소실되어 신경망 학습을 제대로 수행하지 못하는 Gradient Vanishing의 문제가 발생할 수 있어서 이를 비교적 잘 해결할 수 있는 LSTM을 통해 작업을 수행하였다.14) 신경망 모델은 일관된 Size로 입력이 되어야 하므로 전체 문장을 하나의 긴 문장으로 연결한 후 100단어를 기준으로 나누고 배치처리를 진행한 후 작업을 하였다. 임베딩 레이어를 통과한 직후 LSTM, Dense Layer를 거쳐 생성을 진행하여 문장을 요약하였다. 이 작업을 진행함에 있어 Tensorflow를 사용하였고, 튜닝을 위하여 사용한 하이퍼 파라미터는 Supplement Table 1에 제시하였다.

결 과(Results)

본 연구에서는 2017년 1월 1일부터 2022년 5월 11일까지 네이버 지식인에 등록된 ‘잠복결핵’ 키워드가 포함된 질문을 추출하여 분석하였다. 분석 결과 연도별 질문의 양은 Fig. 3과 같다. 2017년 3 8 4건, 2018년 399건, 2019년 3 8 7건, 2020년 421건, 2021년 457건이고, 2022년은 1월부터5월까지150건으로 총 2198건이 등록되어 있었다.



Fig. 3. The number of questions about the latent TB in NAVER Jisik-iN

Table 1은 토픽모델링 결과로 나타난 7개의 질문 영역과 Key word를 보여주며, 크게 ‘치료’, ‘부작용’, ‘군대’, ‘증상’, ‘검사’, ‘전염성’ 내용을 담고 있다. 토픽모델링 분석 결과 겹치는 Key word에 따른 관련 주제의 중복을 피하기 위하여 ‘부작용’, ‘치료’, ‘군대’, ‘상호작용’, ‘전염성’ 다섯 가지 주제로 정하였다.

The distinctive 7 topics of questions about latent TB
Topic category 1 2 3 4 5 6 7
Question number 271 102 1107 49 211 256 202
Key word 1 잠복결핵
Latent tuberculosis
기침
Cough
검사
Test
보험
Insurance
잠복결핵
Latent tuberculosis
잠복결핵
Latent tuberculosis
결핵
Tuberculosis
2 복용
Application
증상
Symptom
잠복결핵
Latent tuberculosis
가입
Sign up
검사
Test
신검
Physical examination
잠복결핵
Latent tuberculosis
3 치료
Therapy
가래
Sputum
결핵
Tuberculosis
다제내성
Multiple drug resistance
복용
Application
양성
Positive
치료
Therapy
4 부작용
Adverse effect
감기
Cold
양성
Positive
완치
Cured
병원
Hospital
결핵
Tuberculosis
검사
Test
5 처방
Prescription
폐결핵
Pulmonary tuberculosis
치료
Therapy
고지
Notice
부작용
Adverse effect
판정
Detection
복용
Application
6 약물
Medicine
결핵
Tuberculosis
판정
Detection
판정
Detection
검진
Checkup
신청
Application
병원
Hospital
7 흡연
Smoking
엑스레이
X-ray
병원
Hospital
소리
Sound
문제
Problem
사람
Person
수치
Function
8 판정
Detection
잠복결핵
Latent tuberculosis
결과
Result
친구
Friend
건강
Health
운동
Exercise
환자
Patient
9 병무청
Military Manpower Administration
검사
Test
엑스레이
X-ray
가족
Family
주사
Injection
군대
Army
사람
Person
10 신검
Physical examination
활동
Active
보건소
Health center
잠복결핵
Latent tuberculosis
판정
Detection
친구
Friend
활동
Active
11 금연
Quit smoking
내과
Internal medicine
반응
Reaction
조치
Action
결과
Result
병원
Hospital
결핵균
Mycobacterium tuberculosis
12 일주일
One week
가슴
Chest
피검사
Blood test
실비
Actual medical expense (insurance)
학교
School
부작용
Adverse effect
활성
Active
13 양성
Positive
병원
Hospital
완치
Cured
귀가
Homecoming
아침
Morning
전염
Contagion
입원
Hospitalization
14 금주
Abstinence
접종
Vaccination
음성
Negative
관련
Relation
설명
MExplanation
치료
Therapy
어머니
Mother
15 문제
Problem
생각
Thought
복용
Application
투약
Administration
처방
Prescription
병무청
Military Manpower Administration
접촉
Touch
16 담배
Cigarette
비염
Rhinitis
걱정
Concern
검진
Checkup
간염
Hepatitis
완치
Cured
진단
Diagnosis
17 입대
Enlist
불안
Anxiety
감염
infection
처리
handling
수치
Function
지장
Obstacle
전염
Contagion
18 연기
Postponement
사진
Picture
신체검사
Physical examination
심사
Screening
위험
Risk
간염
Hepatitis
진료
Treatment
19 걱정
Concern
폐렴
pneumonia
활동
Active
전역
Discharge
약물
Medicine
보건소
Health center
증상
Symptom
20 입영
Enlistment
흉부
Chest
진단
Diagnosis
재발
Recurrence
진단
Diagnosis
산재
Occupational health and safety insurance
보균자
Carrier
Suggested Topic 부작용, 군대, 상호작용
Adverse effect, Army, Interaction
증상 및 치료
Symptom, Therapy
검사, 치료 및 결핵
Test, Therapy, Tuberculosis
군대
Army
약물치료 및 부작용
Medication, Adverse effect
군대, 부작용
Adverse effect, Army
전염성, 부작용, 활동
Contagiousness, Adverse effect, Active


연구자의 수동 분류 결과

토픽모델링 결과를 바탕으로 연구자 2명이 수동으로 ‘치료’, ‘전염성’, ‘부작용’, ‘군대’, ‘상호작용’의 5개 분류한 결과 5개의 주제와 관련 없는 것을 제외하고1515건의 질문에 대하여 관련성을 중복으로 확인한 결과, ‘치료’ 594건, ‘전염성’ 554, ‘부작용’ 309건, ‘군대’ 316건, ‘상호작용’ 228건 순으로 나타났다. 분류 결과별로 연구자가 수동적으로 요약한 내용과 LSTM으로 요약한 내용을 비교하여 Table 2에 제시하였다.

Summary of questions regarding latent TB within manually categoried topics
Topic Question numuber* Manual summary LSTM text generation
약물치료 594 잠복결핵 복용기간, 치료기간, 복용방법 등에 관한 질문 잠복결핵 판정을 받아 9개월 가량 항결핵제를 먹어야 하는 고통을 겪고 있습니다.
Pharmacotherapy 594 Inquiries regarding the duration of treatment for latent tuberculosis, the optimal duration for treatment, and the recommended administration guidelines, among other related topics. Due to the diagnosis of latent tuberculosis, I have been suffering from the pain of taking anti-tuberculosis drugs for about 9 months .
전염성 및 활동관련 554 잠복 결핵 판정 이후 전염성여부, 사회 생활 및 일상활동에 미치는 영향, 결핵으로 발전 가능성 등에 대한 질문 잠복결핵 판정을 받았는데 어떻게 해야하나요? 그리고 질문입니다. 잠복결핵은 타인에게 옮기나요?
잠복결핵때는 타인과 접촉을 피해야하나요? 완치되려면 몇일 걸리나요? 잠복결핵 때 사람이 많은 곳도 피해야하나요? 급합니다 빠른답변 부탁드려요.
Contagious and daily activity 554 Inquiries regarding the contagiousness, effects on social life and daily activities, and the risk of developing active TB following a positive latent TB test. I have been diagnosed with latent TB. What steps should I take? And I have a question: Can I transmit latent TB to others? Should I refrain from close contact with people while having latent TB? How long does it usually take to be cured? Should I avoid crowded places while having latent TB? I'm in a hurry, so please provide a prompt response.
군대관련 316 잠복 결핵 양성시 군입대에 관련된 질문 잠복결핵 양성이라던데 어떻게 해야하나요? 두통도 심합니다. 설사도 자주하고요. 사망가능성 있나요? 군면제나 공익대상이 되나요? 성병중 하나인가요? 완치할수있나요?
Military service 316 Inquiries regarding the eligibility to join the military in the event of a positive test result for latent TB. What steps should I take if I receive a positive test result for latent tuberculosis? Additionally, I have been experiencing severe headaches and frequent episodes of diarrhea. Is there a possibility of fatality? Does it qualify for military exemption or public benefits? Is latent tuberculosis considered one of the sexually transmitted diseases? Can it be cured?
치료부작용관련 309 약제 복용에 따른 간이상, 피부 부작용, 부작용 증상, 추가질환 발생, 내성에 관 한 질문 과 음주, 흡연, 병용 약물 복용에 대한 질문 잠복결핵약이 부작용이 많다고도 하고 치료기간도 너무길고 해서 안할까 생각 중인대 뭐가 맞는지 모르겠내요, 아 마지막으로 약물치료 중에는 무조건 금주하고 금연인가요? 잠복결핵 약을 먹고 있는데 술먹지 말라고 했거든요 근데 한달에 한번 정도는 괜찮나요?
Side effects 309 Inquiries regarding liver abnormalities, skin-related side effects, symptoms of side effects, the potential development of other conditions, and medication tolerance. Additionally, questions about alcohol consumption, smoking, and the use of concurrent medications. I'm thinking about not doing it because the latent TB drug has many side effects and the treatment period is too long, so I don't know what's right. Oh, and lastly, during medication treatment, is it absolutely necessary to abstain from drinking and smoking?" I'm taking a latent TB drug and I was told not to drink, but is it okay to drink once a month?
상호작용 228 음주, 흡연, 병용 약물, 건강식품, 백신에 대한 질문 잠복 결핵 판정을 받아 예방차원으로 9개월 유한짓정을 꾸준히 복용중입니다. 로이스 초콜렛을 같이 몇일간 조금씩 먹었는데요. 제가 조금 먹었는데, 초콜렛에 양주가 포함되었다는 것을 오늘에서야 알게되었어요. 아이와 함께 초콜렛을 먹었는데 어떡하면 좋을까요?
너무 후회가 되네요.
Interactions with pharmacotherapy 228 Inquiries regarding alcohol consumption, smoking, concurrent medications, dietary supplements, and vaccinations. I was diagnosed with latent tuberculosis and have been taking Yuhanjitjeong for 9 months as a preventive measure. I ate Royce chocolate in small amounts for a few days. I ate a little bit, but it was only today that I found out that the chocolate contained liquor. I ate chocolate with my child. What should I do? I regret it so much

*One question can be classified into two or more topics.



치료, 약물 부작용, 상호작용 관련 주요 단어 중요도 및 네트 워크 분석

잠복결핵 키워드와 관련하여 수동 분류된 텍스트 데이터 내 사용된 명사 단어를 바탕으로 핵심 단어 단순 빈도와 중요도의 의미를 가중치로 반영한 TF-IDF 기준으로 상위 50개를 도표화하였다(Supplement Table 2).

‘부작용’ 관련 질문 데이터 분석 결과, ‘간’, ‘수치’ 키워드가 높은 순위로 나타난 것으로 보아 간수치와 관련된 부작용 질문이 다수 있음을 알 수 있다. 또한 ‘복용’, ‘부작용’, ‘중단’, ‘내성’, ‘이소니아지드’, ‘리팜피신’ 등 약물 복용과 관련된 단어도 높은 순위로 언급되므로 약물 또는 복용과 관련된 질문으로 이해할 수 있다. ‘치료’ 관련 질문 데이터 분석 결과, ‘부작용’과 달리 ‘신체검사’, ‘군대’, ‘병무청’, 등 군대와 관련된 단어가 중요도가 높은 단어로 나타났으며 ‘보험’, ‘가입’ 등 보험과 관련된 단어가 높은 빈도로 언급되었다. 또한 ‘완치’, ‘판정’, ‘전염’, ‘가능’ 단어가 높은 순위에 있는 것으로 보아 치료 과정에서 완치 판정 및 전염 또는 치료 가능성에 관심이 높은 것으로 생각해볼 수 있다.

‘상호작용’ 관련 질문 데이터 분석 결과, 잠복결핵 치료제인 ‘리팜피신’, ‘이소니아지드’와 함께 ‘음주’, ‘맥주’, ‘소주’, ‘술자리’, ‘담배’, ‘흡연’ 등 음주 및 흡연을 나타내는 단어가 높은 순위에 위치하였다. ‘비타민’, ‘영양제’, ‘피임약’ 등 건강기능식품 및 다른 약과의 상호작용에 대한 질문이 높은 빈도로 언급되는 것을 알 수 있다. 또한 ‘백신’, ‘접종’ 및 ‘코로나’ 또한 중요도가 높은 단어로 나타나 빈도수는 다소 낮았으나 상호작용에 대한 질문 내용에서는 주요하게 다루어졌음을 알 수 있다.

잠복결핵 키워드의 ‘부작용’과 관련한 주요 질문을 살펴보기 위해 워드 네트워크를 만들었다. Figure 4a은 동시 출현 빈도 데이터를 이용하여 70회 이상 동시 등장한 단어만 추출하여 연결 정도 중심성을 가시화한 워드 네트워크이다. 단어와 빈번하게 연결될수록 노드 크기가 커지며 관계가 가까운 같은 그룹은 같은 노드 색으로 표현된다. 전체 어휘들의 연결망에서 ‘잠복결핵’, ‘복용’, ‘결핵’이 중심적인 위치를 점하고 있으며, 앞서 분석한 결과와 유사하게 도출된 것을 확인할 수 있다. 관계가 가까운 노드는 같은 색으로 표현되므로 ‘복용’ 주변으로 연결된 ‘이소니아지드’는 ‘피부’, ‘두드러기’, ‘간지러움’과 연결되어 질문 데이터에 이소지아니드 복용으로 인한 피부 부작용을 내포하고 있음을 확인할 수 있다. ‘잠복결핵’ 주변으로 높은 연결 중심성을 가진 ‘치료’, ‘부작용’은 각각 ‘간’, ‘수치’ 및 ‘중단’과 가장 큰 관계성을 갖고있다. 다수의 질문자가 잠복결핵 치료 중 간수치 상승의 부작용이 나타나는 것과 부작용으로 인해 복용중인 약물 중단을 문의하고 있음을 짐작할 수 있다.



Fig. 4. Network analysis within manually categorized topics such as side effects, treatment, drug interactions

Figure 4b는 잠복결핵 키워드의 ‘치료’와 관련하여 150회 이상 동시 등장한 단어만 추출하여 만든 워드 네트워크이다. 앞서 분석한 ‘부작용’ 그래프 결과와 유사하게 ‘잠복결핵’, ‘복용’, ‘결핵’이 중심적인 위치를 점하고 있다. ‘잠복결핵’ 주변으로 ‘보험’, ‘가입’, ‘고지’와 연결되어 보험 가입 시 잠복결핵 고지 의무와 관련한 질문인 것을 유추할 수 있다. 또한 ‘결과’, ‘완치’, ‘건강’, ‘상태’, ‘가능’ 및 ‘치료’, ‘검진’, ‘완료’, ‘상태’가 높은 관계성으로 연결되어 잠복결핵 완치 가능성에 대한 질문이 많았을 것이라 생각해볼 수 있다. ‘결핵’ 주변으로 높은 관계성을 가진 ‘보균자’, ‘전염’, ‘활성’, ‘감염’, ‘음성’, ‘면역력’ 등의 단어들은 치료 기간 결핵 발병 가능성과 전염성에 대한 질문을 나타낸다. ‘부작용’ 그래프와 구별되는 특징은 상대적으로 ‘치료’와 ‘검사’의 연결 중심성이 크게 나타난 것으로, ‘검진’, ‘완료’, 상태’ 및 ‘판정’, ‘피검사’, ‘혈액’, ‘피부반응’, ‘정상’ 등 치료에 따른 검사 또는 판정에 대한 내용을 다수 포함하고 있다.

Figure 4c은 잠복결핵 키워드의 ‘상호작용’과 관련하여 40회 이상 동시 등장한 단어만 추출하여 만든 워드 네트워크이다. ‘잠복결핵’, ‘복용’을 중심으로 ‘맥주’, ‘금주’, ‘음주’, ‘술자리’ 및 ‘다이어트’, ‘비타민’, ‘담배’, ‘접종’, ‘안약’이 높은 관계성으로 연결되어 있음을 확인할 수 있다. 잠복결핵 약을 복용하면서 음주·흡연 가능 여부와 다이어트, 비타민, 안약과의 상호작용에 대한 질문이 다수 분포하는 것으로 보인다.

약물 부작용 및 치료 관련 수동 분류

Table 3은 수동 분류 작업을 통해 ‘부작용’ ‘치료’ ‘상호작용’ 주제에 대하여 수동으로 소분류한 결과를 보여주고 있다. ‘부작용’으로 분류된 309개의 질문 데이터를 대상으로 부작용 유형에 따라 다시 수동으로 소분류한 결과, 간독성(23.3%) 부작용이 가장 많은 질문을 차지하였으며 부작용 우려(19.1%), 피부(14.9%), 위장관(14.2%), 내성(10.2%)의 순으로 나타났다. 수동분류 작업을 통해 도출된 결과와 텍스트 마이닝 결과를 비교해보면 대체적으로 유사하게 도출되었으나 텍스트 마이닝 결과 ‘위장관’ 단어로 직접 표현된 결과는 없었다. 텍스트 마이닝의 경우 위장관 관련 단어인 구토(15회), 쓰림(14회), 변비(6회) 등 각각 다르게 빈도 계산되어 결과에서 차이가 보였다.

Manual analysis of questions regarding side effects, treatment, and drug interaction
Side effect n=309 % Treatment n=594 % Drug interaction n=228 %
간독성
Hepatotoxicity
72 23.30% 치료방법
Treatment
288 48.48%
Alcohol
90 39.47%
부작용 우려
Side effect concerns
59 19.10% 잠복결핵 완치
Curing Latent Tuberculosis
84 14.14% 병용약물
Concomitant Medications
73 32.02%
피부
Skin
46 14.90% 처방약
Prescription Medications
73 12.29% 건강식품
Health Foods
34 14.91%
위장관
Gastrointestinal
44 14.20% 복용관련
Medications
63 10.61% 흡연
Smoking
25 10.96%
내성
Tolerance
32 10.40% 활동관련
Activities
52 8.75% 백신
Vaccines
14 6.14%
통증
Pain
24 7.80% 결핵관련
TB Resources
32 5.39% 식품
Foods
11 4.82%
피로
Fatigue
19 6.10% 보험관련
Insurance
32 5.39% 한약
Herbal medicines
6 2.63%
소변색변화
Urine color change
18 5.80% 처방관련
Prescription
12 2.02%
임신
Pregnancy
9 2.90% 기타
Other
19 3.20%
어지럼증
Dizziness
10 3.20%
탈모
Hair loss
7 2.30%
발열
Fever
6 1.90%
체중 변화
Weight changes
6 1.90%
혈액수치
Blood levels
6 1.90%
신경계
Nervous system
5 1.60%
신장독성
Nephrotoxicity
5 1.60%
질환 악화
Disease worsening
5 1.60%
고열
High fever
4 1.30%
생리불순
Menstrual irregularities
4 1.30%
시력저하
Poor vision
4 1.30%
기타
Other
22 7.10%


‘치료’로 수동 분류된 594개의 질문 데이터를 관련 유형에 따라 수동으로 소분류한 결과, 치료방법(44.0%)이 가장 높았고 잠복결핵 완치(12.8%), 처방약(11.1%), 복용법(9.6%), 활동(7.9%), 결핵(4.9%), 보험(4.9%)의 순으로 나타났다. 텍스트 마이닝 결과와 유사하게 도출되었지만 소분류별 빈도 순서 차이가 있음을 확인할 수 있다.

잠복결핵 질문 데이터세트 중 ‘상호작용’으로 수동 분류된 228개의 질문 데이터를 상호작용 유형에 따라 수동으로 소분류한 결과, 술(35.6%), 병용약물(28.9%), 건강식품(13.4%), 흡연(9.9%), 백신(5.5%), 식품(4.3%), 한약(2.4%) 의 순서로 나타났다. 텍스트 마이닝 결과와 가장 큰 차이점은 식품과 한약으로, 텍스트 마이닝 결과 ‘다이어트’와 연관된 텍스트에 식품에 대한 내용이 포함되었으며, 한약(3회), 홍삼(1회) 등 한약과 관련된 단어의 빈도 수가 적어서 상위 50개 단어표와 워드 네트워크 상에 나타나지 않았다.

고 찰(Discussion)

본 연구는 ‘잠복결핵’을 키워드로 검색하여 최근 4년간 네이버 지식인에서 수집된 질문 2,198건을 대상으로 토픽 모델링과 텍스트 마이닝 기법 및 LSTM 딥러닝 모델을 활용하여 일반인들의 관심사와 핵심 주제를 탐색하였다. 토픽 모델링으로 도출한 핵심어들을 토대로 부작용, 치료, 상호작용, 전염성, 군대 등 다섯 가지 주제로 분류하여 주제별 일반인이 필요로 하는 주요 질문에 대해 파악하였다.

연구 결과 결핵예방관리 강화대책으로 인해 2017년부터 2021년까지 잠복결핵에 대한 일반인들의 관심도가 매년 올라가는 추세임을 보여준다. 2022년은 상반기인 5월 11일까지만 분석한 결과이므로 하반기에 등록된 질문까지 포함된다면 질문의 양이 더 증가할 것이라 판단된다. 잠복결핵 키워드의 질문 증가율은 2019년 3.0% 감소한 것을 제외하고는 계속 증가하여 2020~2021년 질문의 양이 이전 연도 대비 약 9%씩 증가하였다. 2017~2021년 신규 결핵 환자는 매년 감소하지만, 2016년부터 시행된 집단 시설 종사자에 대한 잠복결핵감염 검진 의무화 및 2017년부터 병역판정검사 필수 검사항목 추가된 점, 2019년 결핵예방법 시행령 신설을 통해 과태료 부과 기준 마련 등 제도적인 영향으로 잠복결핵에 관한 관심도가 지속해서 증가하였음을 보여주며, 2019 결핵 신환자가 전년 대비 최대 폭으로 감소(전년 대비 -7.6%)하여 관련 검색 빈도가 잠시 감소했을 것이라 추정된다.1)

질문내용으로는 치료와 전염성에 대한 질문이 가장 크게 나타났으며 잠복결핵 완치 가능성과 치료 시 발병 가능성에 대한 질문이 다수 차지했고, 검사 결과에 따른 판정 결과에 대한 질문도 상당수 존재하였다. 치료 관련 질문에서는 군대와 보험과 관련된 단어가 중요하게 나타났으며, 보험과 관련된 단어의 빈도가 높았다. 또한 완치 판정 및 전염 가능성에 관심이 높았음을 알 수 있다 부작용과 관련된 질문으로는 간수치와 관련된 부작용 질문이 많았으며, 약물 복용과 관련된 단어도 높은 순위로 언급되었다. 이는 부작용으로 인한 약물 중단에 대한 질문이 많았기 때문이다. 상호작용에 관한 질문으로는 술과 담배의 가능 여부와 사용중인 안약이나 피임약 등 의약품과의 병용이 가능한지 상담하는 내용으로 구성되어 있었다. 질병관리청에서 잠복결핵감염에 관한 정보들을 공개하고 있으나 잠복결핵 치료자들은 복용하는 의약품에 따른 부작용 대처법이나 병용약물과의 상호작용, 주의사항 등의 정보가 부족함을 느끼는 것으로 생각된다.

본 연구에서는 얻어진 질문 수 등의 제한으로 지도 학습이 어려워 추가적으로 사람이 수동적으로 분류하는 방법을 추가하였다. 수동 분류 작업 결과는 텍스트 마이닝 결과와 유사하게 도출되었지만 일부 차이가 있었다. 수동 분류 시 부작용에 대한 질문에서는 간독성은 두 방법에서 동일하게 가장 많이 나타났으나, 텍스트마이닝에서는 위장관에 대한 내용이 빠진 것을 확인할 수 있다. 이는 텍스트 마이닝의 경우 위장관 관련 단어가 구토, 쓰림, 변비 등 다양하게 나타났기 때문에 주요 단어로 포함이 어려웠다. 또한 상호작용 주제에서도 텍스트 마이닝 결과와 가장 큰 차이점은 식품과 한약으로, 상위 단어 표와 워드 네트워크에 나타나지 않았다. 이는 식품과 한약의 종류가 다양해서 텍스트마이닝에서 주요단어로 언급되기가 어려웠기 때문이다.

또한, 수동으로 분류된 5개의 카테고리(약물치료, 치료부작용, 전염성 및 활동, 군대, 상호작용) 내에서 수동 요약과 LSTM text generation을 통한 요약을 비교해 보았다. 사람이 직접 분석하는 수동분석 방법과 기계 분석방법은 몇 가지 차이점을 갖고 있다. 사람이 주제를 분류하면 언어 이해능력과 도메인 지식을 활용하는 반면 기계는 텍스트의 통계적 특징과 언어 패턴을 학습하여 주제를 분류한다. 기계는 대량의 데이터를 통해 주제와 단어 간의 상관관계를 학습하여 새로운 텍스트로 분류한다. 즉, 기계는 텍스트의 특성을 수치화하고 패턴을 식별하는 방법을 통해 주제를 예측한다.16) 사람이 주제를 분류하면 모호한 문장이나 문맥을 이해하고 해석할 수 있으며 언어적인 특이성과 의도를 파악할 수 있다. 그러나 주관적 판단이 개입될 수 있으며, 일관성과 효율성 측면에서 한계가 있다. 기계의 주제 분류는 일관적 판단을 보장하며 대량의 데이터를 효율적으로 처리할 수 있으나, 문맥의 의도를 완벽하게 이해하지 못할 수 있으며, 희소한 데이터나 복잡한 문장에서는 정확도가 감소할 수 있다. 향후 대량의 데이터가 확보되면 레이블된 데이터를 활용한 지도학습을 적용하는 추가적인 연구가 필요하다. 지도 학습의 적용은 학습된 패턴을 기반으로 정확한 예측을 수행할 수 있어 확장성과 일반화 능력이 뛰어난 모델을 구축할 수 있을 것이다.

본 연구의 제한점은 다음과 같다. 첫 번째, 답변이 전문가에 의해 작성되었는지와 정보의 정확성 여부를 확인하지 않아 일반인들의 관점에서 필요한 정보에 대한 궁금증이 원활히 해소되었는지는 알 수 없었다. 따라서 향후 연구에서는 이러한 점을 고려하여 질문에 한정하지 않고 답변자와 답변 내용까지 확장하여 데이터를 분석한다면 일반인들에게 ‘잠복결핵’ 관련 정확한 정보 제공의 필요성을 이끌어 낼 수 있을 것이다.

두 번째, 질문 데이터의 핵심 주제를 파악하기 위해 기계적 분석 방법인 LDA를 적용하였으나 의미 있는 주제 분류를 하는데 한계가 있었다. 그 원인은 토픽 수 선택의 주관성에 있다. 토픽 수는 LDA에서 하이퍼파라미터로 사전에 입력해야 한다. 토픽의 수가 적으면 다양을 잃을 수 있으며 많으면 노이즈가 포함된 토픽이 포함될 수 있다. 또 다른 원인으로는 단어 의미 표현의 한계점에 있다. LDA는 단어들을 토픽에 할당하여 문서를 표현한다. 그러나 LDA는 단어의 의미를 고려하지 않고, 단어의 출현 빈도에 의존한다. 따라서 LDA는 동음이의어나 다의어에 취약하며, 단어 간의 의미적 유사성을 정확하게 반영하기 어렵다.8) 추가로, 문맥 고려의 한계가 있다. LDA는 문서 내의 단어 순서를 고려하지 않고 단어의 독립성을 가정한다. 이로 인해 LDA는 문맥적인 의미나 순서에 기반한 텍스트 분류 작업에 제한적이다. 마지막으로 LDA는 비지도 학습이 가지는 한계점을 포함한다. 비지도 학습은 데이터 품질 및 잡음에 민감하여 모델이 잘못된 패턴이나 구조를 학습할 수 있으나 학습된 표현을 사람이 이해하고 활용하기에 충분한지 보장할 수 없다.15,17)

결 론(Conclusion)

본 연구는 이러한 제한점에도 불구하고 네이버 지식인의 ‘잠복결핵’ 키워드와 관련하여 일반인들이 궁금해하는 데이터를 분석하여 해당 질문의 주제와 주요 내용 등을 도출함으로써 필요로 하는 정보 특성에 대한 토대를 제공했다는 점에서 그 의미가 있다. 질문의 주요 주제가 치료 및 전염성에 대한 질문임을 고려할 때 잠복결핵 검사와 더불어 관련 정보 제공 및 체계적인 프로그램 마련의 필요성이 있다는 것을 확인할 수 있었다. 최근 증가하는 잠복결핵에 대한 관심이 높아지고 있는 상황에서, 결핵과의 차이점, 전염 가능성 여부, 그리고 치료 방법 등을 보다 체계적으로 안내하기 위한 구체적인 접근 방안이 필요할 것이다.

감사의 말씀(Acknowledgment)

본 연구는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구입니다(과제번호: NRF2022R1A2C1004822).

Conflict of Interest

모든 저자는 이해 상충을 가지고 있지 않음을 선언한다.

Authors’ Positions

Yeon-Soo Choi : Undergraduate student

Dong-Young Park : Undergraduate student

Yun-Kyoung Song : Professor

Hae-Young Park : Research Professor

Jin-Won Kwon : Professor

References
  1. Kim JS, Lee HW, Ahn HK, Kim YM (2022) 2021 Annual Notification Report of Tuberculosis Patients. Public Health Weekly Report 15:729-746.
  2. Korea Disease Control and Prevention Agency. 2022 National Tuberculosis Management Guidelines. https://www.gne.go.kr/upload_data/board_data/workroom/166685599496466.pdf. Accessed July 25, 2023
  3. Korea Disease Control and Prevention Agency. The 3rd Comprehensive Plan for Tuberculosis Control <2023-2027>. https://www.stoptbk.org/wtbday_2023/camp/images/2023/file_Down1.pdf. Accessed July 25, 2023
  4. Cho KS (2017) Current status of tuberculosis and national tuberculosis control in Korea. Health and Social Welfare Review 37:179-212.
    CrossRef
  5. Mosa AS, Yoo I, Sheets L (2012) A systematic review of healthcare applications for smartphones. BMC Med Inform Decis Mak 12:67.
    Pubmed KoreaMed CrossRef
  6. Alwakeel L, Lano K (2022) Functional and Technical Aspects of Self-management mHealth Apps: Systematic App Search and Literature Review. JMIR Hum Factors 9:e29767.
    Pubmed KoreaMed CrossRef
  7. Internet Trend. http://www.internettrend.co.kr/trendForward.tsp. Accessed July 25, 2023
  8. Blei DM, Ng AY, Jordan MI (2003) Latent dirichlet allocation. Journal of machine Learning Research 3:993-1022.
  9. Wang X, McCallum A (2006) Topics over time: a non-markov continuous-time model of topical trends. Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining 2006, 424-433.
    CrossRef
  10. Griffiths TL, Steyvers M (2004) Finding scientific topics. Proceedings of the National Academy of Sciences 101:5228-5235.
    Pubmed KoreaMed CrossRef
  11. Kim YH (2004) Social network theory. Revision ed. Seoul: Parkyoungsa.
    CrossRef
  12. Kim YH, Kim YJ (2016) Social network analysis. 4th edition ed. Seoul: Parkyoungsa.
    CrossRef
  13. Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neural Computation 9:1735-1780.
    Pubmed CrossRef
  14. Noh SH (2021) Analysis of gradient vanishing of RNNs and performance comparison. Information 12:442.
    CrossRef
  15. Tang J, Meng Z, Nguyen X, Mei O, Zhang M (2014) Understanding the Limiting Factors of Topic Modeling via Posterior Contraction Analysis. ICML'14: Proceedings of the 31st International Conference on International Conference on Machine Learning 32, 190-198.
    CrossRef
  16. Janani R, Vijayarani S (2021) Automatic text classification using machine learning and optimization algorithms. Soft Computing 25:1129-1145.
    CrossRef
  17. Jordan MI, Mitchell TM (2015) Machine learning: Trends, perspectives, and prospects. Science 349:255-260.
    Pubmed CrossRef


June 2024, 68 (3)
Full Text(PDF) Free
Supplementary File

Social Network Service
Services

Cited By Articles
  • CrossRef (0)

Funding Information