결핵균에 감염되어 체내에 소수의 살아있는 균이 존재하나 임상적으로 결핵 증상이 없고 외부로 배출되지 않아 타인에게 전파되지 않으며, 항산균 도말검사와 흉부 X-선 검사에서 정상인 경우를 잠복결핵감염(Latent tuberculosis infection, LTBI)이라고 정의한다.
국내 결핵 환자는 2021년 전체 환자 22,904명(10만 명당 44.6명), 신규 발생 환자 18,335명(10만 명당 35.7명)이다. 결핵환자는 2011년 전체 환자 50,491명(10만 명당 100.8명), 신규 발생환자 39,557명(10만 명당 7 8 .9명)의 정점 이후 계속하여 감소하고 있다. 그러나 여전히 경제협력개발기구(OECD) 국가 중 결핵 발병률이 가장 높다.1)
정부는 세계보건기구(WHO)의 결핵퇴치전략(End TB Strategy, 2035년까지 2015년 대비 결핵 발생률 90%, 사망자 수 95% 감소)의 기조에 맞춰 2027년까지 결핵 발생률(인구 10만 명당 발생률)을 2022년의 절반 수준인 20명 이하를 목표로 결핵관리 종합계획(2023-2027)을 추진하고 있다.2,3) 결핵 퇴치의 주요 전략으로 잠복결핵 검진 및 치료지원 확대가 시행되고 있으나, 여전히 잠복결핵의 검진율 및 치료율은 낮다. 잠복결핵감염은 감염자의 약 10%가 평생에 걸쳐 결핵환자로 이환되며, 잠복결핵감염을 진단하고 치료하면 결핵 예방효과도 60~90%인 만큼 잠복결핵 관리의 중요성에 대한 사회적 인식 제고가 필요하다.4) 그러나 일반인의 잠복결핵에 관한 관심도 혹은 필요로 하는 잠복결핵 관련 정보의 특성에 대해서는 연구가 수행된 바가 없다.
온라인은 일반인이 일상에서 질병에 관한 증상, 원인, 치료 및 부작용, 경과 등에 관한 정보를 습득하는 중요한 수단으로, 접근 용이성으로 인하여 온라인 건강 정보의 검색 및 상담은 일상화되고 있다. 온라인 상담은 익명성으로 인하여 환자들이 자신의 문제 및 궁금한 점을 더 자유롭게 이야기할 수 있는 장점이 있다.5,6) 텍스트 마이닝 기법은 온라인상에서 일반인이 상담하는 내용을 분석하기에 적합한 분석 도구이다. 본 연구는 네이버 지식인에서 검색된 잠복결핵 관련 질문을 텍스트 마이닝과 토픽 모델링을 통해 분석함으로써 잠복결핵 감염자 및 주변인들이 필요로 하는 정보의 특성을 분석함으로 이를 통해 잠복결핵 감염 관리의 정책을 보다 효과적으로 개발하고 시행할 수 있을 것으로 기대된다.
웹사이트 분석 평가서비스 기관인 ‘Internet Trend’에 따르면, 최근 6년(2017.1.1~2022.12.31) 간 건강, 의학 카테고리의 검색엔진은 네이버가 72.71%, 구글이 15.00%, 다음이 8.27%의 점유율을 나타냈다.7) 이에 본 연구에서는 점유율 1위 검색 엔진인 네이버의 네이버 지식인을 이용한 2017년 1월 1일부터 2022년 5월 11일까지 질문을 분석하였다. 자료는 웹 크롤러(Web crawler)를 이용하여 '잠복결핵'이라는 키워드가 들어간 모든 질문을 날짜순으로 3,260건 수집하였다. Http 요청 및 html 데이터 추출을 파이썬 3 .8 환경에서 request 2.31.0과 beautifulsoup 4.12.3을 사용하였다. Beautifulsoup는 파이썬에서 HTML 및 XML 문서를 파싱하고 검색하는데 필요한 라이브러리로, 주로 웹페이지에서 HTML 구문을 분석하고 정보를 추출하는데 활용이 된다. Request 라이브러리를 통해 웹페이지의 HTML을 가져오고 Beautifulsoup을 통해 HTML에서 정보가 있는 태그를 찾고 해당 내용을 추출한다. 본 연구는 경북대학교 생명윤리심의위원회로부터 심의면제를 받았다(접수번호: 2022-0109).
<Figure 1>은 본 연구 과정의 전체적인 프레임워크이다. 웹 크롤링으로 수집된 자료는 엑셀 문서 형태로 저장한 후 분석 결과를 정확하게 끌어낼 수 있도록 데이터 전처리 과정을 진행하였다. 텍스트 분석에 앞서 전처리 과정(정제 과정)을 거친다. 이를 통해 데이터의 품질을 향상 시키고 분석에 적합한 형태로 만든다. 수집된 데이터의 문자 인코딩이 UTF-8 인지 확인한 이후 HTML 태그를 제거한다. Beautifulsoup를 활용하여 순수한 텍스트만을 남긴다음 텍스트 사이의 불필요한 공백을 제거한다. 띄어쓰기가 2회 이상 진행된 경우 이를 1회로 만들어 주는 과정을 의미한다. 그리고 불용어를 제거하는 과정을 거친다. 한국어 불용어 리스트(https://deep.chulgil.me/hangugeo-bulyongeo-riseuteu/)를 참고하여 분석의 대상이 될 수 없는 단어를 사전에 제거하는 과정이다. 그리고 토큰화 과정을 거치는데, 토큰화란 텍스트를 단어 또는 문장 단위로 나누는 과정을 의미하는데, 본 실험에서는 KoNLPy 라이브러리를 활용하여 명사만을 추출하여 실험을 진행하였다. 이러한 작업을 모두 진행한 다음 정규화를 진행하였다. 정규화란 특정 용어나 약어를 표준화하여 텍스트의 일관성을 유지하는 작업이다. 예를 들면 “잠복 결핵”, “잠복결핵이”, “잠복결핵을”과 같이 띄어쓰기나 조사가 달라서 다른 단어로 인식되지 않도록 하였다. 잠복결핵 치료 약으로 사용된 상품명은 성분명으로 변경하여 “유한짓정” 및 “isoniazid”는 이소니아지드로, “리팜핀”은 리팜피신으로, “튜비스투”, “튜비스투정” 및 “튜비스정” 등은 이소니아지드와 리팜피신으로 변경하였다. 또한, “pyridoxine”과 “신일피리독신”은 피리독신으로, “X-ray”, “흉부 x선” 및 “흉부x촬영” 등은 엑스레이로, “투베르쿨린”, “PPD”는 피부반응검사로 바꾸어 동일한 의미의 단어는 하나로 일치시켰다. 모든 이미지 정보와 중복 질문을 제거하여 최종적으로 2,198개의 질문 데이터세트(Dataset)를 생성하였다.
자료 분석은 2단계로 나눠 수행하였는데, 첫 번째는 2,198개의 질문 데이터세트로 Latent Dirichlet Allocation (LDA) 토픽모델링 분석을 진행하고 그 결과를 바탕으로 토픽별로 수동 분류하였다. 두 번째는 토픽별 수동 분류한 자료를 이용하여 텍스트 마이닝 기법으로 단어 네트워크 및 핵심어 빈도 분석과 Long Short-Term Memory (LSTM)을 사용한 토픽별 핵심 내용을 요약하였다.
토픽 모델링은 비정형 데이터에서 어떠한 주제(Topic)를 찾기 위한 분석 방법으로, 대량의 데이터 중 원하는 정보만을 추출하여 숨겨진 패턴의 연계성을 파악하고 추론하기 위해 활용된다. 토픽 모델링 분석에서는 데이터 차원이 커질수록 효율적인 작업이 어려우므로 본 연구에서는 LDA 알고리즘을 활용하여 데이터 차원을 최소화하였다. LDA 알고리즘은 많은 문서를 분석하는데 용이하고 문서 집합 내 동시 출현 빈도를 기준으로 계산된 통계적 수치를 이용하므로 토픽별 비중을 알 수 있다는 장점이 있다.8,9)
LDA 모형을 활용한 토픽 모델링을 수행하기 위하여 연구자가 토픽의 수를 결정해야 한다. 최적의 토픽 수를 결정하기 위해 본 연구에서는 조화평균에 기초한 로그우드(log likelihood)를 이용하여 최소 2개부터 최대 15개까지 잠재 토픽이 가능하다고 추정하였다.10) 토픽 개수별 CONTENT SATURATION 결과, Fig. 2에서 나타나듯이 7개의 토픽까지 내용 점유율이 증가하였으며, 8~9개 사이는 약간 증가, 9개 이후에는 증가율이 거의 미미하였다. 5개, 7개, 9개 토픽에 대한 민감도 비교 분석 결과 토픽 수 7개까지는 기울기가 급격히 증가하나 이후에는 미미하게 증가하므로 7개의 토픽이 가장 적절하다고 판단되어 최종적으로 7개를 토픽의 수로 결정하였다. 토픽모델링 결과로 나타난 7개의 질문 영역과 Key word를 통해 영역별 토픽을 추론하였다. 이후 주제별 연관성과 정확성을 높이기 위해 연구원 2인이 2,198개의 질문 데이터세트를 주제별로 수동 분류하였다.
텍스트 마이닝 단어 네트워크와 핵심어의 빈도 분석은 RStudio Version 4.2.1 프로그램을 사용하였다. 토큰화된 단어들의 문서 내 등장 빈도를 측정하여 상위 50개의 핵심어를 추출하여 주요 질문을 파악한다. 출현 빈도가 높으나 그 중요도가 떨어지는 단어일 수 있으므로 TF-IDF (Term frequency inverse document frequency)를 이용하여 출현 단어의 중요도를 측정하였다. 높은 TF (term frequency) 값과 TF-IDF 값을 가지는 단어는 질문 내의 키워드일 가능성이 높으므로, TF와 TF-IDF 값 기준으로 상위 키워드를 추출하여 단어 네트워크를 생성하고 핵심어의 빈도를 분석하였다9,11). 단어 네트워크의 노드(node)는 텍스트 내 동시에 출현한 횟수를 계산한 값으로, 빈도가 높은 단어일수록 여러 텍스트에 등장한 핵심어라 볼 수 있다. 연결 중심성(degree centrality)과 위세 중심성(eigenvector centrality)을 통해 다른 단어와 직접적으로 연결된 정도와 노드의 중요도를 파악할 수 있다.12)
LSTM은 장기 의존성 문제를 해결하기 위해 제안된 순환 신경망(recurrent neural network, RNN)의 한 종류이다. LSTM을 하기 위해서 파이썬 3 .8 환경에서 tensorflow 2.13, torch 1.12.0+cu116, numpy 1.24.3, pandas 2.0.3을 사용하였다. RNN은 순차적인 데이터 처리에 적합한 구조를 갖추고 있지만, 긴 시퀀스에서 장기 의존성을 학습하는 데 어려움이 있다. LSTM은 이러한 문제를 해결하기 위해 게이트 메커니즘을 도입하여 정보의 흐름을 조절한다.13) 문장을 요약하는 작업에서 LSTM은 주어진 긴 문장을 입력으로 받아 문장의 중요한 내용을 추출하고 해당 정보를 기반으로 요약 문장을 생성한다. 문장 내의 단어 간의 관계를 파악하고, 문맥 정보를 이해하여 요약에 필요한 정보를 보존한다. 이를 통해 자연어 처리 작업에서 효과적인 문장 요약모델을 구축할 수 있다.
LDA 수행과 수동 분류를 통해 문서를 총 7개 군으로 분류하였다. 각 군별로 텍스트 요약 작업을 수행해 보았다. 우선 LDA 분석 결과 각 군에 속할 확률이 8 0% 이상인 문장을 추출하여 분류 작업을 수행하였다. 문장의 길이는 5000~10000개 정도이고 단어의 수가 500~1000개로서 작은 사이즈에 속하고, 역전파 과정에서 여러층의 레이어를 통과함에 따라 기울기가 소실되어 신경망 학습을 제대로 수행하지 못하는 Gradient Vanishing의 문제가 발생할 수 있어서 이를 비교적 잘 해결할 수 있는 LSTM을 통해 작업을 수행하였다.14) 신경망 모델은 일관된 Size로 입력이 되어야 하므로 전체 문장을 하나의 긴 문장으로 연결한 후 100단어를 기준으로 나누고 배치처리를 진행한 후 작업을 하였다. 임베딩 레이어를 통과한 직후 LSTM, Dense Layer를 거쳐 생성을 진행하여 문장을 요약하였다. 이 작업을 진행함에 있어 Tensorflow를 사용하였고, 튜닝을 위하여 사용한 하이퍼 파라미터는 Supplement Table 1에 제시하였다.
본 연구에서는 2017년 1월 1일부터 2022년 5월 11일까지 네이버 지식인에 등록된 ‘잠복결핵’ 키워드가 포함된 질문을 추출하여 분석하였다. 분석 결과 연도별 질문의 양은 Fig. 3과 같다. 2017년 3 8 4건, 2018년 399건, 2019년 3 8 7건, 2020년 421건, 2021년 457건이고, 2022년은 1월부터5월까지150건으로 총 2198건이 등록되어 있었다.
Table 1은 토픽모델링 결과로 나타난 7개의 질문 영역과 Key word를 보여주며, 크게 ‘치료’, ‘부작용’, ‘군대’, ‘증상’, ‘검사’, ‘전염성’ 내용을 담고 있다. 토픽모델링 분석 결과 겹치는 Key word에 따른 관련 주제의 중복을 피하기 위하여 ‘부작용’, ‘치료’, ‘군대’, ‘상호작용’, ‘전염성’ 다섯 가지 주제로 정하였다.
Topic category | 1 | 2 | 3 | 4 | 5 | 6 | 7 | |
---|---|---|---|---|---|---|---|---|
Question number | 271 | 102 | 1107 | 49 | 211 | 256 | 202 | |
Key word | 1 | 잠복결핵 Latent tuberculosis |
기침 Cough |
검사 Test |
보험 Insurance |
잠복결핵 Latent tuberculosis |
잠복결핵 Latent tuberculosis |
결핵 Tuberculosis |
2 | 복용 Application |
증상 Symptom |
잠복결핵 Latent tuberculosis |
가입 Sign up |
검사 Test |
신검 Physical examination |
잠복결핵 Latent tuberculosis |
|
3 | 치료 Therapy |
가래 Sputum |
결핵 Tuberculosis |
다제내성 Multiple drug resistance |
복용 Application |
양성 Positive |
치료 Therapy |
|
4 | 부작용 Adverse effect |
감기 Cold |
양성 Positive |
완치 Cured |
병원 Hospital |
결핵 Tuberculosis |
검사 Test |
|
5 | 처방 Prescription |
폐결핵 Pulmonary tuberculosis |
치료 Therapy |
고지 Notice |
부작용 Adverse effect |
판정 Detection |
복용 Application |
|
6 | 약물 Medicine |
결핵 Tuberculosis |
판정 Detection |
판정 Detection |
검진 Checkup |
신청 Application |
병원 Hospital |
|
7 | 흡연 Smoking |
엑스레이 X-ray |
병원 Hospital |
소리 Sound |
문제 Problem |
사람 Person |
수치 Function |
|
8 | 판정 Detection |
잠복결핵 Latent tuberculosis |
결과 Result |
친구 Friend |
건강 Health |
운동 Exercise |
환자 Patient |
|
9 | 병무청 Military Manpower Administration |
검사 Test |
엑스레이 X-ray |
가족 Family |
주사 Injection |
군대 Army |
사람 Person |
|
10 | 신검 Physical examination |
활동 Active |
보건소 Health center |
잠복결핵 Latent tuberculosis |
판정 Detection |
친구 Friend |
활동 Active |
|
11 | 금연 Quit smoking |
내과 Internal medicine |
반응 Reaction |
조치 Action |
결과 Result |
병원 Hospital |
결핵균 Mycobacterium tuberculosis |
|
12 | 일주일 One week |
가슴 Chest |
피검사 Blood test |
실비 Actual medical expense (insurance) |
학교 School |
부작용 Adverse effect |
활성 Active |
|
13 | 양성 Positive |
병원 Hospital |
완치 Cured |
귀가 Homecoming |
아침 Morning |
전염 Contagion |
입원 Hospitalization |
|
14 | 금주 Abstinence |
접종 Vaccination |
음성 Negative |
관련 Relation |
설명 MExplanation |
치료 Therapy |
어머니 Mother |
|
15 | 문제 Problem |
생각 Thought |
복용 Application |
투약 Administration |
처방 Prescription |
병무청 Military Manpower Administration |
접촉 Touch |
|
16 | 담배 Cigarette |
비염 Rhinitis |
걱정 Concern |
검진 Checkup |
간염 Hepatitis |
완치 Cured |
진단 Diagnosis |
|
17 | 입대 Enlist |
불안 Anxiety |
감염 infection |
처리 handling |
수치 Function |
지장 Obstacle |
전염 Contagion |
|
18 | 연기 Postponement |
사진 Picture |
신체검사 Physical examination |
심사 Screening |
위험 Risk |
간염 Hepatitis |
진료 Treatment |
|
19 | 걱정 Concern |
폐렴 pneumonia |
활동 Active |
전역 Discharge |
약물 Medicine |
보건소 Health center |
증상 Symptom |
|
20 | 입영 Enlistment |
흉부 Chest |
진단 Diagnosis |
재발 Recurrence |
진단 Diagnosis |
산재 Occupational health and safety insurance |
보균자 Carrier |
|
Suggested Topic | 부작용, 군대, 상호작용 Adverse effect, Army, Interaction |
증상 및 치료 Symptom, Therapy |
검사, 치료 및 결핵 Test, Therapy, Tuberculosis |
군대 Army |
약물치료 및 부작용 Medication, Adverse effect |
군대, 부작용 Adverse effect, Army |
전염성, 부작용, 활동 Contagiousness, Adverse effect, Active |
토픽모델링 결과를 바탕으로 연구자 2명이 수동으로 ‘치료’, ‘전염성’, ‘부작용’, ‘군대’, ‘상호작용’의 5개 분류한 결과 5개의 주제와 관련 없는 것을 제외하고1515건의 질문에 대하여 관련성을 중복으로 확인한 결과, ‘치료’ 594건, ‘전염성’ 554, ‘부작용’ 309건, ‘군대’ 316건, ‘상호작용’ 228건 순으로 나타났다. 분류 결과별로 연구자가 수동적으로 요약한 내용과 LSTM으로 요약한 내용을 비교하여 Table 2에 제시하였다.
Topic | Question numuber* | Manual summary | LSTM text generation |
---|---|---|---|
약물치료 | 594 | 잠복결핵 복용기간, 치료기간, 복용방법 등에 관한 질문 | 잠복결핵 판정을 받아 9개월 가량 항결핵제를 먹어야 하는 고통을 겪고 있습니다. |
Pharmacotherapy | 594 | Inquiries regarding the duration of treatment for latent tuberculosis, the optimal duration for treatment, and the recommended administration guidelines, among other related topics. | Due to the diagnosis of latent tuberculosis, I have been suffering from the pain of taking anti-tuberculosis drugs for about 9 months . |
전염성 및 활동관련 | 554 | 잠복 결핵 판정 이후 전염성여부, 사회 생활 및 일상활동에 미치는 영향, 결핵으로 발전 가능성 등에 대한 질문 | 잠복결핵 판정을 받았는데 어떻게 해야하나요? 그리고 질문입니다. 잠복결핵은 타인에게 옮기나요? 잠복결핵때는 타인과 접촉을 피해야하나요? 완치되려면 몇일 걸리나요? 잠복결핵 때 사람이 많은 곳도 피해야하나요? 급합니다 빠른답변 부탁드려요. |
Contagious and daily activity | 554 | Inquiries regarding the contagiousness, effects on social life and daily activities, and the risk of developing active TB following a positive latent TB test. | I have been diagnosed with latent TB. What steps should I take? And I have a question: Can I transmit latent TB to others? Should I refrain from close contact with people while having latent TB? How long does it usually take to be cured? Should I avoid crowded places while having latent TB? I'm in a hurry, so please provide a prompt response. |
군대관련 | 316 | 잠복 결핵 양성시 군입대에 관련된 질문 | 잠복결핵 양성이라던데 어떻게 해야하나요? 두통도 심합니다. 설사도 자주하고요. 사망가능성 있나요? 군면제나 공익대상이 되나요? 성병중 하나인가요? 완치할수있나요? |
Military service | 316 | Inquiries regarding the eligibility to join the military in the event of a positive test result for latent TB. | What steps should I take if I receive a positive test result for latent tuberculosis? Additionally, I have been experiencing severe headaches and frequent episodes of diarrhea. Is there a possibility of fatality? Does it qualify for military exemption or public benefits? Is latent tuberculosis considered one of the sexually transmitted diseases? Can it be cured? |
치료부작용관련 | 309 | 약제 복용에 따른 간이상, 피부 부작용, 부작용 증상, 추가질환 발생, 내성에 관 한 질문 과 음주, 흡연, 병용 약물 복용에 대한 질문 | 잠복결핵약이 부작용이 많다고도 하고 치료기간도 너무길고 해서 안할까 생각 중인대 뭐가 맞는지 모르겠내요, 아 마지막으로 약물치료 중에는 무조건 금주하고 금연인가요? 잠복결핵 약을 먹고 있는데 술먹지 말라고 했거든요 근데 한달에 한번 정도는 괜찮나요? |
Side effects | 309 | Inquiries regarding liver abnormalities, skin-related side effects, symptoms of side effects, the potential development of other conditions, and medication tolerance. Additionally, questions about alcohol consumption, smoking, and the use of concurrent medications. | I'm thinking about not doing it because the latent TB drug has many side effects and the treatment period is too long, so I don't know what's right. Oh, and lastly, during medication treatment, is it absolutely necessary to abstain from drinking and smoking?" I'm taking a latent TB drug and I was told not to drink, but is it okay to drink once a month? |
상호작용 | 228 | 음주, 흡연, 병용 약물, 건강식품, 백신에 대한 질문 | 잠복 결핵 판정을 받아 예방차원으로 9개월 유한짓정을 꾸준히 복용중입니다. 로이스 초콜렛을 같이 몇일간 조금씩 먹었는데요. 제가 조금 먹었는데, 초콜렛에 양주가 포함되었다는 것을 오늘에서야 알게되었어요. 아이와 함께 초콜렛을 먹었는데 어떡하면 좋을까요? 너무 후회가 되네요. |
Interactions with pharmacotherapy | 228 | Inquiries regarding alcohol consumption, smoking, concurrent medications, dietary supplements, and vaccinations. | I was diagnosed with latent tuberculosis and have been taking Yuhanjitjeong for 9 months as a preventive measure. I ate Royce chocolate in small amounts for a few days. I ate a little bit, but it was only today that I found out that the chocolate contained liquor. I ate chocolate with my child. What should I do? I regret it so much |
*One question can be classified into two or more topics.
잠복결핵 키워드와 관련하여 수동 분류된 텍스트 데이터 내 사용된 명사 단어를 바탕으로 핵심 단어 단순 빈도와 중요도의 의미를 가중치로 반영한 TF-IDF 기준으로 상위 50개를 도표화하였다(Supplement Table 2).
‘부작용’ 관련 질문 데이터 분석 결과, ‘간’, ‘수치’ 키워드가 높은 순위로 나타난 것으로 보아 간수치와 관련된 부작용 질문이 다수 있음을 알 수 있다. 또한 ‘복용’, ‘부작용’, ‘중단’, ‘내성’, ‘이소니아지드’, ‘리팜피신’ 등 약물 복용과 관련된 단어도 높은 순위로 언급되므로 약물 또는 복용과 관련된 질문으로 이해할 수 있다. ‘치료’ 관련 질문 데이터 분석 결과, ‘부작용’과 달리 ‘신체검사’, ‘군대’, ‘병무청’, 등 군대와 관련된 단어가 중요도가 높은 단어로 나타났으며 ‘보험’, ‘가입’ 등 보험과 관련된 단어가 높은 빈도로 언급되었다. 또한 ‘완치’, ‘판정’, ‘전염’, ‘가능’ 단어가 높은 순위에 있는 것으로 보아 치료 과정에서 완치 판정 및 전염 또는 치료 가능성에 관심이 높은 것으로 생각해볼 수 있다.
‘상호작용’ 관련 질문 데이터 분석 결과, 잠복결핵 치료제인 ‘리팜피신’, ‘이소니아지드’와 함께 ‘음주’, ‘맥주’, ‘소주’, ‘술자리’, ‘담배’, ‘흡연’ 등 음주 및 흡연을 나타내는 단어가 높은 순위에 위치하였다. ‘비타민’, ‘영양제’, ‘피임약’ 등 건강기능식품 및 다른 약과의 상호작용에 대한 질문이 높은 빈도로 언급되는 것을 알 수 있다. 또한 ‘백신’, ‘접종’ 및 ‘코로나’ 또한 중요도가 높은 단어로 나타나 빈도수는 다소 낮았으나 상호작용에 대한 질문 내용에서는 주요하게 다루어졌음을 알 수 있다.
잠복결핵 키워드의 ‘부작용’과 관련한 주요 질문을 살펴보기 위해 워드 네트워크를 만들었다. Figure 4a은 동시 출현 빈도 데이터를 이용하여 70회 이상 동시 등장한 단어만 추출하여 연결 정도 중심성을 가시화한 워드 네트워크이다. 단어와 빈번하게 연결될수록 노드 크기가 커지며 관계가 가까운 같은 그룹은 같은 노드 색으로 표현된다. 전체 어휘들의 연결망에서 ‘잠복결핵’, ‘복용’, ‘결핵’이 중심적인 위치를 점하고 있으며, 앞서 분석한 결과와 유사하게 도출된 것을 확인할 수 있다. 관계가 가까운 노드는 같은 색으로 표현되므로 ‘복용’ 주변으로 연결된 ‘이소니아지드’는 ‘피부’, ‘두드러기’, ‘간지러움’과 연결되어 질문 데이터에 이소지아니드 복용으로 인한 피부 부작용을 내포하고 있음을 확인할 수 있다. ‘잠복결핵’ 주변으로 높은 연결 중심성을 가진 ‘치료’, ‘부작용’은 각각 ‘간’, ‘수치’ 및 ‘중단’과 가장 큰 관계성을 갖고있다. 다수의 질문자가 잠복결핵 치료 중 간수치 상승의 부작용이 나타나는 것과 부작용으로 인해 복용중인 약물 중단을 문의하고 있음을 짐작할 수 있다.
Figure 4b는 잠복결핵 키워드의 ‘치료’와 관련하여 150회 이상 동시 등장한 단어만 추출하여 만든 워드 네트워크이다. 앞서 분석한 ‘부작용’ 그래프 결과와 유사하게 ‘잠복결핵’, ‘복용’, ‘결핵’이 중심적인 위치를 점하고 있다. ‘잠복결핵’ 주변으로 ‘보험’, ‘가입’, ‘고지’와 연결되어 보험 가입 시 잠복결핵 고지 의무와 관련한 질문인 것을 유추할 수 있다. 또한 ‘결과’, ‘완치’, ‘건강’, ‘상태’, ‘가능’ 및 ‘치료’, ‘검진’, ‘완료’, ‘상태’가 높은 관계성으로 연결되어 잠복결핵 완치 가능성에 대한 질문이 많았을 것이라 생각해볼 수 있다. ‘결핵’ 주변으로 높은 관계성을 가진 ‘보균자’, ‘전염’, ‘활성’, ‘감염’, ‘음성’, ‘면역력’ 등의 단어들은 치료 기간 결핵 발병 가능성과 전염성에 대한 질문을 나타낸다. ‘부작용’ 그래프와 구별되는 특징은 상대적으로 ‘치료’와 ‘검사’의 연결 중심성이 크게 나타난 것으로, ‘검진’, ‘완료’, 상태’ 및 ‘판정’, ‘피검사’, ‘혈액’, ‘피부반응’, ‘정상’ 등 치료에 따른 검사 또는 판정에 대한 내용을 다수 포함하고 있다.
Figure 4c은 잠복결핵 키워드의 ‘상호작용’과 관련하여 40회 이상 동시 등장한 단어만 추출하여 만든 워드 네트워크이다. ‘잠복결핵’, ‘복용’을 중심으로 ‘맥주’, ‘금주’, ‘음주’, ‘술자리’ 및 ‘다이어트’, ‘비타민’, ‘담배’, ‘접종’, ‘안약’이 높은 관계성으로 연결되어 있음을 확인할 수 있다. 잠복결핵 약을 복용하면서 음주·흡연 가능 여부와 다이어트, 비타민, 안약과의 상호작용에 대한 질문이 다수 분포하는 것으로 보인다.
Table 3은 수동 분류 작업을 통해 ‘부작용’ ‘치료’ ‘상호작용’ 주제에 대하여 수동으로 소분류한 결과를 보여주고 있다. ‘부작용’으로 분류된 309개의 질문 데이터를 대상으로 부작용 유형에 따라 다시 수동으로 소분류한 결과, 간독성(23.3%) 부작용이 가장 많은 질문을 차지하였으며 부작용 우려(19.1%), 피부(14.9%), 위장관(14.2%), 내성(10.2%)의 순으로 나타났다. 수동분류 작업을 통해 도출된 결과와 텍스트 마이닝 결과를 비교해보면 대체적으로 유사하게 도출되었으나 텍스트 마이닝 결과 ‘위장관’ 단어로 직접 표현된 결과는 없었다. 텍스트 마이닝의 경우 위장관 관련 단어인 구토(15회), 쓰림(14회), 변비(6회) 등 각각 다르게 빈도 계산되어 결과에서 차이가 보였다.
Side effect | n=309 | % | Treatment | n=594 | % | Drug interaction | n=228 | % |
---|---|---|---|---|---|---|---|---|
간독성 Hepatotoxicity |
72 | 23.30% | 치료방법 Treatment |
288 | 48.48% | 술 Alcohol |
90 | 39.47% |
부작용 우려 Side effect concerns |
59 | 19.10% | 잠복결핵 완치 Curing Latent Tuberculosis |
84 | 14.14% | 병용약물 Concomitant Medications |
73 | 32.02% |
피부 Skin |
46 | 14.90% | 처방약 Prescription Medications |
73 | 12.29% | 건강식품 Health Foods |
34 | 14.91% |
위장관 Gastrointestinal |
44 | 14.20% | 복용관련 Medications |
63 | 10.61% | 흡연 Smoking |
25 | 10.96% |
내성 Tolerance |
32 | 10.40% | 활동관련 Activities |
52 | 8.75% | 백신 Vaccines |
14 | 6.14% |
통증 Pain |
24 | 7.80% | 결핵관련 TB Resources |
32 | 5.39% | 식품 Foods |
11 | 4.82% |
피로 Fatigue |
19 | 6.10% | 보험관련 Insurance |
32 | 5.39% | 한약 Herbal medicines |
6 | 2.63% |
소변색변화 Urine color change |
18 | 5.80% | 처방관련 Prescription |
12 | 2.02% | |||
임신 Pregnancy |
9 | 2.90% | 기타 Other |
19 | 3.20% | |||
어지럼증 Dizziness |
10 | 3.20% | ||||||
탈모 Hair loss |
7 | 2.30% | ||||||
발열 Fever |
6 | 1.90% | ||||||
체중 변화 Weight changes |
6 | 1.90% | ||||||
혈액수치 Blood levels |
6 | 1.90% | ||||||
신경계 Nervous system |
5 | 1.60% | ||||||
신장독성 Nephrotoxicity |
5 | 1.60% | ||||||
질환 악화 Disease worsening |
5 | 1.60% | ||||||
고열 High fever |
4 | 1.30% | ||||||
생리불순 Menstrual irregularities |
4 | 1.30% | ||||||
시력저하 Poor vision |
4 | 1.30% | ||||||
기타 Other |
22 | 7.10% |
‘치료’로 수동 분류된 594개의 질문 데이터를 관련 유형에 따라 수동으로 소분류한 결과, 치료방법(44.0%)이 가장 높았고 잠복결핵 완치(12.8%), 처방약(11.1%), 복용법(9.6%), 활동(7.9%), 결핵(4.9%), 보험(4.9%)의 순으로 나타났다. 텍스트 마이닝 결과와 유사하게 도출되었지만 소분류별 빈도 순서 차이가 있음을 확인할 수 있다.
잠복결핵 질문 데이터세트 중 ‘상호작용’으로 수동 분류된 228개의 질문 데이터를 상호작용 유형에 따라 수동으로 소분류한 결과, 술(35.6%), 병용약물(28.9%), 건강식품(13.4%), 흡연(9.9%), 백신(5.5%), 식품(4.3%), 한약(2.4%) 의 순서로 나타났다. 텍스트 마이닝 결과와 가장 큰 차이점은 식품과 한약으로, 텍스트 마이닝 결과 ‘다이어트’와 연관된 텍스트에 식품에 대한 내용이 포함되었으며, 한약(3회), 홍삼(1회) 등 한약과 관련된 단어의 빈도 수가 적어서 상위 50개 단어표와 워드 네트워크 상에 나타나지 않았다.
본 연구는 ‘잠복결핵’을 키워드로 검색하여 최근 4년간 네이버 지식인에서 수집된 질문 2,198건을 대상으로 토픽 모델링과 텍스트 마이닝 기법 및 LSTM 딥러닝 모델을 활용하여 일반인들의 관심사와 핵심 주제를 탐색하였다. 토픽 모델링으로 도출한 핵심어들을 토대로 부작용, 치료, 상호작용, 전염성, 군대 등 다섯 가지 주제로 분류하여 주제별 일반인이 필요로 하는 주요 질문에 대해 파악하였다.
연구 결과 결핵예방관리 강화대책으로 인해 2017년부터 2021년까지 잠복결핵에 대한 일반인들의 관심도가 매년 올라가는 추세임을 보여준다. 2022년은 상반기인 5월 11일까지만 분석한 결과이므로 하반기에 등록된 질문까지 포함된다면 질문의 양이 더 증가할 것이라 판단된다. 잠복결핵 키워드의 질문 증가율은 2019년 3.0% 감소한 것을 제외하고는 계속 증가하여 2020~2021년 질문의 양이 이전 연도 대비 약 9%씩 증가하였다. 2017~2021년 신규 결핵 환자는 매년 감소하지만, 2016년부터 시행된 집단 시설 종사자에 대한 잠복결핵감염 검진 의무화 및 2017년부터 병역판정검사 필수 검사항목 추가된 점, 2019년 결핵예방법 시행령 신설을 통해 과태료 부과 기준 마련 등 제도적인 영향으로 잠복결핵에 관한 관심도가 지속해서 증가하였음을 보여주며, 2019 결핵 신환자가 전년 대비 최대 폭으로 감소(전년 대비 -7.6%)하여 관련 검색 빈도가 잠시 감소했을 것이라 추정된다.1)
질문내용으로는 치료와 전염성에 대한 질문이 가장 크게 나타났으며 잠복결핵 완치 가능성과 치료 시 발병 가능성에 대한 질문이 다수 차지했고, 검사 결과에 따른 판정 결과에 대한 질문도 상당수 존재하였다. 치료 관련 질문에서는 군대와 보험과 관련된 단어가 중요하게 나타났으며, 보험과 관련된 단어의 빈도가 높았다. 또한 완치 판정 및 전염 가능성에 관심이 높았음을 알 수 있다 부작용과 관련된 질문으로는 간수치와 관련된 부작용 질문이 많았으며, 약물 복용과 관련된 단어도 높은 순위로 언급되었다. 이는 부작용으로 인한 약물 중단에 대한 질문이 많았기 때문이다. 상호작용에 관한 질문으로는 술과 담배의 가능 여부와 사용중인 안약이나 피임약 등 의약품과의 병용이 가능한지 상담하는 내용으로 구성되어 있었다. 질병관리청에서 잠복결핵감염에 관한 정보들을 공개하고 있으나 잠복결핵 치료자들은 복용하는 의약품에 따른 부작용 대처법이나 병용약물과의 상호작용, 주의사항 등의 정보가 부족함을 느끼는 것으로 생각된다.
본 연구에서는 얻어진 질문 수 등의 제한으로 지도 학습이 어려워 추가적으로 사람이 수동적으로 분류하는 방법을 추가하였다. 수동 분류 작업 결과는 텍스트 마이닝 결과와 유사하게 도출되었지만 일부 차이가 있었다. 수동 분류 시 부작용에 대한 질문에서는 간독성은 두 방법에서 동일하게 가장 많이 나타났으나, 텍스트마이닝에서는 위장관에 대한 내용이 빠진 것을 확인할 수 있다. 이는 텍스트 마이닝의 경우 위장관 관련 단어가 구토, 쓰림, 변비 등 다양하게 나타났기 때문에 주요 단어로 포함이 어려웠다. 또한 상호작용 주제에서도 텍스트 마이닝 결과와 가장 큰 차이점은 식품과 한약으로, 상위 단어 표와 워드 네트워크에 나타나지 않았다. 이는 식품과 한약의 종류가 다양해서 텍스트마이닝에서 주요단어로 언급되기가 어려웠기 때문이다.
또한, 수동으로 분류된 5개의 카테고리(약물치료, 치료부작용, 전염성 및 활동, 군대, 상호작용) 내에서 수동 요약과 LSTM text generation을 통한 요약을 비교해 보았다. 사람이 직접 분석하는 수동분석 방법과 기계 분석방법은 몇 가지 차이점을 갖고 있다. 사람이 주제를 분류하면 언어 이해능력과 도메인 지식을 활용하는 반면 기계는 텍스트의 통계적 특징과 언어 패턴을 학습하여 주제를 분류한다. 기계는 대량의 데이터를 통해 주제와 단어 간의 상관관계를 학습하여 새로운 텍스트로 분류한다. 즉, 기계는 텍스트의 특성을 수치화하고 패턴을 식별하는 방법을 통해 주제를 예측한다.16) 사람이 주제를 분류하면 모호한 문장이나 문맥을 이해하고 해석할 수 있으며 언어적인 특이성과 의도를 파악할 수 있다. 그러나 주관적 판단이 개입될 수 있으며, 일관성과 효율성 측면에서 한계가 있다. 기계의 주제 분류는 일관적 판단을 보장하며 대량의 데이터를 효율적으로 처리할 수 있으나, 문맥의 의도를 완벽하게 이해하지 못할 수 있으며, 희소한 데이터나 복잡한 문장에서는 정확도가 감소할 수 있다. 향후 대량의 데이터가 확보되면 레이블된 데이터를 활용한 지도학습을 적용하는 추가적인 연구가 필요하다. 지도 학습의 적용은 학습된 패턴을 기반으로 정확한 예측을 수행할 수 있어 확장성과 일반화 능력이 뛰어난 모델을 구축할 수 있을 것이다.
본 연구의 제한점은 다음과 같다. 첫 번째, 답변이 전문가에 의해 작성되었는지와 정보의 정확성 여부를 확인하지 않아 일반인들의 관점에서 필요한 정보에 대한 궁금증이 원활히 해소되었는지는 알 수 없었다. 따라서 향후 연구에서는 이러한 점을 고려하여 질문에 한정하지 않고 답변자와 답변 내용까지 확장하여 데이터를 분석한다면 일반인들에게 ‘잠복결핵’ 관련 정확한 정보 제공의 필요성을 이끌어 낼 수 있을 것이다.
두 번째, 질문 데이터의 핵심 주제를 파악하기 위해 기계적 분석 방법인 LDA를 적용하였으나 의미 있는 주제 분류를 하는데 한계가 있었다. 그 원인은 토픽 수 선택의 주관성에 있다. 토픽 수는 LDA에서 하이퍼파라미터로 사전에 입력해야 한다. 토픽의 수가 적으면 다양을 잃을 수 있으며 많으면 노이즈가 포함된 토픽이 포함될 수 있다. 또 다른 원인으로는 단어 의미 표현의 한계점에 있다. LDA는 단어들을 토픽에 할당하여 문서를 표현한다. 그러나 LDA는 단어의 의미를 고려하지 않고, 단어의 출현 빈도에 의존한다. 따라서 LDA는 동음이의어나 다의어에 취약하며, 단어 간의 의미적 유사성을 정확하게 반영하기 어렵다.8) 추가로, 문맥 고려의 한계가 있다. LDA는 문서 내의 단어 순서를 고려하지 않고 단어의 독립성을 가정한다. 이로 인해 LDA는 문맥적인 의미나 순서에 기반한 텍스트 분류 작업에 제한적이다. 마지막으로 LDA는 비지도 학습이 가지는 한계점을 포함한다. 비지도 학습은 데이터 품질 및 잡음에 민감하여 모델이 잘못된 패턴이나 구조를 학습할 수 있으나 학습된 표현을 사람이 이해하고 활용하기에 충분한지 보장할 수 없다.15,17)
본 연구는 이러한 제한점에도 불구하고 네이버 지식인의 ‘잠복결핵’ 키워드와 관련하여 일반인들이 궁금해하는 데이터를 분석하여 해당 질문의 주제와 주요 내용 등을 도출함으로써 필요로 하는 정보 특성에 대한 토대를 제공했다는 점에서 그 의미가 있다. 질문의 주요 주제가 치료 및 전염성에 대한 질문임을 고려할 때 잠복결핵 검사와 더불어 관련 정보 제공 및 체계적인 프로그램 마련의 필요성이 있다는 것을 확인할 수 있었다. 최근 증가하는 잠복결핵에 대한 관심이 높아지고 있는 상황에서, 결핵과의 차이점, 전염 가능성 여부, 그리고 치료 방법 등을 보다 체계적으로 안내하기 위한 구체적인 접근 방안이 필요할 것이다.
본 연구는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구입니다(과제번호: NRF2022R1A2C1004822).
모든 저자는 이해 상충을 가지고 있지 않음을 선언한다.
Yeon-Soo Choi : Undergraduate student
Dong-Young Park : Undergraduate student
Yun-Kyoung Song : Professor
Hae-Young Park : Research Professor
Jin-Won Kwon : Professor