서 언
식물공장은 작물 생장에 필요한 광원, 온도, 습도, 이산화탄소 농도 그리고 배양액 등의 환경요인을 인위적으로 조절하여 작물을 생산하는 시스템이다(Heo and Baek 2021). 식물공장 시스템을 이용하여 다양한 환경들을 효과적으로 조절함으로써 생장량 또는 이차 대사산물 함량을 증대시켜 부가가치를 높일 수 있으며 이에 대한 다양한 연구가 보고되고 있다(Shao et al. 2020). 특히 상추(Lactuca sativa L.)는 식물공장에서 가장 널리 재배되는 작물로서(Yoo and Jang 2003), 영양적 기능적 측면에서 전 세계적으로 중요한 엽채소이다(He et al. 2021). 상추의 대표적인 이차 대사산물인 안토시아닌은 빨간색, 보라색 등과 같이 표현형으로 나타내는 수용성 색소이며(Boldt et al. 2014), 고혈압, 시력 장애, 미생물 감염 및 암 증식 예방의 통제와 같은 건강상의 이점을 제공한다(Steidle Neto et al. 2017).
안토시아닌 성분을 분석하기 위해서는 고성능 액체 크로마토그래피(high performance liquid chromatography, HPLC)와 같은 기기를 통해 파괴적으로 분석할 수 있다. 그러나, 이러한 기기를 사용하기 위해서는 훈련된 분석자, 전문적인 장비 그리고 다양한 전처리 등의 기술 및 비용이 발생된다(Chowdhury et al. 2021). 이와 같은 문제를 해결하고자 비파괴적 분석 방법에 대한 시도가 이루어지고 있다(Simko et al. 2016; Choi and Lee 2020). 비파괴적인 분석에는 RGB, 다분광, 초분광 등의 이미지를 이용하는데 초분광 카메라는 센서의 파장 범위에서 최대 수백 개의 밴드로 구성되어 있기 때문에 보다 더 자세한 분석을 할 수 있지만(Thomas et al. 2018; Kanchanomai et al. 2020), 높은 가격으로 인해 재배면적이 큰 식물공장에서는 적용하기 어렵다는 단점이 있다. 하지만 초분광 카메라보다 비용이 저렴한 RGB 카메라에서 얻은 이미지의 매개변수를 이용하면 초분광 카메라로부터 생기는 단점을 보완할 수 있다(Cavallo et al. 2017; Baek et al. 2023).
이러한 배경을 바탕으로, RGB 이미지를 활용하여 컴퓨터 비전(Computer Vision)과 기계학습(Machine Learning)을 결합하여 기존 방법들의 단점을 보완할 수 있으리라 본다. 컴퓨터 비전은 이미지에서 매개변수와 같은 정보를 추출할 수 있는 인공지능의 한 분야로, 기계학습과 결합할 때 빠르고 비용 효율적인 높은 수준의 모델을 구현할 수 있다(Mogol and Gökmen 2014; Mochida et al. 2019). 최근 농업분야에서도 컴퓨터 비전과 기계학습을 결합한 연구가 진행되고 있으며, 이는 식물의 비파괴적 분석 방법에 대한 새로운 가능성을 열고 있다(Gehan et al. 2017; Rehman et al. 2019; Karki et al. 2024). 예를들어, 이미지의 평균 RGB값을 이용하여 망고의 성숙도를 분리하는 모델(Mustaffa and Khairul 2017), 스마트폰 카메라로 이미지 파라미터를 얻어 수생식물인 S. polyrhiza의 안토시아닌 함량을 분석할 수 있는 추정모델이 개발되었다(Tan et al. 2021). 이러한 연구로 인력자원과 작물 모니터링에 드는 시간을 대폭 줄일 수 있게 되었다(Buxbaum et al. 2022). 하지만 식물공장에서 사용하기에 알맞은 모델은 아직 보고 되지 않았다.
본 연구는 식물공장에서 재배한 상추의 이미지 데이터를 컴퓨터 비전과 기계학습들을 결합하여 적상추의 안토시아닌 함량을 비파괴적으로 예측할 수 있는 모델을 개발하고자 수행되었다. 이 과정에서, GPU 모듈을 활용하여 이미지 데이터를 고속으로 처리하고 분석하는 기능을 제공하는 OpenCV 라이브러리를 사용하여 이미지 처리 및 행렬 연산을 수행하였다(Wang et al. 2010; Pulli et al. 2012). 이미지 처리 과정에서 가장 중요한 배경분할은 GrabCut 알고리즘을 사용하였는데, 이 알고리즘은 ROI(Region of Interest)를 바탕으로 이미지를 지정된 ROI 영역만큼 자동으로 분할하기 때문에 보다 효율적이고 정확하게 이미지 분할을 수행할 수 있다(Boykov and Jolly 2001).
배경이 분할된 이미지를 해석하기 위해 주어진 데이터의 사전 정보 없이 적은 수의 이미지 데이터로도 가동이 가능한 K-means clustering 알고리즘을 사용했다. 이 비지도 학습 알고리즘은 유사한 특성을 갖는 데이터를 K개의 군집(Cluster)으로 분류한다. 실루엣 지수(Silhouette Index)는 군집의 품질을 측정하는 지표로 각 데이터 점에서 그 점이 속한 군집 내부와 가장 가까운 다른 군집과의 평균 거리를 계산하여 얼마나 군집이 잘 되었는지 정량적으로 확인하고 최적의 K값을 결정하여 데이터의 군집화를 보다 더 명확하게 수행할 수 있게 도와준다(Aranganayagi and Thangavel 2007; Tian et al. 2019; Sinaga and Yang 2020; Shahapure and Nicholas 2020). 마지막으로, 이미지 데이터에서 얻은 매개변수들로 종속변수가 1개 이상일 때 분석하기 용이한 모델인 다중선형회귀(Multiple Linear Regression)를 수행하여 예측 모델을 구축하였다(Hwang et al. 2021). 개발된 모델이 식물공장에 적용될 수 있다면 작물의 생육상태를 실시간으로 모니터링하여 작물 생산성과 이차대사산물 함량의 증대에 필요한 새로운 생육환경 제어 기술을 제공할 수 있을 것으로 기대된다.
재료 및 방법
재배환경 및 데이터 수집
본 연구에서는 재배실험을 통해 적상추의 이미지와 Total anthocyanin contents 데이터를 확보하였다. 상토재배 실험은 충남에 위치한 성호육묘장에서 적축면상추(Lactuca sativa L., ‘선풍포찹’) 본엽이 3매인 유묘를 구매하였다. 포트(지름 10cm, 600ml)에 원예용 상토로 채워 정식한 후, 적색과 청색 LED(Red: S12V24192R96R96, Blue: S7V27L168B84G84, SungKwang LED, Korea)를 이용하여 적색 LED조건에서 광강도 180 ± 10µmol·m-2·s-1로 2주간 육묘를 진행하였다. 이후 같은 광강도 조건에서 적/청색광의 비율(광합성유효광양자속밀도 기준)을 100:0, 70:30, 50:50, 30:70, 0:100 5처리구로 나누어 광주기 18/6시간(명/암), 온도 23/20 ± 1°C(주/야간), 상대습도 60 ± 10%로 2주간 재배하였고, Hoagland 양액을 이용하여 pH 6.5 ± 0.5, EC 1.5dS·m-1으로 2일 간격으로 저면관수를 실시하였다. 파괴적분석 전에 처리구별로 7주씩(n = 7) 지상부 탑뷰(Top view)를 RGB 카메라(EOS 450D, CANON, Japan)를 이용하여, 1128 × 752 픽셀의 이미지를 얻었다. 그 후, 적상추의 지상부 전체를 액체 질소로 급속 냉각한 후 동결 건조기(TFD5503, ilSinBioBase., Korea)를 사용하여 3일간 동결건조한 후 분말로 만들었다. 15ml Eppendorf tube에 건조시료 0.1g과 2ml의 추출용매(MeOH/Water/Acetic acid, 45:50:5 v/v/v)를 넣고 5분간 Vortex Mixer(SI-0246A, Cole-parmer, USA)로 잘 섞은 후 20분 동안 Ultrasonic Bath(power-sonic420, Hwashin Tech, Korea)에서 중간강도로 40°C, 20분 동안 음파 처리 했다. 이후, 원심분리기(Smart 15 plus, Hanil., Korea)를 이용하여 4°C에서 4,000rpm으로 20분간 원심분리된 시료의 상층액을 0.45µm, PTFE hydrophilic syringe filter(직경 13mm)로 여과했다. 마지막으로, 여과된 시료를 HPLC용 갈색 vial에 넣어 Total anthocyanin contents [Cyanidin-3-O-(6″-malonyl-bglucopyranoside) + Cyanidin-3-O-bglucopyranoside + Cyanidin-3-O-(6″- malonyl-b-glucopyranoside methyl ester)] 함량을 분석하였다.
적상추 안토시아닌 비파괴적 분석 모델 구성
이미지 전처리는 노트북(MacBook Air M1, APPLE, USA)을 사용하였으며 macOS Big Sur 운영체제에서 Python 3.8.5 버전과 Pandas 1.3.0, Scikit-learn 0.24.2 등의 라이브러리를 사용하였다. 전 처리한 데이터는 CSV 형식으로 제공되었으며, 비주얼 스튜디오 코드(Visual Studio Code, Microsoft, USA)를 사용하여 스크립트를 작성하였다.
빠른 알고리즘을 얻기 위해 이미지의 크기를 1128 × 752 에서 282 × 188로 축소했다. 축소한 이미지는 ‘GrabCut’ 알고리즘을 이용하여 적상추를 제외한 배경을 제외했다.
배경이 분할된 이미지를 ‘Yellowbrick’ 라이브러리로 실루엣 지수를 시각화하고 검증하기위해 각 처리구마다 한 개체씩 무작위로 선별하여 2, 3, 4, 5 중 가장 높은 실루엣지수를 나타내는 최적 K값을 확인하고, ‘K-means Clustering’ 알고리즘을 적용하여 색상 히스토그램을 구했다. 이 과정에서 색상 히스토그램에서 얻을수 있는 평균 RGB 매개변수와 최적 K값을 이용해 생성한 색상 히스토그램에서 가장 밝은 영역을 Brightest로 정의하고 RGB 매개변수를 얻고, 이 영역을 제외한 히스토그램의 비율을 ‘Darkness ratio’라고 정의하였다. 이렇게 얻은 RGB 매개변수들을 (Tan et al. 2021)의 연구에서 최고 성능을 보이는 조합들을 생성하여 총 17개의 매개변수를 CSV형식으로 저장하였다. 그 후 상관관계를 분석하고 높은 상관관계를 가지는 독립변수들을 선정하여 다중선형회귀를 통해 모델을 도출했다. 적상추 안토시아닌 비파괴적 분석 모델의 구성 방법론은 Fig. 1를 통해 확인할 수 있다.
결과 및 고찰
실험을 시작할 때 적상추의 안토시아닌은 표현형으로 나타내는 수용성 색소이기때문에(Boldt et al. 2014), 이미지를 이용하여 성분 분석에 접근이 가능할 것으로 가설을 세우고 실험에 접근했다. 적상추 탑뷰(top view) 이미지 35장과 안토시아닌 함량과의 매칭을 위해 OpenCV 라이브러리를 사용하여 이미지를 불러오고(Fig. 2A), ‘GrabCut’ 알고리즘을 적용하여 배경과 분할하고자 하는 ROI 영역을 파란색 박스로 표시하여(Fig. 2B), 안토시아닌 함량과 매칭하기 위한 적상추만 남기고 주변 배경은 제거 했다(Fig. 2C).

Fig. 2.
Example of image segmentation using the GrabCut algorithm. Images at the bottom and on the left include a color chart and a ruler for color correction and as a size reference, respectively: An image of the original red lettuce is shown at the top (A). The blue box indicates the ROI (region of interest) to segment the lettuce part from the original picture (B). The segmentation result after the application of the GrabCut algorithm is shown (C).
배경이 분할된 적상추의 이미지에서 안토시아닌 표현형 부분과 그렇지 않은 부분으로 군집화하기 위해 실루엣 지수를 통한 최적 군집 K값을 선정하고 색상 히스토그램을 구한후, 색상 히스토그램에서 얻을 수 있는 매개변수를 이용하여 다중회귀모델을 개발하고자하였다. 배경이 분할된 이미지 중 표현형이 적게 나타나는 적상추의 경우에는 K가 2일 때 실루엣 지수가 가장 높았고(Fig. 3), 표현형이 잘 나타난 적상추의 경우에는 K가 3일 때 실루엣 지수가 가장 높았다(Fig. 4). 이를 통해 각 처리구마다 한 개체씩 랜덤으로 선별하여 실루엣 지수를 얻었고 그 결과 평균 안토시아닌 함량이 높은, 즉 표현형이 잘 나타난 처리구들의 경우에는 K가 3일 때, 표현형이 잘 나타나지 않은 처리구들은 K가 2일 때 가장 높은 것을 확인할 수 있었다(Table 1). 이 결과는 복잡한 배경에서 잎을 분할해야 하는 연구에서 배경 조건이 다른 사진마다 최적 K값을 적용했을 때 분할이 잘되는 것과 같이, 최적 K값의 중요성을 확인할 수 있다(Tian et al. 2019).
Table 1.
Silhouette index results from the lettuce images as obtained from the experiment. The results when selecting one individual randomly for each treatment group are shown. The silhouette index is used to determine the optimal number of clusters
R100 | R70:B30 | R50:B50 | R30:B70 | B100 | |
A. Cont.z (mg/g) | 0.347 ± 0.026 | 2.746 ± 0.113 | 2.571 ± 0.104 | 3.228 ± 0.199 | 0.821 ± 0.041 |
K = 2, SIy | 0.688 | 0.552 | 0.569 | 0.528 | 0.618 |
K = 3, SI | 0.566 | 0.568 | 0.572 | 0.529 | 0.560 |
K = 4, SI | 0.529 | 0.530 | 0.525 | 0.520 | 0.537 |
K = 5, SI | 0.501 | 0.507 | 0.512 | 0.502 | 0.510 |
최적 K에 의해 생성된 색상 히스토그램에서 얻을 수 있는 매개변수 중 ‘Darkness ratio’를 제외한 매개변수 중 ‘Brightest, 2G-R’이 총 안토시아닌 함량과 가장 높은 상관관계를 나타냈다(Fig. 5). 이 결과는 (Tan et al. 2021)의 연구에서 물풀의 안토시아닌 함량을 RGB 매개변수를 이용해서 비파괴적 분석에 접근했을 때 ‘2G-B’에서 가장 높은 상관관계 값이 나온 것과 다른 결과를 나타냈지만, 이는 식물체마다 색상 및 밝기 관련 지표는 분석한 식물 조직 및 종에 따라 다양한 결과를 나타내기에 식물체마다 다른 매개변수 조합으로 접근해야 하는 것으로 판단된다(Del Valle et al. 2018). 높은 상관관계 값을 나타내는 ‘Darkness ratio’, ‘B’, ‘RB/(R+G+B)’, ‘Brightest, G’, ‘Brightest, 2G-R’, ‘Brightest, 2G-B’ 6개의 매개변수들의 조합 64가지 중 가장 높은 결정계수를 가지는 ‘B’, ‘RB/(R+G+B)’, ‘Brightest, 2G-R’값을 이용하여 훈련 데이터셋 : 테스트 데이터셋 = 0.7 : 0.3 비율로 다중선형회귀한 결과 결정계수 값 0.953(RMSE: 0.209)라는 높은 수준의 모델이 도출되었다(Fig. 6).

Fig. 6.
Prediction of the multiple linear regression model with three selected independent variables and with the total anthocyanin content as the dependent variable. The model is based on a dataset of 35 red lettuce samples. The three independent variables in this model are x1 = ‘B’, x2 = ‘RB/(R+G+B)’, and x3 = ‘Brightest, 2G-R’. The line shown in this figure represents the trend line, which indicates the general direction of the data according to the regression model.
파괴적 분석방법의 경우 노동 집약적이고 시간과 비용이 많이 드는 단점이 있어 이를 해결하기 위해 비파괴적인 방법으로 식물체를 분석하려는 시도들이 이미 있었고 그 중 하이퍼스펙트럴 이미지 접근 방법은 효과적인 성능을 보여주었다(Xue and Yang 2009; Simko et al. 2016). 표현형으로 나타나는 식물을 분석할 때, 하이퍼스펙트럴 카메라와 같은 고가의 광학 센서를 사용하는 접근 방식은 파괴적 분석 방법에 비해 신속하게 적용 가능하다는 장점이 있다(Simko et al. 2016). 그러나 고가의 하이퍼스펙트럴 카메라는 소규모 개인 실험에는 용이한 방식일 수 도 있으나 대규모로 재배하는 식물공장에서 적용하기 어렵기에 식물공장에서 활용할 수 있는 모델은 아직 보고 되지 않았다. 최근 컴퓨터 비전 분야의 발전으로 인해 RGB 이미지를 기반으로 기계학습을 이용하여 다양한 문제에 접근하는 연구가 진행 중이다(Rehman et al. 2019). 이 접근 방식은 비용이 저렴한 RGB 카메라를 사용하기 때문에 대규모 작물 재배 환경인 식물공장에 적용할 수 있을 것으로 생각된다.
본 연구는 RGB 이미지 기반의 적상추의 안토시아닌 함량을 비파괴적 분석을 위해 지상부 탑뷰(Top view)이미지를 기반으로 기계학습 알고리즘을 적용하여 모델을 개발했고, 상추의 안토시아닌 함량을 파괴적분석과 달리 저렴한 비용으로 분석할 수 있는 잠재적 방법임을 확인 할 수 있었다.
식물의 성분 분석은 생육의 척도를 확인하고 정량적인 성분을 분석하여 식물의 특성과 효능을 평가하고 소비자가 정보를 알고 이용하는 데 중요하다. 따라서 본 연구에서 제시한 이미지 기반의 안토시아닌 함량을 비파괴적으로 분석할 경우 시간과 자원이 절약될 수도 있으며, 현장에서 재배 중인 엽채류의 함량 분석을 유추할 수 있으며 이러한 데이터가 개인 맞춤형 샐러드 공급을 위한 서비스에도 활용될 수 있다고 생각된다.