[태그:] I2M2

  • 논문리뷰: I2M2 프레임워크

    1. 모달 MODAL 이란 무엇인가?

    MODAL은 정보의 표현 방법이라고 할 수 있다. 예를들어 텍스트, 음성, 이미지 각각이 하나의 MODAL이 될 수 있다.

    2. I2M2프레임 워크의 주요 개념

    MULTIMODAL(= 여러개 모달, 예를들어 텍스트+음성,텍스트+ 이미지 등)에 대한 예측모델을 이야기한다.

    기존의 모델에서는 이 여러개 모달의 결합에 대한 학습만을 사용한다.

    I2M2에서는 여러개 모달의 결합 뿐만이 아니라 각각의 모달에서도 내재적인 의미를 갖는다 보고, 각각의 모달에 대한 학습또한 고려한다.

    결국 각각의 모달에 대한 분류기와 다중 모달에 대한 분류기를 통합하여 최종 예측을 하는 프레임 워크라고 볼 수 있다.

    기존과 달리 Modal각각에 대한 예측모델과 Modal들을 결합한 예측모델을 각각 학습시키고, 최종적으로 이 각각 학습된 모델의 예측값을 모두 활용하여 예측값을 계산하는 것이다.

    이 값에 p(y)를 곱한 후 정규화 시켜 최종 예측값을 계산한다.

    여기서 x는 modal 1,x’은 modal2로 볼 수 있고 따라서 각각의 분류기의 예측값을 곱한값에 비례한 값이 최종 예측값으로 결정된다고 볼 수 있다.

    3. 수학적 안정성

    i2m2모델에서 결과에 크게 관여하는 분류기는 정규화 과정에서 최종 예측값에 크게 기여하게되며 결과에 영향을 미치지 않는 분류기는 정규화 과정에서 소거되어 최종예측값에 기여하지 않게 된다. 따라서 자연스럽게 영향력이 높은 분류기가 최종예측값에 크게 기여하게 된다.

    4. 실제 효용성

    i2m2모델은 각각의 모달만을 이용한 분류기 또는 결합한 모달에 대한 분류기와의 비교하였을때 더 높은 AUROC을 보였다.