DL 구분 (2)

1. 데이터 형식에 의한 구분

정형 데이터

비정형 데이터

이미지/동영상

텍스트

음성

  • 정형 데이터 : 구조화된 정보로 저장되어 있는 데이터

표의 형태로 표현이 가능함 (ex. excel)

주로 회귀, 분류 task를 수행한다.

DL은 ML에 비해 정형 데이터를 좀 비효율적으로 학습해서 굳이..?

  • 컴퓨터 비전 : 이미지나 동영상 데이터를 받는 AI

입력은 이미지이지만, 출력은 정형데이터 (분류/회귀) 혹은 또 다른 이미지일 수 있다.

ex. 성별 인식 > 이미지 입력, 성별 출력

ex. 이미지 복원 > 이미지 입력, 이미지 출력

  • 자연어 처리 : 입력으로 텍스트 데이터를 받는 AI

생성 : 주어진 글에 이어서 문장 작성

분류 : 혐오적인 표현 존재 여부

생성 : 다른 나라 언어로 번역

분류 : 글에서 느껴지는 감정 분류

원래는 위의 task 별로 별도의 모델을 만들어야했지만, 이젠 LLM의 등장으로 하나의 모델로 대응이 가능하다. (SW 3.0)

  • 음성 인식/생성

음성 인식 : 음성 데이터가 입력인 AI

출력이 text이므로 자연어 처리와 함께 사용되는 경우가 많음

ex. 음성 글자 인식, 음성 감정 분류, 음성 나이 인식, 음성 화자 분류

음성 생성 : 음성 데이터가 출력인 AI

주어진 글에 맞는 음성 신호 생성

2. task 종류에 의한 구분

크게 인식 및 생성으로 나눈다.

인식 : 입력으로 비정형 데이터, 출력은 비정형 데이터에서 추출된 정보(정형화 가능)

생성 : 입력은 비정형 데이터/의도된 정보, 출력은 의도된 정보가 담긴 비정형 데이터

생성 모델의 역사

이미지 생성

GAN (Generative Adversarial Network) 2014

맨 처음으로 만들어졌으나, 의도적인 이미지를 만들 수 없어 상용화 x (통제력 x)

DALL-E (OpenAI, 2021)

통제력 달성

Stable Diffusion (Stability, 2023)

상업적 이용가능, 오픈소스

관련 산업이 급격히 성장함, 다만 promp engineering이 필요

텍스트 생성

2018 부터 LLM 기술이 개발되기 시작함