DL 구분 (2)
1. 데이터 형식에 의한 구분
정형 데이터
비정형 데이터
이미지/동영상
텍스트
음성
- 정형 데이터 : 구조화된 정보로 저장되어 있는 데이터
표의 형태로 표현이 가능함 (ex. excel)
주로 회귀, 분류 task를 수행한다.
DL은 ML에 비해 정형 데이터를 좀 비효율적으로 학습해서 굳이..?
- 컴퓨터 비전 : 이미지나 동영상 데이터를 받는 AI
입력은 이미지이지만, 출력은 정형데이터 (분류/회귀) 혹은 또 다른 이미지일 수 있다.
ex. 성별 인식 > 이미지 입력, 성별 출력
ex. 이미지 복원 > 이미지 입력, 이미지 출력
- 자연어 처리 : 입력으로 텍스트 데이터를 받는 AI
생성 : 주어진 글에 이어서 문장 작성
분류 : 혐오적인 표현 존재 여부
생성 : 다른 나라 언어로 번역
분류 : 글에서 느껴지는 감정 분류
원래는 위의 task 별로 별도의 모델을 만들어야했지만, 이젠 LLM의 등장으로 하나의 모델로 대응이 가능하다. (SW 3.0)
- 음성 인식/생성
음성 인식 : 음성 데이터가 입력인 AI
출력이 text이므로 자연어 처리와 함께 사용되는 경우가 많음
ex. 음성 글자 인식, 음성 감정 분류, 음성 나이 인식, 음성 화자 분류
음성 생성 : 음성 데이터가 출력인 AI
주어진 글에 맞는 음성 신호 생성
2. task 종류에 의한 구분
크게 인식 및 생성으로 나눈다.
인식 : 입력으로 비정형 데이터, 출력은 비정형 데이터에서 추출된 정보(정형화 가능)
생성 : 입력은 비정형 데이터/의도된 정보, 출력은 의도된 정보가 담긴 비정형 데이터
생성 모델의 역사
이미지 생성
GAN (Generative Adversarial Network) 2014
맨 처음으로 만들어졌으나, 의도적인 이미지를 만들 수 없어 상용화 x (통제력 x)
DALL-E (OpenAI, 2021)
통제력 달성
Stable Diffusion (Stability, 2023)
상업적 이용가능, 오픈소스
관련 산업이 급격히 성장함, 다만 promp engineering이 필요
텍스트 생성
2018 부터 LLM 기술이 개발되기 시작함