-
새로운 프로젝트의 시작단계에서, 특히 프로젝트 분야가 전문성을 요구하여 이해가 어려운 경우에, 어떤 방향이 가장 유망하게 진행되어야 할 지를 올바르게 추측하기란 매우 어렵다.
-
그러니까 처음부터 완벽한 시스템을 설계하고, 개발하려고 하지 말자. 대신에, 가능한한 빠르게, 수일 이내로, 기본적인 시스템을 구현하고 학습시켜 보자. 그리고 나서, 가장 유망한 방향성 찾는데 에러 분석 방법을 사용하고, 설정된 방향에서 반복적으로 알고리즘을 수행하여 성능을 향상시키도록 노력하자.
-
개발 데이터셋에 존재하는 100개에 대한 에러 분석을 하나하나 수작업으로 수행해 보자. 이 100개의 개발 데이터셋은 개발중인 알고리즘이 잘못 분류한 데이터이면서 동시에 에러를 야기한 주요 카테고리여야 한다. 이 정보를 사용해서 개선이 필요한 에러종류들 간의 우선순위를 정할 수 있다.
-
실제로 전체 개발 데이터셋을 수작업으로 관찰해야하는
눈알
데이터셋과, 관찰 대상이 아닌블랙박스
데이터셋으로 분리해 보는 것을 고려해 보자.눈알
개발 데이터셋에 대한 성능이블랙박스
개발 데이터셋에 대한 성능보다 월등히 좋다면,눈알
개발 데이터셋에 대하여 과적합이 발생한 것이므로눈알
개발 데이터셋에 더 많은 데이터를 추가해 볼 것을 고려해 보자. -
눈알
개발 데이터셋은 충분히 커야만 하는데, 그 이유는 에러가 발생한(분석 대상이 되는) 충분한 양의 데이터를 얻기 위해서는 일단 알고리즘이 분류 작업을 수행하고 여기서 에러가 발생된 데이터를 수집해야 하기 때문이다. 1,000 ~ 10,000개블랙박스
개발 데이터셋에 대한 양은 대부분의 어플리케이션에 수준에서 보면 충분한 양이다. -
개발 데이터셋이 위의 방법으로 분리 되기에 충분한 양이 아니라면, 전체 개발 데이터셋을
눈알
개발 데이터셋으로 규정하고, 이에 대하여 수작업의 에러분석, 모델선택, 하이퍼파라메터 튜닝 작업을 수행하도록 하자.