이 글을 읽으면
- Model 학습 및 평가, 테스트에 사용되는 Dataset에 파일을 추가하는 방법에 대해 알아봅니다.
사전 작업 및 준비
- SparklingSoDA 메뉴 중 Dataset 에 접속합니다.
- Dataset에 추가할 파일을 준비합니다.
1. 메뉴에서 Dataset 생성
초기 Dataset 생성
① Dataset에 접속합니다.
② Dataset의 범주를 선택하는 것으로, Dataset이 사용되는 Project와 동일하게 선택합니다.
③ Dataset을 사용 / 관리 할 수 있는 사용자의 범위를 선택합니다.설정 값 설명 public SparklingSoDA 의 모든 사용자가 사용 할 수 있습니다. group Dataset을 추가한 사용자와 동일 Group의 사용자만 사용 할 수 있습니다. private Dataset을 추가한 사용자만 사용 할 수 있습니다.
④ Model 학습 및 평가, 테스트에 사용할 File을 Upload합니다.
→ Zip 형식의 파일만 지원하며 다른 형식의 파일은 Upload 할 수 없습니다.
2. Dataset 메뉴에서 file 추가
File 추가하기
① Files
- Dataset에 등록된 File의 리스트가 표시됩니다.
- 초기에 등록된 Zip 파일은 자동으로 압축 해제된 후 Data File만 등록됩니다.
② Insert
- 파일을 추가합니다.
- 등록되었는지 확인
3. Project - Notebook 내에서 Dataset 관리
- 기존 project에서 jupiter 또는 VSCode Notebook 에 접속합니다.
- 터미널을 열어줍니다.
- soda-cli 명령어를 사용하여 Dataset을 Minio server에 추가하여 줍니다.
> [추가 할 Dataset이 위치할 경로]의 마지막에 Dataset 이름이 자동 추가되어 적용됩니다.
> 따라서, 설정한 경로의 하위에 Dataset 이름의 디렉토리가 있어야 합니다.
> Notebook의 local 경로에서 추가할 파일 확인soda-cli upload-ds -d [생성할 Dataset name] -p /[추가 할 Dataset이 위치할 경로]/
> 확인
파일 추가하기
> Drag & Drop
마치며
- Notebook에 설정된 Dataset은 Project 내에서 서로 공유됩니다.
- Dataset에 추가하거나 삭제된 Data File은 해당 Dataset을 사용하는 Notebook이 새로 생성될 때 자동으로 반영됩니다.
- 자세한 사항은 DataSet CLI로 등록하기를 확인해 주시기 바랍니다.
아티클이 유용했나요?
훌륭합니다!
피드백을 제공해 주셔서 감사합니다.
도움이 되지 못해 죄송합니다!
피드백을 제공해 주셔서 감사합니다.
피드백 전송
소중한 의견을 수렴하여 아티클을 개선하도록 노력하겠습니다.