본문 바로가기

전체 글22

[Linux] 리눅스 tar.gz 압축 및 해제 방법 용량이 큰 파일은 github에 올리지 못하다보니, csv를 따로 저장해야하는 일이 생겼다. 하지만 데이터가 너무 많아서 이를 일일히 저장하기 어려웠다. 그래서 linux에서 csv를 한 번에 찾아서 저장할 수 있는 방법을 찾아보았다. tar(타르) 파일이란?다수의 파일을 디렉토리 구조, 파일 속성 등을 보존하면서 하나의 파일로 묶는 데 사용되는 파일 형식으로, tar.gz는 tar로 tar로 묶인 파일을 추가로 gzip으로 압축한 파일이다. 파일을 묶는 것과 동시에 압축을 하여 파일 크기를 줄이는 데 유용하다. tar.gz로 압축하기tar -zcvf [파일명.tar.gz] [폴더명] csv파일만 tar.gz로 압축하기tar -czvf csv_files.tar.gz $(find . -name "*... 2025. 4. 25.
[Linux] SLRUM 스케줄러 설명 Slrum(슬럼)이란?: 대규모 컴퓨팅 클러스터에서 작업(job)을 관리하고 스케줄링하는 오픈소스 작업 관리자(Job Scheduler). 리눅스 기반 클러스터에서 활용되는 스케줄러로, 서버 여러대에 있는 GPU등의 리소스를 효율적으로 쓰도록 함. Slurm Workload Manager - Quick Start User GuideQuick Start User Guide Overview Slurm is an open source, fault-tolerant, and highly scalable cluster management and job scheduling system for large and small Linux clusters. Slurm requires no kernel modifications.. 2025. 3. 27.
[ML] 데이터 스케일링(Data Scaling) 종류 비교 1. 스케일링이란?머신러닝에서 각 특성(feature)의 값 범위를 일정하게 조정하는 과정데이터의 크기(scale)를 맞춰 모델이 특정 변수에 의해 영향을 받지 않도록 조정하는 것거리 기반 알고리즘(KNN, SVM 등)과 선형 모델(로지스틱 회귀, 선형 회귀 등)에서 중요 2. 스케일링을 하는 이유머신러닝 알고리즘이 변수의 단위와 크기에 영향을 받지 않도록 조정모델의 학습 속도 향상 및 수렴 속도 개선특성이 서로 다른 크기를 가질 때, 가중치(weight)의 균형 유지거리 기반 모델(KNN, SVM 등)에서 거리 계산 시 한 특성이 지나치게 영향을 주는 것을 방지KNN은 유클리드 거리(Euclidean Distance)를 이용하여 데이터를 분류하는 알고리즘이므로, 변수의 스케일이 다르면 거리에 영향을 미.. 2025. 2. 10.
[Linux] 가상환경 별 서버 사용량 확인 1) Conda 환경 폴더의 용량 확인-s: 각 환경의 총 크기만 표시-h: 사람이 읽기 쉬운 형식으로 출력user 부분을 각 사용자 이름으로 바꾸면 됨 du -sh /home/user/anaconda3/envs/*  2) 용량을 크기 순으로 정렬가장 작은 환경부터 큰 환경 순으로 정렬하여 보여줌| tail -20: 추가하면 가장 많은 용량을 차지하는 환경을 찾을 수 있음du -sh /home/user/anaconda3/envs/* | sort -h  3) 전체 디스크 용량 및 남은 공간 확인df -h ~: 홈 디렉토리 내에서 용량을 확인하려면 '~' 추가df -h  4) Conda 환경 폴더가 위치한 디스크의 남은 공간 확인df -h /home/user/anaconda3/envs/ 2025. 2. 10.