[EDA] 음성 데이터 분석 입문자를 위한 데이터 살펴보기
: Exploratory Data Analysis (탐색적 데이터 분석)
수치 요약과 시각화를 사용하여 데이터를 탐색하고 변수 간 잠재적 관계를 찾아내는 프로세스
데이터를 분석하고 결과를 내는 과정에 있어서 지속적으로 해당 데이터에 대한 ‘탐색과 이해’를 기본으로 가져야 한다!
https://www.jmp.com/ko_kr/statistics-knowledge-portal/exploratory-data-analysis.html
https://jalynne-kim.medium.com/데이터분석-기초-eda의-개념과-데이터분석-잘-하는-법-a3cac2cc5ebc
import librosa
import librosa.display as dsp
from IPython.display import Audio
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
분석 환경
오디오 시각화하기
train = pd.read_cvs('data/train.csv')
def get_audio(num = 0):
# Audio Sample Directory
sample = os.listdir('data/train')
temp = train[train.label == num].file_name
file_name = temp[temp.index[0]]
file = 'data/train/' + file_name
# Get Audio from the location
data,sample_rate = librosa.load(file)
# Plot the audio wave
dsp.waveshow(data,sr=sample_rate)
plt.show()
# Show the widget
return Audio(data=data,rate=sample_rate)
os.listdir() 지정한 디렉토리 내의 모든 파일과 디렉터리의 list를 리턴
librosa.load() 해당 위치의 오디오 파일을 로드.
→ data : audio time series. (배열형태, 연속신호 → 디지털 형태로) → sample_rate : target sampling rate (얼마나 촘촘히 샘플링을 했는지!)
