EDA 음성 데이터 분석

EDA?

: Exploratory Data Analysis (탐색적 데이터 분석)

수치 요약과 시각화를 사용하여 데이터를 탐색하고 변수 간 잠재적 관계를 찾아내는 프로세스

데이터를 분석하고 결과를 내는 과정에 있어서 지속적으로 해당 데이터에 대한 ‘탐색과 이해’를 기본으로 가져야 한다!

https://www.jmp.com/ko_kr/statistics-knowledge-portal/exploratory-data-analysis.html

https://jalynne-kim.medium.com/데이터분석-기초-eda의-개념과-데이터분석-잘-하는-법-a3cac2cc5ebc

import librosa
import librosa.display as dsp
from IPython.display import Audio
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

분석 환경

WAV 파일 EDA

오디오 시각화하기

train = pd.read_cvs('data/train.csv')

def get_audio(num = 0):
    # Audio Sample Directory
    sample = os.listdir('data/train')
    temp = train[train.label == num].file_name
    file_name = temp[temp.index[0]]
    
    file = 'data/train/' + file_name
    # Get Audio from the location
    data,sample_rate = librosa.load(file)
    
    # Plot the audio wave
    dsp.waveshow(data,sr=sample_rate)
    plt.show()
    
    # Show the widget
    return Audio(data=data,rate=sample_rate)

os.listdir() 지정한 디렉토리 내의 모든 파일과 디렉터리의 list를 리턴

librosa.load() 해당 위치의 오디오 파일을 로드.

→ data : audio time series. (배열형태, 연속신호 → 디지털 형태로) → sample_rate : target sampling rate (얼마나 촘촘히 샘플링을 했는지!)

Untitled

https://librosa.org/doc/main/generated/librosa.load.html

https://bigdaheta.tistory.com/89