데이터는 비교하려고 있는거야

프로그래밍/Data&ML

by 척척석사 민준 2020. 10. 6. 21:20

728x90

데이터 분석에서 가장 기본은 무엇일까?

데이터는 왜 필요할까?

과학과 공학분야에서 뿐만 아니라 출판업계나 음반업계와 같은 다양한 분야에서 데이터라는 말을 사용하고 있다.

SNS에서 국민은행 채용 관련된 서류전형을 보고 기겁할 뻔했다. IT업계도 아닌 (심지어 국민은행은 자사앱도 통일못하고 있음...) 은행원 뽑는데 데이터를 이해하고 활용하는 능력이 필요하다고 이런 공고를 내놨다.

앞으로 데이터를 이해하고 분석하는 능력이 없으면 어디서 밥벌어먹기도 힘들어 질 것 같다.

데이터는 왜 필요할까? 그건 시대상황이 말해주듯 데이터를 볼 줄 모르면 밥벌어먹고 살기 힘들기 때문이다. 반대로 데이터를 잘 다루는 나스닥의 거대 기업들은(구글, 넷플릭스, 페이스북 등등) 수조원의 돈을 데이터를 이용해 벌어먹고 있다. 데이터가 돈이 되는 시대인 것이다.

데이터가 돈이랑 직결되어있는 현대사회에서 가장 중요한 것이면, 데이터는 어떻게 보고 어떻게 분석해야하는가? 결국 데이터 분석의 기초는 무엇인가?

데이터에 관한 짧은 일화

앞으로의 밥벌이가 막막한 대학원생은 오늘도 박사에게 한바탕 깨졌다.

불쌍한 그는 왜 불려가 삼십분이 넘는 설교를 들어야 했을까?

위의 두 그래프를 보자.

오른쪽과 왼쪽은 같은 플라즈마소스에 대하여 다른 날 전류와 전압을 측정한 데이터이다. 무엇이 문제일까?

이런걸로 후배를 삼십분씩 괴롭혀본 사람이라면 관찰력 좋게 무엇이 문제인지 알아냈을 것이다.

오른쪽과 왼쪽은 대충봐선 비슷해보인다.

빨간축을 중심으로 찬찬히 비교를 해보자.

왼쪽은 전압이 -2 kV에서 +2 kV로 축설정이 되어있고,

오른쪽은 전압이 - 1 kV에서 +1 kV로 축설정이 되어있다.

파란색 축도 마찬가지로 축설정이 다르다.

즉 왼쪽과 오른쪽은 크기가 50% 정도 차이가 나는 데이터인 것이다.

좋은 데이터는 비교하기가 좋은 데이터이다.

나쁜 데이터는 비교하기가 힘든 데이터이다.

왜냐하면 실험의 목적은 조건이 변화함에 따라 바뀌는 대상의 특징(종속변수)를 알아내기 위함이기 때문이다.

따라서 실험을 한다는 것은 역으로 생각하면 종속변수에 영향을 줄 수 있는 다른 조건들을 철저하게 통제하는 것이라고도 할 수 있다. (독립변수를 통제해야한다고도 한다)

데이터는 비교하기 위한 것이다

데이터 분석과 관련된 자료를 찾아보면 책부터 해서 많은 자료가 쏟아져 나온다.

데이터를 분석하고 인사이트를 얻는 것에 관심이 모이기 때문이다.

빅데이터나 딥러닝과 같은 신기술들이 데이터분석이라는 이름을 달고 나와서 데이터분석이 굉장히 전문적이고 복잡한 영역으로 보여진다.

그렇지만 결국 데이터 분석의 본질은 비교하는 일이다.

컴퓨터 살때 가격비교 하듯이 다른 조건이 같을 때 어떤 게 다른지를 면밀하게 분석하는 것이 데이터를 분석하는 것이다.

이런저런 사설이 길었지만, 하고 싶은 말은 이거다.

박사한테 그래프나 숫자, 표 같은거 보낼때는 조심해야 한다는 것이다.

바쁘다고 대충보고 보내면 안바쁜 박사들은 꼼꼼하게 보고 꼼꼼하게 혼낸다.

항상 축과 숫자 같은거 주의깊게 보길바란다.

그런의미에서 조만간 파이썬에서 축설정하는 걸 정리할 생각이다...

728x90

'프로그래밍 > Data&ML' 카테고리의 다른 글

[머신러닝 커닝 페이퍼] 분류를 위한 결정트리모델의 모든 것 1편 (0)	2022.12.01
[머신러닝 커닝 페이퍼] 메서드 연결 y_pred = dt_clf(X_train, y_train).predict(X_test) (0)	2022.12.01
[머신러닝 커닝 페이퍼] train_test_split : random_state는 대체뭐야? 왜 X는 대문자고 y는 소문자야? (0)	2022.11.29
Numpy array 내용을 편집해보자(np.delete, np.insert) (0)	2022.05.12
제조 분야에서의 인공지능을 어떻게 도입하고 활용하고 있을까? (0)	2021.07.09