상세 컨텐츠

본문 제목

Pandas DataFrame는 각 요소로 numpy 배열을 가질 수 있을까?

프로그래밍/Python

by 척척석사 민준 2023. 3. 4. 20:29

본문

728x90

데이터 프레임안에 array를 넣을 수 있을까?

측정 데이터를 가공하지 않고 그 자체를 array 배열로 학습데이터를 만들어서 회귀나 분류를 할 수 있지 않을까? 하는 생각을 했다.

넘파이를 이용해 Array 배열을 만들고 이를 판다스 데이터프레임에 요소로서 넣었다.

그 결과 각 행에 넘파이 어레이가 들어갔다.

각 행의 데이터 타입은 Object 타입이다.


왜 어레이를 데이터 프레임에 넣으려고 하는가?

데이터 프레임을 엑셀처럼 사용했기 때문에 어레이를 데이터프레임 안에 넣는다는 생각은 뭔가 어색했다.

하지만 측정한 센서데이터 자체를 학습데이터로 사용해 머신러닝을 학습시키기 위해 이런 방법을 시도하고 있다.

기존의 ML모델 학습방법은 이러했다.

  1. 센서데이터를 가공해 어떤 물리량을 계산한다
  2. 물리량을 요소(columns)로 가지는 학습데이터를 만든다
  3. 여러 물리량의 조합으로 플라즈마의 상태/모드를 진단

시도하고자 하는 ML모델 학습방법은 다음과 같다.

  1. 센서데이터 자체를 각각 Array 배열로 만든다.
  2. 각 센서데이터 배열과 계산된 물리량을 학습시킨다
  3. 물리량을 회귀값으로 예측해 물리량을 계산하는 과정을 ML모델로 대신한다
  4. 계산된 물리량과 센서데이터를 모두 학습시켜 플라즈마 상태/모드를 진단.

물리량을 계산하는 과정이 꼭 필요한 지는 모르겠다. 데이터 학습의 관점에선.. 오히려 상관관계가 높은 요소를 중복해서 계산하는 꼴인지...일단 시도해보자

728x90

관련글 더보기