일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- PostgreSQL
- 리눅스
- github
- 호이스팅
- mssql
- Javascript
- DBMS
- 명령어
- isempty
- Kibana
- java
- docker
- analytics4
- mysql
- SQL
- 자바
- pem
- isNotEmpty
- Linux
- iBatis
- spring
- 오블완
- IntelliJ
- MongoDB
- pandas
- git
- MariaDB
- Python
- oracle
- 티스토리챌린지
- Today
- Total
목록pandas (7)
hanker

이번 글에서는 pandas에서 문자열을 변환하고 처리하는 여러 방법에 대해서 알아보자. 1. 대소문자 변환 - 소문자 변환 : .str.lower()- 대문자 변환 : .str.upper()- 첫 글자만 대문자로 변환 : .str.title() 1-1. 소문자로 변환import pandas as pddata = { "name": ["Alice", "Bob", "Charlie", "David", "Eva"], "city": ["New York", "London", "Paris", "Berlin", "Tokyo"], "score": ["85", "90", "78", "88", "95"]}df = pd.DataFrame(data)df['name_lower'] = df['name'].str.lo..

데이터를 다룰 때 중복된 행이 존재하면 분석의 정확성이 떨어진다.pandas에서는 drop_duplicates() 메서드를 사용하여 손쉽게 중복 데이터를 제거할 수 있다. 이번 글에서는 drop_duplicates()의 사용법과 활용 방법에 대해서 알아보자. 1. drop_duplicates() pandas의 drop_duplicates()는 데이터프레임에서 중복된 행을 제거하는 메서드이다.DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)subset : 중복 여부를 확인할 열을 지정 (기본 값 None → 모든 열을 기준으로 중복 확인)keep : 중복된 행이 있을 때 남길 행을 선택first (..

pandas에서는 sort_values() 메서드를 사용하여 데이터를 원하는 기준에 따라 정렬할 수 있다. 이번 글에서는 sort_values() 메서드의 사용법을 알아보자. 1. sort_values() pandas의 sort_values()는 특정 열(column)을 기준으로 데이터를 정렬할 때 사용된다.DataFrame.sort_values(by, axis=0, ascending=True, inplace=False)- by : 정렬 기준이 될 열(컬럼) 또는 여러 개의 열을 리스트로 지정- axis : 0이면 행 기준 정렬(기본값) , 1이면 열 기준 정렬- ascending : True 면 오름차순 (기본값), False 면 내림차순- inplace : True 면 원본 데이터프레임이 변경된다. ..
ValueError: time data "" doesn't match format "%Y-%m-%d", at position 1. You might want to try: 해당 오류는 pandas.to_datetime을 사용할 때 날짜 문자열이 예상 형식과 일치하지 않을 때 발생한다. 해결방법 1. 정확한 날짜 형식 지정하기df['date'] = pd.to_datetime(df['date'], format="%Y/%m/%d")format에 정확한 날짜 형식을 지정해준다. 2. 다양한 형식의 날짜가 섞여 있는 경우df['date'] = pd.to_datetime(df['date'], format='mixed')다양한 형식의 날짜가 섞여 있을 경우, format='mixed'를 사용하여 각 날짜의 형식을 ..

데이터 분석을 할 때, 데이터의 정확한 타입을 확인하고 필요에 따라 변환하는 과정은 매우 중요하다.잘못된 데이터 타입은 계산 오류나 분석 결과의 왜곡을 초래할 수 있기 때문에, pandas에서는 다양한 메서드와 함수를 제공한다. 이번 글에서는 pandas의 데이터 타입을 변환하는 방법에 대해서 알아보자. 1. astype() 메서드로 데이터 타입 변환 astype() 메서드는 데이터프레임이나 시리즈의 데이터 타입을 원하는 타입으로 변환할 때 많이 사용된다.단일 열뿐 아니라 여러 열을 한 번에 변환할 수도 있다. 1-1. 단일 열 변환문자열로 저장된 숫자들을 정수형으로 변환import pandas as pd# 예제 DataFrame 생성df = pd.DataFrame({ 'A': ['1', '2', ..

raise ValueError("The number of derivatives at boundaries does not " f"match: expected {nt-n}, got {nleft}+{nright}")ValueError: The number of derivatives at boundaries does not match: expected 1, got 0+0 위 오류 메시지는 polynomial이나 spline 보간을 수행할 때, 경계에서 제공된 도함수 조건의 수가 내부적으로 기대하는 수와 일치하지 않을 때 발생한다. 1. 발생 원인 1-1. 데이터 포인트 부족- 보간 대상 열에 유효한(결측치가 아닌) 값이 너무 적어 지정한 차수(order)를 만족할 만큼 경계 ..

데이터를 분석하기 전에 전처리(data preprocessing) 과정이 필수적이다.데이터는 종종 누락(missing value), 이상치(outliers), 데이터 형식 불일치 등의 문제를 가지고 있으며, 이를 정리해야 정확한 분석과 머신러닝 모델 학습이 가능하다. 데이터에는 종종 비어 있는 값(결측 치, NaN)이 존재할 수 있다.Pandas는 결측값을 쉽게 탐지하고 처리할 수 있는 다양한 함수를 제공한다. 이번 글에서는 Pandas를 활용한 결측치 처리 방법에 대해서 알아보자! 1. 결측치 확인 각 요소가 결측치인지 확인하여 불리언 series/DataFrame을 반환한다.import pandas as pdimport numpy as npdf = pd.DataFrame({ 'A': [1, 2..