일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 호이스팅
- java
- docker
- Linux
- iBatis
- git
- Kibana
- DBMS
- oracle
- mysql
- SQL
- MongoDB
- 티스토리챌린지
- 자바
- MariaDB
- IntelliJ
- analytics4
- github
- PostgreSQL
- Python
- 리눅스
- 오블완
- isempty
- pem
- pandas
- mssql
- isNotEmpty
- spring
- Javascript
- 명령어
- Today
- Total
목록Python (19)
hanker

이번 글에서는 pandas에서 문자열을 변환하고 처리하는 여러 방법에 대해서 알아보자. 1. 대소문자 변환 - 소문자 변환 : .str.lower()- 대문자 변환 : .str.upper()- 첫 글자만 대문자로 변환 : .str.title() 1-1. 소문자로 변환import pandas as pddata = { "name": ["Alice", "Bob", "Charlie", "David", "Eva"], "city": ["New York", "London", "Paris", "Berlin", "Tokyo"], "score": ["85", "90", "78", "88", "95"]}df = pd.DataFrame(data)df['name_lower'] = df['name'].str.lo..

데이터를 다룰 때 중복된 행이 존재하면 분석의 정확성이 떨어진다.pandas에서는 drop_duplicates() 메서드를 사용하여 손쉽게 중복 데이터를 제거할 수 있다. 이번 글에서는 drop_duplicates()의 사용법과 활용 방법에 대해서 알아보자. 1. drop_duplicates() pandas의 drop_duplicates()는 데이터프레임에서 중복된 행을 제거하는 메서드이다.DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)subset : 중복 여부를 확인할 열을 지정 (기본 값 None → 모든 열을 기준으로 중복 확인)keep : 중복된 행이 있을 때 남길 행을 선택first (..

pandas에서는 sort_values() 메서드를 사용하여 데이터를 원하는 기준에 따라 정렬할 수 있다. 이번 글에서는 sort_values() 메서드의 사용법을 알아보자. 1. sort_values() pandas의 sort_values()는 특정 열(column)을 기준으로 데이터를 정렬할 때 사용된다.DataFrame.sort_values(by, axis=0, ascending=True, inplace=False)- by : 정렬 기준이 될 열(컬럼) 또는 여러 개의 열을 리스트로 지정- axis : 0이면 행 기준 정렬(기본값) , 1이면 열 기준 정렬- ascending : True 면 오름차순 (기본값), False 면 내림차순- inplace : True 면 원본 데이터프레임이 변경된다. ..
ValueError: time data "" doesn't match format "%Y-%m-%d", at position 1. You might want to try: 해당 오류는 pandas.to_datetime을 사용할 때 날짜 문자열이 예상 형식과 일치하지 않을 때 발생한다. 해결방법 1. 정확한 날짜 형식 지정하기df['date'] = pd.to_datetime(df['date'], format="%Y/%m/%d")format에 정확한 날짜 형식을 지정해준다. 2. 다양한 형식의 날짜가 섞여 있는 경우df['date'] = pd.to_datetime(df['date'], format='mixed')다양한 형식의 날짜가 섞여 있을 경우, format='mixed'를 사용하여 각 날짜의 형식을 ..

데이터 분석을 할 때, 데이터의 정확한 타입을 확인하고 필요에 따라 변환하는 과정은 매우 중요하다.잘못된 데이터 타입은 계산 오류나 분석 결과의 왜곡을 초래할 수 있기 때문에, pandas에서는 다양한 메서드와 함수를 제공한다. 이번 글에서는 pandas의 데이터 타입을 변환하는 방법에 대해서 알아보자. 1. astype() 메서드로 데이터 타입 변환 astype() 메서드는 데이터프레임이나 시리즈의 데이터 타입을 원하는 타입으로 변환할 때 많이 사용된다.단일 열뿐 아니라 여러 열을 한 번에 변환할 수도 있다. 1-1. 단일 열 변환문자열로 저장된 숫자들을 정수형으로 변환import pandas as pd# 예제 DataFrame 생성df = pd.DataFrame({ 'A': ['1', '2', ..

raise ValueError("The number of derivatives at boundaries does not " f"match: expected {nt-n}, got {nleft}+{nright}")ValueError: The number of derivatives at boundaries does not match: expected 1, got 0+0 위 오류 메시지는 polynomial이나 spline 보간을 수행할 때, 경계에서 제공된 도함수 조건의 수가 내부적으로 기대하는 수와 일치하지 않을 때 발생한다. 1. 발생 원인 1-1. 데이터 포인트 부족- 보간 대상 열에 유효한(결측치가 아닌) 값이 너무 적어 지정한 차수(order)를 만족할 만큼 경계 ..

데이터를 분석하기 전에 전처리(data preprocessing) 과정이 필수적이다.데이터는 종종 누락(missing value), 이상치(outliers), 데이터 형식 불일치 등의 문제를 가지고 있으며, 이를 정리해야 정확한 분석과 머신러닝 모델 학습이 가능하다. 데이터에는 종종 비어 있는 값(결측 치, NaN)이 존재할 수 있다.Pandas는 결측값을 쉽게 탐지하고 처리할 수 있는 다양한 함수를 제공한다. 이번 글에서는 Pandas를 활용한 결측치 처리 방법에 대해서 알아보자! 1. 결측치 확인 각 요소가 결측치인지 확인하여 불리언 series/DataFrame을 반환한다.import pandas as pdimport numpy as npdf = pd.DataFrame({ 'A': [1, 2..

이전 글에서 NumPy를 활용한 배열 연산에 대해서 알아봤는데,이번 글에서는 데이터 분석에 필수적인 Pandas 라이브러리에 대해서 알아보자. 1. Pandas Pandas(Python Data Analysis Library)는 데이터 분석과 조작을 위한 라이브러리이다.테이블 형식을 다룰 때 가장 많이 사용되고, 머신러닝과 데이터 분석에서 사용된다. 특징으로는- NumPy 기반으로 만들어져 빠르고 효율적인 데이터 처리가 가능하다.- 표 형태의 데이터(엑셀, csv, SQL 등)를 쉽게 불러와서 변환 및 분석이 가능하다.- 데이터 필터링, 그룹화, 집계 기능을 제공한다.- 시계열 데이터 분석에도 최적화되어 있다.2. Pandas 설치 pip를 통해 간단하게 설치가 가능하다.pip install pandas..

이전에 NumPy 배열(ndarray)을 생성하고 다루는 기본적인 방법을 알아봤는데,이번 글에서는 NumPy 배열을 활용한 다양한 연산 및 함수에 대해서 알아보자! 1. 기본 연산 NumPy는 Python의 기본 연산자 (+, -, *, /, ** 등)를 활용하여 배열 요소 간의 연산을 빠르고 효율적으로 수행할 수 있다.import numpy as nparr1 = np.array([1, 2, 3, 4, 5])arr2 = np.array([10, 20, 30, 40, 50])# 배열 간 연산print("덧셈:", arr1 + arr2) # [11 22 33 44 55]print("뺄셈:", arr1 - arr2) # [-9 -18 -27 -36 -45]print("곱셈:", arr1 * arr2) #..

NumPy에서 ndarray는 핵심 객체이다. 이번 글에서는 ndarray를 생성하고 이를 효율적으로 다루는 방법에 대해서 알아보자. 1. ndarray 객체 ndarray는 NumPy에서 제공하는 N차원 배열 객체로, 동일한 데이터 타입을 가진 요소들이 배열 형태로 저장된다.이는 대규모 데이터의 효율적인 저장과 빠른 연산을 가능하게 한다. 2. ndarray 생성 방법 2-1. 리스트를 이용하여 생성가장 기본적인 방법은 내장 자료형인 리스트나 중첩 리스트를 np.array() 함수에 전달하여 ndarray로 변환하는 방법이 있다.import numpy as np# 1차원 배열 생성arr1 = np.array([1, 2, 3, 4])print("1차원 배열:", arr1) # 출력: [1 2 3 4]..