CSV

CSV (Comma-Separated Values)

쉼표(,)로 구분된 값들을 이용하여 데이터를 저장하는 파일 형식

•

CSV 파일은 스프레드시트나 데이터베이스와 같은 표 형식의 데이터를 저장하는 데 사용됩니다. 

•

CSV 파일의 각 행은 데이터의 한 행을 나타내며, 각 행 내의 값들은 쉼표로 구분됩니다. 

•

CSV 파일은 데이터를 서로 다른 애플리케이션 간에 교환하는 데 널리 사용됩니다. 

예시

이름, 나이, 도시
철수, 25, 서울
영희, 30, 부산
민수, 28, 대구
Python
복사

pandas 모듈

데이터 조작과 분석을 위한 파이썬 라이브러리

특히 구조화된 데이터를 다루는 데 유용합니다. 데이터프레임(DataFrame) 이라는 자료구조를 통해 데이터를 효율적을 처리할 수 있게 해줍니다.

CSV 파일 파이썬으로 다루기

•

CSV 파일 읽고 쓰기

•

특정 행을 필터링하기

•

특정 열 선택하기

•

연속된 행 선택하기

•

헤더 추가하기

•

여러 개의 CSV 파일 읽기

•

여러 파일의 데이터 합치기

•

파일에서 데이터 값의 합계 및 평균 계산하기

CSV 파일 읽고 쓰기

파이썬을 이용하여 파일을 읽고 쓰는 방법을 알아봅니다.

•

파이썬 기본으로 CSV 읽고 쓰기

◦

기본 파일 입출력

◦

csv 모듈을 이용한 입출력

•

판다스 라이브러리를 이용하여 CSV 읽고 쓰기

파이썬 기본으로 CSV 읽고 쓰기

•

기본 파일 입출력

•

csv 모듈을 이용한 입출력

기본 파일 입출력

CSV파일입출력.py

import sys

input_file = sys.argv[1]
output_file = sys.argv[2]

with open(input_file, 'r', newline='') as filereader:
	with open(output_file, 'w', newline='') as filewriter:
		header = filereader.readline()
		header = header.strip()
		header_list = header.split(',')
		print(header_list)
		filewriter.write(','.join(map(str,header_list))+'\n')
		for row in filereader:
			row = row.strip()
			row_list = row.split(',')
			print(row_list)
			filewriter.write(','.join(map(str,row_list))+'\n')
Python
복사

•

실행방법

python 파일명 "입력csv파일경로" "출력csv파일경로"
Python
복사

입력파일과 출력파일의 절대경로를 “문자열로” 지정하여 프로그램 실행 시 인자로 넣어준다.

csv 모듈을 이용한 입출력

import csv
import sys

input_file = sys.argv[1]
output_file = sys.argv[2]

with open(input_file, 'r', newline='') as csv_in_file:
	with open(output_file, 'w', newline='') as csv_out_file:
		filereader = csv.reader(csv_in_file, delimiter=',')
		filewriter = csv.writer(csv_out_file, delimiter=',')
		for row_list in filereader:
			filewriter.writerow(row_list)
Python
복사

판다스 라이브러리를 이용하여 CSV 읽고 쓰기

판다스CSV파일입출력.py

import sys
import pandas as pd

input_file = sys.argv[1]
output_file = sys.argv[2]

data_frame = pd.read_csv(input_file)
print(data_frame)
data_frame.to_csv(output_file, index=False)
Python
복사

(에러)

import pandas as pd ModuleNotFoundError: No module named 'pandas'

pandas 모듈이 설치되어 있지 않다면, 모듈 설치가 필요합니다.

판다스 모듈 설치하기

pip install pandas
Python
복사

파일 경로 지정 더 쉽게 하기

주어진 예제 코드에서는 sys 모듈을 이용하여 아래와 같은 방법으로 파일 경로를 가져온다.

import sys
input_file = sys.argv[1]
output_file = sys.argv[2]
Python
복사

이렇게 코드를 사용하면, 매번 python 명령어를 터미널에 입력해서 실행해야하고, 또 파일경로를 매번 복사해서 입력해주어야하기 때문에 번거로움이 있다.

python 파일명 "입력csv파일경로" "출력csv파일경로"
Bash
복사

위와 같은 방법으로 프로그램을 실행하면, 경로를 실수로 잘못 입력하거나 오타가 있어 실행이 안되는 경우가 많이 발생된다.

따라서 아래와 같은 방법으로 미리 프로그램을 실행하는 경로를 지정하고, 입력 파일과 출력 파일 이름만 입력하여 입력 데이터를 가져와서 분석하는 형식으로 코드를 사용해보려고 한다.

실습 폴더 구조

📦 workspace
├── 📁 path
│   ├── 📁 input
│   │   ├── 📜 example.csv
│   │   ├── 📜 example2.xlsx
│   │   └── ...
│   ├── 📁 output
│   │   ├── 📜 output.csv
│   │   ├── 📜 output2.xlsx
│   │   └── ...
│   ├── 📄 example.py
│   └── 📄 example2.py
└── 📄 README.md
Plain Text
복사

•

 workspace : 작업 폴더

•

 path : 각 예제들을 구분할 폴더

◦

 input :  입력 데이터 파일을 저장한다.

◦

 output : 출력 데이터 파일을 저장한다.

입출력 파일 지정하는 코드

import os
# 실행 프로그램의 경로
program_path = os.path.abspath(__file__)
# 디렉터리 경로 - 이 안의 input, output 폴더에서 입출력한다.
path = os.path.dirname(program_path)

# 입력파일, 출력파일
input_file = path + '/input/' + input('입력 파일 : ')
output_file = path + '/output/' + input('출력 파일 : ')
Python
복사

위의 코드로, os 모듈을 사용하여 시스템으로부터 실행된 프로그램의 절대 경로를 가져오고, 그 경로로부터 현재 디렉터리를 알아낸다.

그리고, 현재 디렉터리 아래 준비한 input, output 폴더에 입력할 파일 명을 입력 받아 입력 파일과 출력 파일을 지정하여 사용한다.

특정 행을 필터링하기

•

조건으로 필터링하기

•

집합으로 필터링하기

•

정규표현식으로 필터링하기

조건으로 필터링하기

•

csv 모듈 이용

•

pandas 모듈 이용

csv 모듈 이용

import csv
import os

# 실행 프로그램의 경로
program_path = os.path.abspath(__file__)
# 디렉터리 경로 - 이 안의 input, output 폴더에서 입출력한다.
path = os.path.dirname(program_path)

# 입력파일, 출력파일
input_file = os.path.join(path, 'input', input('입력 파일 : '))
output_file = os.path.join(path, 'output', input('출력 파일 : '))

with open(input_file, 'r', newline='') as csv_in_file:
    with open(output_file, 'w', newline='') as csv_out_file:
        filereader = csv.reader(csv_in_file)        # csv 읽기 모드 객체 생성
        filewriter = csv.writer(csv_out_file)       # csv 쓰기 모드 객체 생성
        header = next(filereader)                   # 첫 행을 입력
        filewriter.writerow(header)                 # 첫 행을 출력
        for row_list in filereader:
            supplier = str(row_list[0]).strip()                 # 공급업체명
            cost = str(row_list[3]).strip('$').replace(',', '') # 가격
            # 조건으로 특정행 필터
            if supplier == 'Supplier Z' and float(cost) > 600.0:
                filewriter.writerow(row_list)
Python
복사

pandas 모듈 이용

import pandas as pd
import os

# 실행 프로그램의 경로
program_path = os.path.abspath(__file__)
# 디렉터리 경로 - 이 안의 input, output 폴더에서 입출력한다.
path = os.path.dirname(program_path)

# 입력파일, 출력파일
input_file = path + '/input/' + input('입력 파일 : ')
output_file = path + '/output/' + input('출력 파일 : ')

# csv 읽어서 데이터프레임으로 가져온다
data_frame = pd.read_csv(input_file)

# Cost 열에서 $ 기호를 제거, float(숫자) 타입으로 변환 (비교연산을 위해서)
data_frame['Cost'] = data_frame['Cost'].str.strip('$').astype(float)

# 특정행 필터링
# loc[ 행 라벨, 열 라벨 ]
# : 데이터 프레임에서 지정한 행과 열을 선택한 함수

data_frame_value_meets_condition = data_frame.loc[(data_frame['Supplier Name']\
.str.contains('Z')) | (data_frame['Cost'] > 600.0), :]
# ❓ OR  :  |,   AND  :  & 


# data_frame.loc[ (A | B), : ]
# : A 또는 B 조건을 만족하는 행을 선택하고, 모든 열을 선택 한다.
#   loc[ 행라벨, 열라벨 ]
#   ✅ 특정 행 또는 열을 선택하지 않는다면  :  으로 생략가능 

# | : OR 연산 ( A 또는 B )

# (data_frame['Supplier Name']\.str.contains('Z'))
# 1 - 데이터 프레임에서 'Supplier Name' 열을 문자열로 가져온다
# 2 - 'Supplier Name' 열에서 'Z' 가 포함된 여부를 반환한다. (True, False)

# (data_frame['Cost'] > 600.0)
# 1 - 데이터 프레임에서 'Cost' 열을 가져온다. (float)
# 2 - 600.0 초과인 여부를 반환한다. (True, False)

# 데이터프레임을 csv 파일로 출력
data_frame_value_meets_condition.to_csv(output_file, index=False)
Python
복사

집합으로 필터링하기

•

csv 모듈 이용

•

pandas 모듈 이용

csv 모듈 이용

import csv
import os

# 실행 프로그램의 경로
program_path = os.path.abspath(__file__)
# 디렉터리 경로 - 이 안의 input, output 폴더에서 입출력한다.
path = os.path.dirname(program_path)

# 입력파일, 출력파일
input_file = path + '/input/' + input('입력 파일 : ')
output_file = path + '/output/' + input('출력 파일 : ')

important_dates = ['1/20/14', '1/30/14']    # 특정 날짜 집합을 리스트로 선인

with open(input_file, 'r', newline='') as csv_in_file:
	with open(output_file, 'w', newline='') as csv_out_file:
		filereader = csv.reader(csv_in_file)
		filewriter = csv.writer(csv_out_file)
		header = next(filereader)
		filewriter.writerow(header)
		
		for row_list in filereader:
			a_date = row_list[4]            # 구매일자
			if a_date in important_dates:   # 특정 리스트에 포함 여부 반환
				filewriter.writerow(row_list)
Python
복사

pandas 모듈 이용

import pandas as pd
import os

# 실행 프로그램의 경로
program_path = os.path.abspath(__file__)
# 디렉터리 경로 - 이 안의 input, output 폴더에서 입출력한다.
path = os.path.dirname(program_path)

# 입력파일, 출력파일
input_file = path + '/input/' + input('입력 파일 : ')
output_file = path + '/output/' + input('출력 파일 : ')

data_frame = pd.read_csv(input_file)

important_dates = ['1/20/14', '1/30/14']    # 특정 날짜 집합을 리스트로 선언

# 데이터프레임.loc[ 행라벨, 열라벨 ]
# : 데이터프레임의 특정 행 및 열을 선택하는 함수
data_frame_value_in_set = data_frame.loc[data_frame['Purchase Date']\
.isin(important_dates), :]

# data_frame['Purchase Date']  :  Series 객체
# -> 데이터 프레임에서 특정 열을 선택하면 그 구조는 시리즈가 된다.

# isin()
# : 해당 Series 객체의 특정 값이나 집합에 속하는지 여부를 반환 (True, False)

data_frame_value_in_set.to_csv(output_file, index=False)
Python
복사

정규표현식으로 필터링하기

•

csv 모듈 이용

•

pandas 모듈 이용

csv 모듈 이용

import csv
import re
import os

# 실행 프로그램의 경로
program_path = os.path.abspath(__file__)
# 디렉터리 경로 - 이 안의 input, output 폴더에서 입출력한다.
path = os.path.dirname(program_path)

# 입력파일, 출력파일
input_file = path + '/input/' + input('입력 파일 : ')
output_file = path + '/output/' + input('출력 파일 : ')

# 정규 표현식 패턴 설정
pattern = re.compile(r'(?P<my_pattern_group>^001-.*)', re.I)
#  re.I   : 대소문자 구분 없이 매칭

print('pattern : {}'.format( pattern ))

# ^001-.* 
# 1 - ^001- : 001- 로 시작하는 패턴 매칭
# 2 - .*	: . 은 한문자 대체, * 0 회이상 ➡ 한 문자 이상 매칭
# ➡ 001- 뒤에 한 문자 이상인 패턴을 매칭


with open(input_file, 'r', newline='') as csv_in_file:
	with open(output_file, 'w', newline='') as csv_out_file:
		filereader = csv.reader(csv_in_file)
		filewriter = csv.writer(csv_out_file)
		header = next(filereader)
		filewriter.writerow(header)
		for row_list in filereader:
			invoice_number = row_list[1]			# invoice_number
			if pattern.search(invoice_number):		# 패턴 확인
				filewriter.writerow(row_list)
Python
복사

pandas 모듈 이용

import pandas as pd
import re
import os

# 실행 프로그램의 경로
program_path = os.path.abspath(__file__)
# 디렉터리 경로 - 이 안의 input, output 폴더에서 입출력한다.
path = os.path.dirname(program_path)

# 입력파일, 출력파일
input_file = path + '/input/' + input('입력 파일 : ')
output_file = path + '/output/' + input('출력 파일 : ')


data_frame = pd.read_csv(input_file)

# ix[ , ]
# : deperecated (더 이상 사용 권장) ➡ 버전 업데이트 되면서 새로 다른 문법이 대체
#   ix[ , ]  ➡  loc[ , ]

# '001-' 로 시작하는 행을 선택하여 반환
# condition = data_frame['Invoice Number'].str.startswith("001-")
# 'Z' 로 끝나는 행을 선택하여 반환
# condition = data_frame['Supplier Name'].str.endswith('Z')

# match(정규표현식) : 문자열에서 정규표현식에 따라 패턴 매칭
pattern = re.compile(r'(?P<my_pattern_group>^001-.*)', re.I)
condition = data_frame['Invoice Number'].str.match(pattern)

data_frame_value_matches_pattern = data_frame.loc[ condition, : ]

data_frame_value_matches_pattern.to_csv(output_file, index=False)
Python
복사

특정 열 선택하기

•

열의 인덱스로 선택하기

•

열의 헤더명으로 선택하기

열의 인덱스로 선택하기

•

csv 모듈 이용

•

pandas 모듈 이용

csv 모듈 이용

import csv
import os

# 실행 프로그램의 경로
program_path = os.path.abspath(__file__)
# 디렉터리 경로 - 이 안의 input, output 폴더에서 입출력한다.
path = os.path.dirname(program_path)

# 입력파일, 출력파일
input_file = path + '/input/' + input('입력 파일 : ')
output_file = path + '/output/' + input('출력 파일 : ')

# 0, 3 번 인덱스에 해당하는 열을 선택하기 위한 리스트
my_columns = [0, 3]

with open(input_file, 'r', newline='') as csv_in_file:
	with open(output_file, 'w', newline='') as csv_out_file:
		filereader = csv.reader(csv_in_file)
		filewriter = csv.writer(csv_out_file)
		for row_list in filereader:
			row_list_output = [ ]
			# my_columns 리스트 반복 - index_value : 0, 3
			for index_value in my_columns:
				# row_list[0] : 공급자명(supplier name)
				# row_list[3] : 가격(cost)
				row_list_output.append(row_list[index_value])
			filewriter.writerow(row_list_output)
Python
복사

pandas 모듈 이용

import pandas as pd
import os

# 실행 프로그램의 경로
program_path = os.path.abspath(__file__)
# 디렉터리 경로 - 이 안의 input, output 폴더에서 입출력한다.
path = os.path.dirname(program_path)

# 입력파일, 출력파일
input_file = path + '/input/' + input('입력 파일 : ')
output_file = path + '/output/' + input('출력 파일 : ')


data_frame = pd.read_csv(input_file)

# loc[ 행라벨 , 열라벨 ]
# : 행라벨, 열라벨으로 데이터 선택

# iloc[ 행index, 열index ]
# index + location - index 를 기반으로 데이터프레임의 행과 열을 선택하는 함수

# iloc[ 행 , 열 [0,3] ]
# : 0, 3 번 index 에 해당하는 열을 선택
# data_frame_column_by_index = data_frame.iloc[:, [0, 3]]

# 1~3열 (Supplier Name,Invoice Number,Part Number)를 선택
# - 리스트에 지정할 index 를 담아서 선택
# data_frame_column_by_index = data_frame.iloc[:, [0, 1, 2] ]

# - index 범위로 선택
data_frame_column_by_index = data_frame.iloc[:, 0:3 ]

data_frame_column_by_index.to_csv(output_file, index=False)
Python
복사

열의 헤더명으로 선택하기

•

csv 모듈 이용

•

pandas 모듈 이용

csv 모듈 이용

import csv
import os

# 실행 프로그램의 경로
program_path = os.path.abspath(__file__)
# 디렉터리 경로 - 이 안의 input, output 폴더에서 입출력한다.
path = os.path.dirname(program_path)

# 입력파일, 출력파일
input_file = path + '/input/' + input('입력 파일 : ')
output_file = path + '/output/' + input('출력 파일 : ')


my_columns = ['Invoice Number', 'Purchase Date']
my_columns_index = []

with open(input_file, 'r', newline='') as csv_in_file:
	with open(output_file, 'w', newline='') as csv_out_file:
		filereader = csv.reader(csv_in_file)
		filewriter = csv.writer(csv_out_file)
		header = next(filereader)
		
		for index_value in range(len(header)):
			if header[index_value] in my_columns:
				my_columns_index.append(index_value)    # [ 1, 4 ]
				
		filewriter.writerow(my_columns)
		
		for row_list in filereader:
			row_list_output = [ ]
			for index_value in my_columns_index:
				row_list_output.append(row_list[index_value])
			filewriter.writerow(row_list_output)
Python
복사

pandas 모듈 이용

import pandas as pd
import os

# 실행 프로그램의 경로
program_path = os.path.abspath(__file__)
# 디렉터리 경로 - 이 안의 input, output 폴더에서 입출력한다.
path = os.path.dirname(program_path)

# 입력파일, 출력파일
input_file = path + '/input/' + input('입력 파일 : ')
output_file = path + '/output/' + input('출력 파일 : ')


data_frame = pd.read_csv(input_file)

# 선택할 열 리스트
select_list =  ['Invoice Number', 'Purchase Date']

# loc[ 행라벨, 열라벨 ] 
data_frame_column_by_name = data_frame.loc[ :, select_list ]

data_frame_column_by_name.to_csv(output_file, index=False)
Python
복사

연속된 행 선택하기

•

csv 모듈 이용

•

pandas 모듈 이용

csv 모듈 이용

import csv
import os

# 실행 프로그램의 경로
program_path = os.path.abspath(__file__)
# 디렉터리 경로 - 이 안의 input, output 폴더에서 입출력한다.
path = os.path.dirname(program_path)

# 입력파일, 출력파일
input_file = path + '/input/' + input('입력 파일 : ')
output_file = path + '/output/' + input('출력 파일 : ')


row_counter = 0
with open(input_file, 'r', newline='') as csv_in_file:
	with open(output_file, 'w', newline='') as csv_out_file:
		filereader = csv.reader(csv_in_file)
		filewriter = csv.writer(csv_out_file)
		for row in filereader:
			# index 3~10 까지 연속된 행 선택
			if row_counter >= 3 and row_counter <= 10:
				filewriter.writerow([value.strip() for value in row])
			row_counter += 1
Python
복사

pandas 모듈 이용

import pandas as pd
import os

# 실행 프로그램의 경로
program_path = os.path.abspath(__file__)
# 디렉터리 경로 - 이 안의 input, output 폴더에서 입출력한다.
path = os.path.dirname(program_path)

# 입력파일, 출력파일
input_file = path + '/input/' + input('입력 파일 : ')
output_file = path + '/output/' + input('출력 파일 : ')


data_frame = pd.read_csv(input_file, header=None)

print('삭제 전')
print(data_frame)

header = data_frame.iloc[0]
# drop() 
# : 데이터프레임의 특정 행을 삭제하는 함수
data_frame = data_frame.drop([0,1,2,3,4])

print('삭제 후')
print(data_frame)


# iloc[0]
# : index를 기준으로 특정 행,열을 선택하는 함수
data_frame.columns = header

print('iloc[0] 이후')
print(data_frame)

# reindex()
# : 데이터프레임에서 행을 재구성하는 함수

# data_frame.reindex(data_frame.index.drop(3))
# - 인덱스 3인 행을 삭제 후, 삭제된 새로운 데이터프레임을 재구성하여 반환

# new_index = range( len(data_frame) )    # range( 8 ) -> (0:7)
# data_frame = data_frame.reindex([0,1,2,3,4,5,6,7])
# print('reindex() : 인덱스 재구성 후')
# print(data_frame)

# 인덱스 재구성
data_frame.reset_index(drop=True, inplace=True)
# data_frame.reset_index()
print('reset_index() ')
print(data_frame)


data_frame.to_csv(output_file, index=True)
Python
복사

헤더 추가하기

•

csv 모듈 이용

•

pandas 모듈 이용

csv 모듈 이용

import csv
import os

# 실행 프로그램의 경로
program_path = os.path.abspath(__file__)
# 디렉터리 경로 - 이 안의 input, output 폴더에서 입출력한다.
path = os.path.dirname(program_path)

# 입력파일, 출력파일
input_file = path + '/input/' + input('입력 파일 : ')
output_file = path + '/output/' + input('출력 파일 : ')

with open(input_file, 'r', newline='') as csv_in_file:
	with open(output_file, 'w', newline='') as csv_out_file:
		filereader = csv.reader(csv_in_file)
		filewriter = csv.writer(csv_out_file)
		
		header_list = ['Supplier Name', 'Invoice Number', \
					   'Part Number', 'Cost', 'Purchase Date']
		filewriter.writerow(header_list)
		for row in filereader:
			filewriter.writerow (row)
Python
복사

pandas 모듈 이용

import pandas as pd
import os

# 실행 프로그램의 경로
program_path = os.path.abspath(__file__)
# 디렉터리 경로 - 이 안의 input, output 폴더에서 입출력한다.
path = os.path.dirname(program_path)

# 입력파일, 출력파일
input_file = path + '/input/' + input('입력 파일 : ')
output_file = path + '/output/' + input('출력 파일 : ')


header_list = ['Supplier Name', 'Invoice Number', \
'Part Number', 'Cost', 'Purchase Date']

# header=None           : 헤더 없이 입력
# names=[추가할 헤더]    : 헤더를 추가해 입력
data_frame = pd.read_csv(input_file, header=None, names=header_list)

data_frame.to_csv(output_file, index=False)
Python
복사

여러 개의 CSV 파일 읽기

•

csv 모듈 이용

csv 모듈 이용

import csv
import glob
import os

# 실행 프로그램의 경로
program_path = os.path.abspath(__file__)
# 디렉터리 경로 - 이 안의 input, output 폴더에서 입출력한다.
path = os.path.dirname(program_path)
# 입력파일, 출력파일
input_path = path + '/input/'

file_counter = 0
# glob.glob() 함수로, input_path에서 sales_로 시작하는 모든 파일의 경로를 생성
for input_file in glob.glob(os.path.join(input_path,'sales_*')):
    row_counter = 1  # 각 파일의 행 수를 세기 위한 변수 초기화
    with open(input_file, 'r', newline='') as csv_in_file:
        filereader = csv.reader(csv_in_file)
        header = next(filereader)  # 첫 번째 행은 헤더
        for row in filereader:
            row_counter += 1  # 각 행마다 행 수 증가
    # 파일 이름, 행 수, 열 수 출력
    print('{0!s}: \t{1:d} rows \t{2:d} columns'.format(\
        os.path.basename(input_file), row_counter, len(header)))
    file_counter += 1  # 파일 수 증가
print('Number of files: {0:d}'.format(file_counter))  # 총 파일 수 출력
Python
복사

여러 파일의 데이터 합치기

•

csv 모듈 이용

•

pandas 모듈 이용

csv 모듈 이용

import csv
import glob
import os

# 실행 프로그램의 경로
program_path = os.path.abspath(__file__)
# 디렉터리 경로 - 이 안의 input, output 폴더에서 입출력한다.
path = os.path.dirname(program_path)

# 입력파일, 출력파일
input_path = path + '/input/' 
output_file = path + '/output/' + input('출력 파일 : ')

 
first_file = True
# glob 모듈을 사용해서, * 등의 와일드카드로 여러 파일을 매치해서 가져온다
for input_file in glob.glob(os.path.join(input_path,'sales_*')):
	print(os.path.basename(input_file))
	with open(input_file, 'r', newline='') as csv_in_file:
		with open(output_file, 'a', newline='') as csv_out_file:
			filereader = csv.reader(csv_in_file)
			filewriter = csv.writer(csv_out_file)
			if first_file:
				for row in filereader:
					filewriter.writerow(row)
				first_file = False
			else:
				header = next(filereader)
				for row in filereader:
					filewriter.writerow(row)
Python
복사

pandas 모듈 이용

import pandas as pd
import glob
import os

program_path = os.path.abspath(__file__)
path = os.path.dirname(program_path)

# 입력경로, 출력파일
input_path = path + '/input/' 
output_file = path + '/output/' + input('출력 파일 : ')

# glob.glob() 함수로, input_path에서 sales_로 시작하는 모든 파일의 경로를 생성
all_files = glob.glob(os.path.join(input_path,'sales_*'))

all_data_frames = []
# 여러 파일 경로들을 반복하여 csv 파일을 입력
for file in all_files:
	data_frame = pd.read_csv(file, index_col=None)	# CSV 파일 입력
	all_data_frames.append(data_frame)				# 리스트에 데이터 프레임 추가

# concat() 함수로 데이터프레임 리스트를 하나의 데이터프레임으로 병합
data_frame_concat = pd.concat(all_data_frames, axis=0, ignore_index=True)	

# 데이터프레임을 CSV 파일로 출력
data_frame_concat.to_csv(output_file, index = False)
Python
복사

파일에서 데이터 값의 합계 및 평균 계산하기

•

csv 모듈 이용

•

pandas 모듈 이용

csv 모듈 이용

import csv
import glob
import os

program_path = os.path.abspath(__file__)
path = os.path.dirname(program_path)

# 입력경로, 출력파일
input_path = path + '/input/' 
output_file = path + '/output/' + input('출력 파일 : ')

output_header_list = ['file_name', 'total_sales', 'average_sales']

csv_out_file = open(output_file, 'a', newline='')
filewriter = csv.writer(csv_out_file)
filewriter.writerow(output_header_list)

# "sales_" 로 시작하는 여러 파일 경로 생성
for input_file in glob.glob(os.path.join(input_path,'sales_*')):
	# salse_2013.csv, salse_2014.csv, ... 차례로 읽어옴
	with open(input_file, 'r', newline='') as csv_in_file:
		filereader = csv.reader(csv_in_file)
		output_list = [ ]
		# 읽어온 CSV 파일경로를 출력 데이터 리스트에 추가
		output_list.append(os.path.basename(input_file))
		header = next(filereader)
		# 합계, 개수 변수 선언
		total_sales = 0.0
		number_of_sales = 0.0
		for row in filereader:
			sale_amount = row[3]
			# 합계 계산
			total_sales += float(str(sale_amount).strip('$').replace(',',''))
			# 개수 카운팅
			number_of_sales += 1.0
		# 평균 계산
		average_sales = '{0:.2f}'.format(total_sales / number_of_sales)
		# 출력 데이터 리스트에 합계 추가
		output_list.append(total_sales)
		# 출력 데이터 리스트에 평균 추가
		output_list.append(average_sales)
		# [입력파일명.csv,합계,평균] 형식으로 한 줄 출력
		filewriter.writerow(output_list)
csv_out_file.close()
Python
복사

pandas 모듈 이용

import pandas as pd
import glob
import os

program_path = os.path.abspath(__file__)
path = os.path.dirname(program_path)

# 입력경로, 출력파일
input_path = path + '/input/' 
output_file = path + '/output/' + input('출력 파일 : ')

all_files = glob.glob(os.path.join(input_path,'sales_*'))
all_data_frames = []
for input_file in all_files:
	data_frame = pd.read_csv(input_file, index_col=None)
	
	# 합계
	# 1. 데이터 프레임에서 Sales Amount 열 선택
	# 2. 리스트 내포로 데이터에서 $ 및 , 기호 제거
	# 3. 판다스 DataFrame의 sum() 함수로 리스트의 합계 구함
	total_sales = pd.DataFrame([float(str(value).strip('$').replace(',','')) \
						for value in data_frame.loc[:, 'Sale Amount']]).sum()
	# 평균
	# 1. 데이터 프레임에서 Sales Amount 열 선택
	# 2. 리스트 내포로 데이터에서 $ 및 , 기호 제거
	# 3. 판다스 DataFrame의 mean() 함수로 리스트의 평균 구함
	average_sales = pd.DataFrame([float(str(value).strip('$').replace(',','')) \
						for value in data_frame.loc[:, 'Sale Amount']]).mean()

	# data 딕셔너리 선언
	data = {'file_name': os.path.basename(input_file),
			'total_sales': total_sales,
			'average_sales': average_sales}
	
	# data 딕셔너리로 컬럼명을 지정하여, 데이터 프레임 리스트에 한 CSV 파일의 합계 및 평균 추가
	all_data_frames.append(pd.DataFrame(data, columns=['file_name', 'total_sales', 'average_sales']))

# 데이터 프레임 리스트(각 CSV 파일의 합계평균 리스트)를 하나의 데이터 프레임으로 병합
data_frames_concat = pd.concat(all_data_frames, axis=0, ignore_index=True)

# 데이터 프레임을 CSV 파일로 출력
data_frames_concat.to_csv(output_file, index = False)
Python
복사