2025센트럴병원배 예선 전체 목록 만들기

소스파일 : 웹페이지 소스저장 > VS Code 에서 html 파일 빈파일로 인식오류 > html 파일 파폭 실행후 택스트 복사, 공백포함 8,147 + 5,809 라인

fixian: 파일을 읽어서 엑셀 파일로 정리해줘.
먼저 일련번호, 경기시간, 경기종목, 코트 – 몇경기, 클럽, 선수, 상대클럽, 상대선수 배열로 정리해서 토_전체 이름의 엑셀 파일로 만들어줘.

GitHub Copilot: 아래와 같은 작업을 진행하겠습니다:

  1. 0913.txt 파일을 읽어 각 라인에서 일련번호, 경기시간, 경기종목, 코트, 몇경기, 클럽, 선수, 상대클럽, 상대선수 정보를 추출합니다.
  2. 추출한 데이터를 배열 형태로 정리합니다.
  3. 해당 데이터를 토_전체.xlsx라는 이름의 엑셀 파일로 저장합니다.

잠시만 기다려 주세요. 코드를 생성하여 실행하겠습니다.

작업이 완료되었습니다.

0913.txt 파일의 내용을 분석하여 일련번호, 경기시간, 경기종목, 코트, 몇경기, 클럽, 선수, 상대클럽, 상대선수 배열로 정리한 후, 토_전체.xlsx 엑셀 파일로 저장했습니다.

엑셀 파일을 확인하시면 정리된 데이터를 볼 수 있습니다. 추가로 원하는 형식이나 내용이 있으면 말씀해 주세요.

fixian: 문제가 있는듯, 텍스트 파일을 분석해봐줘.

GitHub Copilot: 0913.txt 파일의 내용을 분석하여, 데이터 구조와 문제점을 파악하겠습니다.

잠시만 기다려 주세요. 파일의 주요 패턴, 라인별 구조, 이상점(누락, 불일치, 특수문자 등)을 확인해드리겠습니다.

파일의 구조를 분석한 결과, 다음과 같은 패턴이 반복되고 있습니다:

  • “n코트 – m경기” (코트 번호와 경기 번호)
  • 경기종목 (예: 개인전 혼복 60 B – 풀리그)
  • 경기시간 (예: 07:00)
  • 클럽명 (예: 함마루클럽)
  • 선수명 (예: 김낙남안정욱)
  • “경기예정” (고정 텍스트)
  • 상대클럽명 (예: 시화클럽)
  • 상대선수명 (예: 곽한식김형숙)
  • “경기예정” (고정 텍스트)

문제점 및 특이사항:

  1. 각 경기 정보가 9줄(혹은 10줄) 단위로 반복되며, 중간에 “경기예정”이라는 고정 텍스트가 포함되어 있음.
  2. 일련번호가 따로 명시되어 있지 않으므로, 경기 순서대로 자동 부여해야 함.
  3. 일부 경기종목에 쉼표(,) 등 특수문자가 포함되어 있음.
  4. 선수명은 띄어쓰기 없이 이어져 있음.
  5. 파일 상단에 헤더 및 안내문이 포함되어 있어, 실제 데이터는 “n코트 – m경기”부터 시작됨.

이 구조를 기반으로, 각 경기 정보를 추출하여 엑셀로 정리할 수 있습니다.
추가로, 혹시 특정 부분에서 누락된 정보나 불일치가 있는지 더 자세히 확인이 필요하다면 말씀해 주세요.
엑셀 변환 코드를 개선하여 다시 실행할 수 있습니다. 원하시면 바로 진행하겠습니다.

fixian: 먼저 일련번호, 경기시간, 몇코트- 몇경기, 경기종목, 클럽이름, 선수이름, 상대클럽, 상대선수 이름 순으로 엑셀파일로 만들어서 0913 엑셀 파일로 만들어줘.

GitHub Copilot: 네, 요청하신 순서대로
일련번호, 경기시간, 몇코트-몇경기, 경기종목, 클럽이름, 선수이름, 상대클럽, 상대선수이름
형태로 데이터를 추출하여 0913.xlsx 엑셀 파일로 저장하는 코드를 작성하겠습니다.

잠시만 기다려 주세요. 코드를 수정하여 실행하겠습니다.

/Users/qmini/site/claude_code_test/txt_to_excel_0913.py

import pandas as pd

import re

input_path = ‘0913.txt’

output_path = ‘0913.xlsx’

data = []

serial = 1

with open(input_path, ‘r’, encoding=’utf-8′) as f:

lines = [line.strip() for line in f if line.strip()]

# 데이터 추출

idx = 0

while idx < len(lines):

if re.match(r’\d+코트 – \d+경기’, lines[idx]):

court_game = lines[idx] # 몇코트-몇경기

event = lines[idx+1] # 경기종목

time = lines[idx+2] # 경기시간

club1 = lines[idx+3] # 클럽이름

player1 = lines[idx+4] # 선수이름

# lines[idx+5] == ‘경기예정’

club2 = lines[idx+6] # 상대클럽

player2 = lines[idx+7] # 상대선수

# lines[idx+8] == ‘경기예정’

data.append([

serial, time, court_game, event, club1, player1, club2, player2

])

serial += 1

idx += 9

else:

idx += 1

columns = [‘일련번호’, ‘경기시간’, ‘몇코트-몇경기’, ‘경기종목’, ‘클럽이름’, ‘선수이름’, ‘상대클럽’, ‘상대선수이름’]

df = pd.DataFrame(data, columns=columns)

df.to_excel(output_path, index=False)

print(f’엑셀 파일로 저장 완료: {output_path}’)

작업이 완료되었습니다.

0913.txt 파일에서 요청하신 순서대로 데이터를 추출하여 0913.xlsx 엑셀 파일로 저장했습니다.
엑셀 파일에서 일련번호, 경기시간, 몇코트-몇경기, 경기종목, 클럽이름, 선수이름, 상대클럽, 상대선수이름 순으로 정리된 데이터를 확인하실 수 있습니다.

추가 요청이나 수정 사항이 있으면 말씀해 주세요.

추가작업 명령

0914.txt 파일 선택후 추가작업 명령.

fixian: 좋아, 그러면 같은 작업을 해서 0914 엑셀 파일로 저장해줘.

작업이 완료되었습니다.

0914.txt 파일을 분석하여 요청하신 순서대로 데이터를 추출하고, 0914.xlsx 엑셀 파일로 저장했습니다.

엑셀 파일에서 일련번호, 경기시간, 몇코트-몇경기, 경기종목, 클럽이름, 선수이름, 상대클럽, 상대선수이름 순으로 정리된 데이터를 확인하실 수 있습니다.
추가 요청이나 수정 사항이 있으면 말씀해 주세요.


게시됨

카테고리

,

작성자

태그:

댓글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다