멜린다가 채점 기준을 발표했다.
갑자기 숙제가 추가됐다.
1주 차 때 대강 말한 부분을 오피셜로 정리해 줘서 해야 할게 나름 보였다.
히토미의 숙제는 웹스크래핑 + 데이터 분석이었다.
데이터 분석을 위한 데이터를 스크래핑으로 구해야 하는 것이 첫 번째 목표.
비즈니스 인텔리전스 관련 질문 몇 개를 만들고, 수집한 데이터를 분석하여 답하는 것이 두 번째 목표였다.
비즈니스 인텔리전스란.. 무엇일까?
비즈니스 인텔리전스(BI)는 조직이 더 나은 의사결정을 내리고, 정보를 기반으로 행동을 취하고, 보다 효율적인 비즈니스 프로세스를 구현할 수 있게 해주는 역량을 의미합니다.
내가 이해한 바는 다음과 같다.
"제품을 광고하는 것은 수익에 긍정적인 영향을 주는가?"라는 비즈니스 적인 질문이 있다고 하자.
수집된 데이터에서 광고하지 않았을 때의 수익과 광고를 했을 때의 수익을 비교한 뒤, 광고가 수익에 어떤 영향을 미치는지를 알아내면 된다.
나는 etsy의 침구류 카테고리 데이터를 수집하기로 했다.
동적 웹사이트이기 때문에 셀레늄을 사용하기로 마음먹고
노트북을 덮었다.
저번주 내용에도 언급했듯, 우리는 테크니컬 과제에 대해 굉장히 혼란스러워했다.
뭘 어떤 식으로 만들어야 하는지를 알 수가 없었다.
질문을 해도 강사마다 의견이 달랐다.
따라서, 우선 방향을 잡아보고자 했다.
큰 틀은 [이미지 --> OCR --> 텍스트 --> API에 맞게 포맷팅 --> API 호출]이었으므로 이에 맞춰서 서비스를 계획하기로 했다.
이번주는 나랑 형진이가 OCR부분을 조사하기로 했다.
pytesseract는 로컬에서 바로 돌릴 수 있고, 가벼운 프로그램이었다.
물론 성능은 구글에서 만든 것과 비교도 할 수 없을 정도로 엉터리였다.
민규가 이미지를 잘라서 따로따로 인식하면 성능이 더 좋지 않겠느냐는 아이디어를 던졌다.
pytesseract가 바운딩 박스마다 confidence값을 제공해 줬기 때문에 NMS를 쓴 뒤, 다시 결과를 합치면 꽤나 괜찮은 결과가 나올 것이라고 생각했다.
그래서 다음 주까지 이걸 해보기로 했다.
결과가 좋지 않아도, 구글에서 만든 제품이 있기 때문에 부담은 없었다.
비즈니스는 테크니컬에 비하면 양반이었다.
조금 정돈된 혼란이랄까.
멜린다가 비즈니스 모델 캔버스를 주고, 저번주에 용환이가 말한 아이디어를 기반으로 내용을 채우라더라.
정곤이가 학교 수업 들을 때 작성했던 예시를 보여줘서 수월하게 끝냈다.
비즈니스 모델 캔버스까지 빼곡히 적고난 뒤 깨달은 것은 우린 이걸로 돈 벌기 글렀다는 차가운 현실이었다.
'8기 글로벌 SW*AI인재 프로그램' 카테고리의 다른 글
[기록] 캠프 4주차 (2) | 2024.02.25 |
---|---|
[기록] 캠프 3주차 (0) | 2024.02.20 |
[기록] 캠프 1주차 (3) | 2024.02.18 |
[기록] Irvine Tech Hub 방문 (0) | 2024.02.18 |
[기록] 한국 -> 미국 (5) | 2023.12.31 |