[파이썬] [1차] 뉴스 클러스터링

coding test

[파이썬] [1차] 뉴스 클러스터링

잔망루피 2021. 5. 6. 17:38

문제 설명

뉴스 클러스터링

여러 언론사에서 쏟아지는 뉴스, 특히 속보성 뉴스를 보면 비슷비슷한 제목의 기사가 많아 정작 필요한 기사를 찾기가 어렵다. Daum 뉴스의 개발 업무를 맡게 된 신입사원 튜브는 사용자들이 편리하게 다양한 뉴스를 찾아볼 수 있도록 문제점을 개선하는 업무를 맡게 되었다.

개발의 방향을 잡기 위해 튜브는 우선 최근 화제가 되고 있는 "카카오 신입 개발자 공채" 관련 기사를 검색해보았다.

카카오 첫 공채..'블라인드' 방식 채용
카카오, 합병 후 첫 공채.. 블라인드 전형으로 개발자 채용
카카오, 블라인드 전형으로 신입 개발자 공채
카카오 공채, 신입 개발자 코딩 능력만 본다
카카오, 신입 공채.. "코딩 실력만 본다"
카카오 "코딩 능력만으로 2018 신입 개발자 뽑는다"

기사의 제목을 기준으로 "블라인드 전형"에 주목하는 기사와 "코딩 테스트"에 주목하는 기사로 나뉘는 걸 발견했다. 튜브는 이들을 각각 묶어서 보여주면 카카오 공채 관련 기사를 찾아보는 사용자에게 유용할 듯싶었다.

유사한 기사를 묶는 기준을 정하기 위해서 논문과 자료를 조사하던 튜브는 "자카드 유사도"라는 방법을 찾아냈다.

자카드 유사도는 집합 간의 유사도를 검사하는 여러 방법 중의 하나로 알려져 있다. 두 집합 A, B 사이의 자카드 유사도 J(A, B)는 두 집합의 교집합 크기를 두 집합의 합집합 크기로 나눈 값으로 정의된다.

예를 들어 집합 A = {1, 2, 3}, 집합 B = {2, 3, 4}라고 할 때, 교집합 A ∩ B = {2, 3}, 합집합 A ∪ B = {1, 2, 3, 4}이 되므로, 집합 A, B 사이의 자카드 유사도 J(A, B) = 2/4 = 0.5가 된다. 집합 A와 집합 B가 모두 공집합일 경우에는 나눗셈이 정의되지 않으니 따로 J(A, B) = 1로 정의한다.

자카드 유사도는 원소의 중복을 허용하는 다중집합에 대해서 확장할 수 있다. 다중집합 A는 원소 "1"을 3개 가지고 있고, 다중집합 B는 원소 "1"을 5개 가지고 있다고 하자. 이 다중집합의 교집합 A ∩ B는 원소 "1"을 min(3, 5)인 3개, 합집합 A ∪ B는 원소 "1"을 max(3, 5)인 5개 가지게 된다. 다중집합 A = {1, 1, 2, 2, 3}, 다중집합 B = {1, 2, 2, 4, 5}라고 하면, 교집합 A ∩ B = {1, 2, 2}, 합집합 A ∪ B = {1, 1, 2, 2, 3, 4, 5}가 되므로, 자카드 유사도 J(A, B) = 3/7, 약 0.42가 된다.

이를 이용하여 문자열 사이의 유사도를 계산하는데 이용할 수 있다. 문자열 "FRANCE"와 "FRENCH"가 주어졌을 때, 이를 두 글자씩 끊어서 다중집합을 만들 수 있다. 각각 {FR, RA, AN, NC, CE}, {FR, RE, EN, NC, CH}가 되며, 교집합은 {FR, NC}, 합집합은 {FR, RA, AN, NC, CE, RE, EN, CH}가 되므로, 두 문자열 사이의 자카드 유사도 J("FRANCE", "FRENCH") = 2/8 = 0.25가 된다.

입력 형식

입력으로는 str1과 str2의 두 문자열이 들어온다. 각 문자열의 길이는 2 이상, 1,000 이하이다.
입력으로 들어온 문자열은 두 글자씩 끊어서 다중집합의 원소로 만든다. 이때 영문자로 된 글자 쌍만 유효하고, 기타 공백이나 숫자, 특수 문자가 들어있는 경우는 그 글자 쌍을 버린다. 예를 들어 "ab+"가 입력으로 들어오면, "ab"만 다중집합의 원소로 삼고, "b+"는 버린다.
다중집합 원소 사이를 비교할 때, 대문자와 소문자의 차이는 무시한다. "AB"와 "Ab", "ab"는 같은 원소로 취급한다.

출력 형식

입력으로 들어온 두 문자열의 자카드 유사도를 출력한다. 유사도 값은 0에서 1 사이의 실수이므로, 이를 다루기 쉽도록 65536을 곱한 후에 소수점 아래를 버리고 정수부만 출력한다.

예제 입출력

str1	str2	answer
FRANCE	french	16384
handshake	shake hands	65536
aa1+aa2	AAAA12	43690
E=M*C^2	e=m*c^2	65536

해설 보러가기

카카오 신입 공채 1차 코딩 테스트 문제 해설

‘블라인드’ 전형으로 실시되어 시작부터 엄청난 화제를 몰고 온 카카오 개발 신입 공채. 그 첫 번째 관문인 1차 코딩 테스트가 지난 9월 16일(토) 오후 2시부터 7시까지 장장 5시간 동안 온라인

tech.kakao.com

🧚‍♀️ 나의 풀이

def solution(str1, str2):
    answer = []
    intersection = 0

    # 다중집합 생성
    def make_set(string):
        ans = list()
        for i in range(len(string) - 1):
            temp = ''
            for j in range(2):
                temp += string[i + j]  # 2개씩 묶기
            if temp.isalpha():
                ans.append(temp.upper())    # 대문자로 넣기
        return ans

    set1 = make_set(str1)
    set2 = make_set(str2)
    
    if not set1 and not set2:   # 공집합일 경우
        return 65536
	
    def find_inter(x, y) :  # 긴 것, 짧은 것
        intersection=0
        for i in y :
            if i in x :  
                intersection += 1
                x[x.index(i)]=0
        return intersection
    
    # 교집합 찾기(짧은 쪽을 반복문 돌리기)
    if len(set1) > len(set2) :
        intersection=find_inter(set1, set2)
    else :
        intersection=find_inter(set2, set1)
   
    union = len(set1) + len(set2) - intersection  # 합집합

    return int(intersection / union * 65536)

아래 코드를 고쳐서 통과한 코드!

1. 교집합을 찾는 부분을 두 리스트를 정렬하고 같은 인덱스 값끼리 비교하는 대신 in을 사용하는 것으로 바꿨다.

2. if i in x가 참이면 x에서 i를 0으로 바꿨다. 또 비교하면 안 되니까

# 실패(4, 7, 9, 10, 11)
import re

def solution(str1, str2):
    answer = []
    intersection = 0

    # 알파벳만 찾기
    def find_alpha(string):
        ans = re.findall("[A-Z]+", string, flags=re.IGNORECASE)
        return ans

    str1 = find_alpha(str1)
    str2 = find_alpha(str2)

    # 다중집합 생성
    def make_set(string):
        ans = list()
        for s in string:
            for i in range(len(s) - 1):
                temp = ''
                for j in range(2):
                    temp += s[i + j]  # 2개씩 묶기
                ans.append(temp)
        return ans

    set1 = make_set(str1)
    set2 = make_set(str2)
    
    if not set1 and not set2:   # 공집합일 경우
        return 65536
	
    # 교집합 찾기
    for i, j in zip(sorted(set1), sorted(set2)):
        if i.upper() == j.upper():  # 대문자로 만들고 비교
            intersection += 1

    union = len(set1) + len(set2) - intersection  # 합집합

    return int(intersection / union * 65536)

정규표현식으로 알파벳만 ans에 담았다.

2개씩 끊어서 다중집합에 담았다. 처음에는 "shake hands"를 shakehands로 하고 2개씩 끊었더니 결과가 다르게 나왔다.

띄어쓰기 구분을 해야하는 것을 알고 고쳤다.

두 다중집합을 정렬하고 한 원소씩 비교하면서 교집합의 갯수를 센다.

합집합은 두 다중집합의 길이를 더하고 교집합의 갯수를 뺀다.

입력으로 들어온 문자열은 두 글자씩 끊어서 다중집합의 원소로 만든다. 이때 영문자로 된 글자 쌍만 유효하고, 기타 공백이나 숫자, 특수 문자가 들어있는 경우는 그 글자 쌍을 버린다.

이걸 주의 깊게 안 봐서 순서를 거꾸로함 ㅠㅠㅠ 영문자만 고르고 두 글자씩 끊었다.

근데 제출 전 예제 4개 다 통과해서 몰랐다 🙄

🙋‍♀️ 다른 사람 풀이

# https://velog.io/@good159897/%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%A8%B8%EC%8A%A4-Python-%EB%89%B4%EC%8A%A4-%ED%81%B4%EB%9F%AC%EC%8A%A4%ED%84%B0%EB%A7%81
def solution(str1, str2) :
    list_str1=[]
    list_str2=[]
    
    for s1, slice_s1 in zip(str1, str1[1:]) :   # str1 문자만 2글자씩 뽑기
        join_str="".join([s1, slice_s1])
        if join_str.isalpha() :     # 알파벳이면
            list_str1.append(join_str.lower())
    
    for s2, slice_s2 in zip(str2, str2[1:]):    # str2 문자만 2글자씩 뽑기
        join_str="".join([s2, slice_s2])
        if join_str.isalpha() :
            list_str2.append(join_str.lower())
            
    if len(list_str1) > len(list_str2) :
        # 교집합 개수 구하기
        inter=[list_str1.remove(x) for x in list_str2 if x in list_str1]
    else :
        inter=[list_str2.remove(x) for x in list_str1 if x in list_str2]
        
    # 합집합은 교집합+나머지 원소들
    
    list_uni=list_str1+list_str2
    uni=len(list_uni)
    
    if uni == 0 :
        return 65536
    
    return int(len(inter)/uni*65536)

먼저 2글자씩 뽑고나서 알파벳이면 리스트에 넣는다. (나는 실수한 부분)

str1, str2를 따로 for문을 2번 만들었는데 함수로 만들었으면 좋았을 것이다.

두 리스트 중 길이가 더 긴 리스트는 가만히 두고 더 짧은 리스트를 반복문으로 뽑는다. 더 긴쪽 리스트에 값이 있으면 이 값을 제거한다.

# https://eda-ai-lab.tistory.com/501
import re
import math

def solution(str1, str2) :
    # 두칸씩 쪼갠 값이 모두 문자이면 str1, str2에 append
    str1=[str1[i:i+2].lower() for i in range(0, len(str1)-1) if not re.findall('[^a-zA-Z]+', str1[i:i+2])]
    str2=[str2[i:i+2].lower() for i in range(0, len(str2)-1) if not re.findall('[^a-zA-Z]+', str2[i:i+2])]
    
    # 합집합과 교집합 계산
    gyo=set(str1)&set(str2)
    hap=set(str1)|set(str2)
    
    # 합집합이 0이면 65536 출력
    if len(hap) == 0 :
        return 65536
    
    # 교집합하고 합집합의 Counter를 따로 계산
    gyo_sum=sum([min(str1.count(gg), str2.count(gg)) for gg in gyo])
    hap_sum=sum([max(str1.count(hh), str2.count(hh)) for hh in hap])
    
    return math.floor((gyo_sum/hap_sum)*65536)

'[^a-zA-Z]+'는 소문자 또는 대문자가 아닌 것이 한 글자 이상이라는 뜻이다.

2만큼 슬라이싱하고 소문자 또는 대문자가 아니면 담지 않는다.

sum, count, min을 이용해서 교집합의 갯수를 센다.

str1과 str2 중 더 작은 횟수를 리스트에 넣고 sum으로 총합을 계산한다.

교집합 구할 때 중복이 걸러져서 위 과정이 필요함.

math.floor(x)는 x보다 작거나 같고 가장 큰 정수를 반환한다.

# https://geonlee.tistory.com/105
import re
from collections import Counter as mset

p=re.compile("[a-z]{2}")

# 다중집합 만들기
def multiSet(str) :
    lst=[]
    for idx in range(len(str)-1) :
        if p.match(str[idx:idx+2]) :
            lst.append(str[idx:idx+2])
    return lst

def solution(str1, str2) :
    lst1=multiSet(str1.lower())
    lst2=multiSet(str2.lower())
    len_lst1=len(lst1)
    len_lst2=len(lst2)
    if len_lst1 == 0 and len_lst2 == 0 :	# 공집합이면
        return 65536
    mset1=mset(lst1)
    mset2=mset(lst2)
    inter_lst=list((mset1&mset2).elements())
    len_inter_lst=len(inter_lst)
    len_union_lst=len_lst1+len_lst2-len_inter_lst	# str1+str2-교집합
    return int(len_inter_lst/len_union_lst*65536)

re.compile(pattern, flags=0)은 정규표현식 객체 안에 있는 정규표현식 패턴을 컴파일한다.

"[a-z]{2}"는 소문자를 찾는 것을 2번 반복한다.

match(pattern, string, flags=0) 또는 search(pattern, string, flags=0) 등으로 매치시킨다.

&를 set끼리 쓰는 줄 알았는데 Counter는 multiset이랑 비슷해서 사용가능.

elements()는 Counter의 메소드다. 키의 값들을 반환한다.

문제 출처 👉 프로그래머스

'coding test' 카테고리의 다른 글

[파이썬, Java] 수식 최대화 (0)	2021.05.07
[파이썬] 순위 검색 (0)	2021.05.07
[파이썬] 튜플 (0)	2021.05.05
[파이썬] 메뉴 리뉴얼 (0)	2021.05.05
[파이썬] 실패율 (0)	2021.05.04

현재글[파이썬] [1차] 뉴스 클러스터링

나의 공부 기록

Roll with the punches 🚵‍♂️

나의 공부 기록