[paper]로드뷰에서 정확한 간판 인식을 위한 글자 검출 영역 병합 방법
1. Introduction
- 컬러 히스토그램을 이용한 방법은 이미지에서 가장 분포가 높은 색(예를 들어 검은색) 또는 최빈 등장 색만 글자로 인식한다는 것인가?
간판에 글자에 자주 사용되는 색깔이 있다는 가정하에 히스토그램을 이용한다는 것인가? - 두 단어의 거리를 이용한 방법은 한 단어를 두 단어로 인식한 경우를 해결하기 위해서 두 단어 사이에 대한 특정 스레쉬홀드 값을 지정하고 그보다 거리가 길면 두 단어로 인식하고, 짧으면 한 단어로 인식하게 하는 방법인가?
- 글자 단위라는 게 문자, 음절, 단어, 어절 무슨 단위인지 헷갈림
2. Background
2-1. 글자 검출 모델: CRAFT
기존의 모델은 단어 단위로 학습 → 변형이 가해진 글자 검출하는데 어려움. clova AI의 craft 모델은 글자 단위의 학습, 글자 간의 인접 여부를 통해 단어 검출 → 변형이 심한 글자도 검출 가능. 로드뷰에 이 모델이 더 적합함.
2-2. 글자 인식 모델: TPS-ResNet-BiLSTM-Attn
STR의 일관되지 않았던 데이터 셋을 일관되게 함. STR 방법을 변환, 특징 추출, Sequence 모델링, 예측이라는 4가지 단계로 분류함. 그래서 STR 방법들 간의 성능 비교가 가능해짐. 본 논문에서는 이 분석을 통해 가장 정확한 조합으로 확인된 STR의 TPS-ResNet-BiLSTM-Attn 조합을 글자 인식 모델로 결정함.
3. Approach
3-1. 간판 인식 시스템
- craft 모델로 검출한 간판의 텍스트 영역(bounding box) 탐지
- 탐지된 영역 crop
- TPS-ResNet-BiLSTM-Attn 모델로 crop된 영역안에서의 텍스트 인식
- 공개된 한국어 모델이 없어, AI-hub와 MJ-Synth 데이터 셋을 사용(한국어 기준 ACC: 93%, 영어 기준 ACC: 80%)
댓글남기기