Hiun Kim (김희언) daily 📝
daily writings (일상 기록)처리 방식과 처리 대상 중 어떤것이 연구를 이끌어 가는가에 대한 생각.
June 14, 2025
처리 방식과 처리 대상에 대한 생각.
기술과 데이터에 대한 생각.
기술(method) 에 종속 되어서는 안된다.
검색을 예로 들면,
llm 포함 완전 새로운 방법은 무엇인지
그러면서도 그것의 변하지 않는 틀은 무엇인지
항상 고민이 필요할것 같다.
사실 기술(methtod) 의 적합성은
거기서 유통되는 데이터에
의존적이다.
예를들어 검색에서, 태그 데이터라면,
bm25 가 나을수도 있다.
복잡한 dense retrieval 보다.
effectivness 및 efficiency 를 둘다 고려한 관점에서는 특히 그렇다.
즉 문제를 해결하기 위해
어떤 데이터(대상)가 적합 한지 보고
그 데이터(대상)에 맞는 기술(method)를 연구해야 하는 것.
으로 생각 된다.
더 고 수준의 문제를 항상 보게 된다,
그처럼 문제가 바뀌면,
주로 그 문제를 모델링 하기 위한 데이터(검색에서는 피처, llm 에서는 입력 데이터 등)
도 바뀔 수 있음으로
그것에 적합한 기술(method) 도 바뀔 수 있다.
즉 기술이 바뀌는 이유는 대상 데이터가 바뀌기 때문에 그런것으로 볼 수 있다.
그 데이터는 이미 있는 데 기술이 한계로 대응 되지 못했던 것일수도 있고,
사람들이 기술에게 해결을 기대하지 않아서 데이터의 형태로 충분히 존재 못했던 것일수도 있다.
어느쪽이든 더 어려운 데이터를 보고, 그것을 해결할 수 있는 기술에 대해 고민하는것은,
기존것을 혁신하는 일이던, 더 가능성을 만드는 일이던, 둘다 의미가 있어 보인다.
사실 어려운 데이터라는 것 자체가, 전통적인 검색 문제를 다루더라도,
그 자체가 새롭고, 그것을 해결하는 것이 새로운 기술이라도 충분히 불릴만 한 요소이다.
즉 더 좋은 기술이란,
더 어려운 데이터에 대해 대응 되는것일 수 있다.
그리고 더 어려운 데이터는,
적어도 사람에 대한 데이터라면,
수집과 관찰을 통해 얻을 수 있다.
사실 그래서, 적어도 ml 기술을 진보 시킨다는것에 한해서는,
더 어려운 데이터를 휙득하는것으로 부터 시작한다고 생각 해볼수도 있겠다.
그 어려운 데이터가 매우 희소하다면, 통계적인 방법을 쓸 수도 있겠지만,
데이터가 어려운데 양이 많은 경우 ml 을 사용하는것도 일반적인 생각일 수 있을 것이다.
아직 많은 어려운 데이터 들이 있고,
사실 사람의 acticity 같은, 더 비정형적이고 temporal sequence 를 가진,
데이터들도 있다.
세상은 복잡하다.
그만큼 ml 을 비롯한 기술(method) 가 발전되고, 더 발견되어야 할, 것들이 많다고도 생각된다.