Yahoo 코리아의 중의어 처리




 

Yahoo 코리아에서 '비'를 치면 가수와 날씨 중에서 선택해서 검색하라는 결과가 상단에 나옵니다.

실제 검색해보면 가수 '비'는 '가수,앨범'등의 질의가 포함되어 확장해서 검색해주고 날씨 '비'는 기상,날씨와 같은 질의가 포함되서 검색됩니다.

이러한 질의어 확장을 '노가다'로 했는지 아니면 Clustering을 통해서 자동화했는지 궁금하네요.

여하튼 좋은 시도인 것 같네요.

by 백호 | 2006/04/14 00:13 | 트랙백(164) | 핑백(1) | 덧글(0)

사용자 평판 기반 리뷰 검색 서비스 Revu.co.kr

최근 Web 2.0 관련 컨퍼런스에 단골로 참여하시던 한상기님의 회사에서 무언가를 내놓으신다고 하더니,

Revu.co.kr이라는 전문 검색 엔진을 릴리즈 하셨네요.

Crawling 대상을 리뷰 글로만 제한하고,
랭킹은 리뷰어의 평판에 따라 시행하고,
기타 Tag로 검색하는 기능등이 있습니다.

최근에 제가 관심을 가지고 있는 여행 관련 리뷰글을 검색해 보았는데 아직 검색 결과는 잘 나오는 것 같지는 않습니다.

리뷰 문서만의 크롤링을 어떻게 했을까요? 노가다로 지정을 했을까요? 아니면 특정 키워드가 포함되면 자동으로 수집하도록 했을까요.(리뷰 문서들 중에서 자주 나오는 단어들을 통계적으로 추출해서?)

사용자 평판을 어떤 식으로 구했을까요?

훔훔 정말 궁금합니다.

좋은 시도인 것 같습니다~~

by 백호 | 2006/04/08 14:18 | 검색 | 트랙백(80) | 덧글(0)

RSS 피드 필터링 툴 FeedRinse

http://www.feedrinse.com/

재미있는 서비스 입니다.

RSS Feeding 방식이 증가하면 결국 개인이 구독하는 컨텐츠의 양도 증가할테고 그러면 다시 과도한 정보의 이슈와 이를 잘 걸러내는 필요가 생겨날 것입니다.

이러한 가려운 부분을 보고 만든 서비스인것 같아요.

절차는 간단합니다. 위의 사이트를 통해서 Feed를 신청하고 키워드등을 통한 Filter설정을 통해 불필요한 Feed는 걸러내는 것입니다.

단기간에는 크게 활성화되지는 않겠지만요...

by 백호 | 2006/04/01 15:12 | 트랙백(165) | 덧글(0)

내 블로그에 링크를 건 블로거 찾기


네이버 블로그를 쓰다가 이글루스를 블로그를 쓰면서 불편했던 점은 누가 내 블로그를 링크걸었는지... 누가 방문했는지를 알기 어렵다는 것이었습니다.(아무래도 서비스의 강조 지점이 많이 다를테니까요.)

우연히 Google Help를 뒤지다가 자신의 블로그를 링크 건 블로거를 찾는 쉬운 방법을 찾았습니다.

Google 검색창에

link: + URL을 쳐보세요~



by 백호 | 2006/03/24 14:14 | 트랙백(45) | 덧글(0)

All Things Web 2.0 - "THE LIST"

http://www.sacredcowdung.com/archives/2006/03/all_things_web.html

훔 많기도 하다. 2.0 꼬리표... 전에 닷컴 열풍시에 붙었던 .com 꼬리표처럼 남발되는 것 같기도 합니다. ^^

by 백호 | 2006/03/24 12:02 | 트랙백(126) | 덧글(0)

블로거간의 대화를 관리해주는 서비스

블로그에서 늘 불편하던 것은

- 내가 단 댓글에 블로그 주인장이 답을 했는지...
- 특정 이슈가 된 블로그의 댓글을 보기위해선 자주 방문하는 방법 밖에 없다는...

이런 문제들을 해결해주고 블로거들 사이의 대화를 추적, 관리해주는 서비스가 있었습니다.

http://co.mments.com/

재미있네요.~ @.@

by 백호 | 2006/03/20 11:56 | Web 2.0 | 트랙백(80) | 덧글(0)

Beyond the Commons : Investigating the Value of Personalizing Web Search


http://haystack.lcs.mit.edu/papers/teevan.pia2005.pdf

본 논문은 개인화 검색에 대한 것입니다.

저자들은 먼저 현재 사용화되어 있는 검색엔진들이 Ranking한 검색결과가 실제로 각각 개인의 지각된 관련성과 얼마나 연결될 것인지에 대한 실험을 수행하였습니다.

아래의 그림처럼 높은 랭킹의 결과인 경우에는 지각된 관련성과 연결되었지만 랭킹 순위가 5위 이하로 갈 경우에는 많은 부분 차이가 났습니다.




이는 현재 검색 엔진의 랭킹 중 상위 것들을 제외하면 실제 개별 사용자의 지각된 관련성과 많이 차이가 난다는 것입니다.

이는 같은 질의어에 대해 각각 개인별로 다른 평가를 한다는 것과 동시에 같은 질의어에 같은 의도를 가지고 있어도 그 결과를 다르게 평가한다는 것입니다.

본 논문은 이러한 문제를 해결하는 것이 개인화 검색이며 앞으로 계속 연구되어야 할 것이라고 결론을 내리고 있습니다.

너무 당연한 이야기인가요. -.-;;;

by 백호 | 2006/03/16 14:21 | 트랙백(303) | 덧글(18)

Oodle의 주요한 Q&A

 
http://oodle.typepad.com/oodleblog/2006/03/some_qa_.html

- 벼룩시장류의 사이트를 크롤링해서 검색시켜주는 우들에게 중요한 것은 Fresh함. 즉 자신의 매물이나 최신의 매물을 남들보다 먼저 확인하는 것이 중요하다는 이야기. 인덱스 업데이트가 5분내로 이루어 질 수 있도록 노력하고 있군요.

- 또 개별 사이트를 더 잘 크롤링하기 위한 특수한 크롤러인 'micro-spiders'를 운영하고 있으며 큰 사업자로부터는 직접 DB를 넘겨받기도 하는 것 같습니다.

Some Q&A

We’ve been very happy to see the prominence of search in the classifieds market grow so quickly.    We believe that search is a vital element to making online classifieds a great medium for both buyers as well as classified advertisers.  Another search engine for classifieds launched yesterday.  We welcome Vast to the crusade. 

I have received a bunch of questions in the last 24 hours.  Thought I'd post some of my replies here:

How many sites does Oodle reference in it’s index?

We index both ends of the long tail and point to over 50k sites. 

How many listings does Oodle index?

In our current coverage area (just over 100 metros), we have 10M active listings.   This only includes listings that are fresh and relevant: we keep track of all the listings we’ve seen and auto-expire old ones that are still online and exclude things that look like listings but aren't (reviews, spam, etc.).   This number also doesn’t include listings currently in our index but outside of our coverage area.  In next month, we’ll be rolling out millions more listings as we expand our footprint. 

How old is your index?

Our index is refreshed every few minutes.  From the time we first see a listing online, clean/tag/rank it, and push it out to our index is usually under 5 minutes (and we’re working hard to reduce that number).

It’s essential for a classifieds search engine index to be fresh.  Unlike auctions, where you want to be the last person to respond, with classifieds you want to be the first.   That’s also why we offer alerts, so people can be notified in minutes when something they are looking for becomes available.

How does your crawling technology work?

We use a hybrid approach. Some crawlers look for sites to crawl.  We also have a farm of "micro-spiders" that target collections of similar sites.  We also get data feeds from a large number of partners.

When will you offer an API?

This is mentioned in my previous post.   We have an API that we've deployed with a few partners.  It will be publicly available in the near future.  If you're interested in using it in the meantime, email us at partner@oodle.com.   

We also offer RSS which has always been available.

by 백호 | 2006/03/16 11:34 | 검색 | 트랙백(10) | 덧글(0)

MS의 Live Search 개발자의 이야기

 
http://www.selberg.org/2006/03/12/live-baby-live/

구글과 MS의 접근방식이 다르다는 것은 오해라고 주장하고 있습니다.

결국 기능의 이슈고 사용자가 만족하는 기능을 구현 제공하는 것이 공통 과제라는 것입니다.

기술이 아니라 사용자 가치!!!

by 백호 | 2006/03/14 11:37 | 검색 | 트랙백(67) | 덧글(71)

◀ 이전 페이지          다음 페이지 ▶