Парсим yahoo красиво

На днях обнаружил неплохую альтернативу для поиска из скриптов. Это использование Yahoo поиска через BOSS API.

Основные плюсы:

  • Цитирую: BOSS offers developers unlimited daily queries, though Yahoo! reserves the right to limit unintended usage, such as automated querying by bots. In the near future, we will be introducing a fee structure for BOSS. For more infomation, please see the Fee Structure section below.Для работы с API можно использовать python-библиотеку
  • Yahoo сама сделала python библиотеку для работы с API

Как поставить библиотеку, а также сделать простые запросы хорошо описано тут. У меня возникли трудности с тем, что пакет util не копировался куда нужно. Я поступил просто — посмотрел, что util используется только в пакете yos.yql и скопировал его туда ручками.

Простенький пример:

>>> from yos.boss import ysearch
>>> from yos.yql import db
>>> data = ysearch.search("Django",count=10)
>>> table = db.create(data=data)
>>> table.rows
[
  { u'dispurl': u'www.<b>djangoproject.com</b>',
    u'title': u'<b>Django</b> | The Web framework for perfectionists with deadlines',
    u'url': u'http://www.djangoproject.com/', u'abstract': u'<b>Django</b> is a high-level Python Web framework that encourages rapid development and clean, pragmatic design. <b>...</b> <b>Django</b> focuses on automating as much as possible <b>...</b>',
    u'clickurl': u'http://www.djangoproject.com/',
    u'date': u'2008/06/19',
    u'size': u'8524'
  }, 
  "would display 9 more results, but removed to save space"
]
Add post to:   Delicious Reddit Slashdot Digg Technorati Google
Make comment

Comments

Мдя, на developer.yahoo.com:

In less than 15 lines of code, one can search for “iphone” in Yahoo! News and overlay over each result a related result from the del.icio.us popular feed, and display the combined results in a provided search results page template.

Это очень красиво со стороны yahoo. Жалко что наши (ну xml.yandex.ru) сильно ограничивают возможности. Типа платите и т.п.

Тут только здоровая конкуренция среди поисковиков может помоч. А яндекс вроде даже за деньги прикрыл эту возможность :(

А вы уверены, что BossApi дает неограниченный доступ? Вроде 5000 запросов с одного IP в день.

PS: жалко, что раньше не натолкнулся — написал все на php.

Required. 30 chars of fewer.

Required.

captcha image Please, enter symbols, which you see on the image