Archive for February, 2009

Парсим yahoo красиво

На днях обнаружил неплохую альтернативу для поиска из скриптов. Это использование Yahoo поиска через BOSS API.

Основные плюсы:

  • Цитирую: BOSS offers developers unlimited daily queries, though Yahoo! reserves the right to limit unintended usage, such as automated querying by bots. In the near future, we will be introducing a fee structure for BOSS. For more infomation, please see the Fee Structure section below.Для работы с API можно использовать python-библиотеку
  • Yahoo сама сделала python библиотеку для работы с API

Как поставить библиотеку, а также сделать простые запросы хорошо описано тут. У меня возникли трудности с тем, что пакет util не копировался куда нужно. Я поступил просто — посмотрел, что util используется только в пакете yos.yql и скопировал его туда ручками.

Простенький пример:

>>> from yos.boss import ysearch
>>> from yos.yql import db
>>> data = ysearch.search("Django",count=10)
>>> table = db.create(data=data)
>>> table.rows
[
  { u'dispurl': u'www.<b>djangoproject.com</b>',
    u'title': u'<b>Django</b> | The Web framework for perfectionists with deadlines',
    u'url': u'http://www.djangoproject.com/', u'abstract': u'<b>Django</b> is a high-level Python Web framework that encourages rapid development and clean, pragmatic design. <b>...</b> <b>Django</b> focuses on automating as much as possible <b>...</b>',
    u'clickurl': u'http://www.djangoproject.com/',
    u'date': u'2008/06/19',
    u'size': u'8524'
  }, 
  "would display 9 more results, but removed to save space"
]

Планета русского веба данных.

Агрегатор блогов по теме веб данных (семантический веб) можно считать официально работающим — сегодня были отлажены последние крупные баги. Лента будет работать по адресу http://lenta.webofdata.ru Можно читать сообщения online через сайт, а можно подписаться на фид и читать через любимый news reader.

Код агрегатора доступен по адресу http://hg.pydev.ru/feedzilla. Так что любой желающий может завести на нём свою планетку :-) Интересная фича агрегатора — он позволяет выводить только тематические сообщения. Тематичность определяется по наличию нужных тэгов или слов в тексте. Алгорим можно посмотреть тут

Простенький тест по питону

[http://www.quizful.net/test/python_basics](http://www.quizful.net/test/python_basics) — я умудрился на три (из 15) ответить неправильно :-)